聚类热图

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.cn. -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- 聚类热图(Cluster heatmap)常用于大数据表数据关系的可视化展示,以便快速阅读和发现规律。

参数调整

基因表达量矩阵文件,请参考表达量示例文件(必选)
对数据进行log化处理后,颜色展示会更平滑。一般情况下,芯片/微生物数据不需log处理,测序(基因/转录本)数据以2为底取对数,蛋白/代谢数据以10为底取对数。
基因/蛋白/代谢物/微生物物种聚类可展示出变量间的表达模式相似度
样本聚类可展示出不同样本/分组间的相似度,用于考察数据质量、重复性等
是否在图片上显示基因/蛋白/代谢物/微生物物种名称,若名称长度大于60个字符,则自动截取后显示。
是否在图片上显示样本名称,默认显示
样品分组信息文件,请参考分组示例文件(非必须)
分组配色方案自定义
表型注释信息文件,请参考注释示例文件(非必须)
数据归一化方式,默认"row"
图片高度(非负整数),可调整,如10;
图片高度(非负整数),可调整,如8;
格子高度(非负数),可调整,如12,注意不与图片高度等比例,一般不建议修改
格子宽度(非负数),可调整,如15,注意不与图片宽度等比例,一般不建议修改
特征字符大小(非负数),可调整,如8
样本名字符大小(非负数),可调整,如10
选择对字符串进行截取,保留前70个字符
字体类型,默认"Arial"
字体样式,默认"无"
注意:不能添加特殊字符,如 () 等
提交 重置

结果与说明

工具预估运行时间为 {{ run_time }}

程序运行出错,报错信息如下:

请检查数据文件格式后重新提交运行

结果下载

本次分析未能正常生成结果文件,请核对输入信息或者参考使用说明进行使用!

  1. 1. 表达量矩阵文件

    第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。


fpkm.png


    demo数据下载fpkm.3rep.xls


  1. 2. 样本分组信息文件(非必选)

    第一列为样本分析名称"Sample", 与表达量矩阵列名保持一致,第二列为分组名称"Group"。


group.png


    demo数据下载group.xls


  1. 3. 注释信息文件(非必选

    第一列为特征名称, 与表达量矩阵行名保持一致,其余各列为特征的注释信息


p.png


    demo数据下载phenotype.xls


4. 分组配色方案


image.png



  1. 1. 图形输出

    示例图片为默认参数下的聚类热图。示例图片中,一个小方格代表一个基因,其颜色代表该基因表达量大小,红色表示高表达基因,蓝色表示低表达基因。图片上方树形图表示来自不同实验分组的不同样品的聚类分析结果,左侧树状图表示对来自不同样本的不同基因的聚类分析结果。

heatmap.png


    示例图片为添加分组信息和注释信息且不对行进行聚类。

heatmap.png

  1. 2. 表格输出

    若选择行/列聚类,将输出聚类后顺序文件,“heatmap.reorder_cluster_result.xls”。示例图片中,基因名顺序已为聚类分析后排序,并补充各样本原表达量信息


聚类结果.png



(1) 尽量新建全新的excel文件进行数据筛选,不在源文件操作。

(2) 少于2个样本时,不绘制热图;仅2个样本时,不对数据进行行标准化;

(3) 默认条件下,行列聚类,输出聚类后排序列表;当行不聚类时,限制绘图特征数目(数据量)不能多于 65536 个;当行聚类时,特征数目(数据量)不能多于14000个;

(4) 若显示特征名称时,字符串太长,可选择对字符串(70个字符)进行截取;

(5) 某特征在所有样本中数值相等(方差等于0)时将自动删除,并提供oeweb_task.log日志文件;

(6) 存在相同特征时,将自动计算表达量之和且保留高表达特征,并提供oeweb_task.log日志文件;

(7) 分析前请检查数据是否完整,不允许有空值

(8) 数据预处理(log化)公式:pre_data = log(data + 1) ,当数据中存在负数时,请选择"默认无需处理"

(9) 行标准化方式默认为 zscore 标准化。

(10) 一款简单易操作的编辑器:Notepad++,下载地址:https://notepad-plus-plus.org/

(11) 修改文件可进行以下操作:

  1. 在原始转录组报告结果(未进行修改)中,单击右键,以notepad++方式打开文件;

  2. 新建excel文件,选中第一列,在"单元格格式"中选择"文本";

  3. 复制文本打开的源文件内容,粘贴到excel文件中,保存后进行修改。

1.png

2.png



(12) 修改文件切记:删除-整行/整列,而非按退格键或"清除内容"。


版本更新日期更新内容
v1.82020.09.18整合多平台聚类热图工具
v1.92020.09.27修复数据框报错问题
v1.9.12020.10.23添加图片高宽参数
v2.1.12020.10.28添加格子高宽,行列字符大小,归一化参数
v2.1.22020.11.04添加长字符截取参数,重复id保留表达量高者并输出warning文件
v2.1.32020.11.13针对目前所遇到的文件格式错误制定报错机制
v2.1.42020.12.11添加字体参数, 判断编码方式
v2.1.52020.12.26
判断编码方式优化, 空数据矩阵检查, 非负数进行log化抛出报错
v2.1.6
2020.01.07
数据检查顺序调整,cutree判断修改
v2.2.02020.01.11
行名替换代码修改
v2.3.02021.01.22报错日志oeweb_task.log;检查方差值是否异常
v2.4.02021.02.01画布长宽限制为正数
V1.012021.03.07修改log化计算方式
V1.052021.11.15添加图形标题参数, 修改日期型基因的匹配形式, 增加聚类树指定排序功能; 添加色系蓝白红-2
V1.062021.11.16修复列聚类bug
V1.082021.11.24修复列聚类与重排参数逻辑出现的bug
v1.092022.1.19增加分组颜色方案,修改pdf不能出图,自适应图片大小调整部分参数默认值
v1.102022.1.26页面显示报错,增加图例最大值和最小值


问题反馈