聚类热图

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.com.
--------------------------------------------------------------------------------------------------------------------------------------------------------
聚类热图(Cluster heatmap)常用于大数据表数据关系的可视化展示,以便快速阅读和发现规律。

参数调整

基因表达量矩阵文件,请参考表达量示例文件(必选)
对数据进行log化处理后,颜色展示会更平滑。一般情况下,芯片/微生物数据不需log处理,测序(基因/转录本)数据以2为底取对数,蛋白/代谢数据以10为底取对数。
基因/蛋白/代谢物/微生物物种聚类可展示出变量间的表达模式相似度
样本聚类可展示出不同样本/分组间的相似度,用于考察数据质量、重复性等
对结果进行命名用于区分不同的任务,默认为当前工具名称_当前日期时间
是否在图片上显示基因/蛋白/代谢物/微生物物种名称,若名称长度大于60个字符,则自动截取后显示。
是否在图片上显示样本名称,默认显示
格子边框颜色,当格子边框显示时,此参数默认颜色为灰色
样品分组信息文件,请参考分组示例文件(非必须)
分组配色方案自定义
仅当上传样本分组文件时生效。可选择对同组样本进行取和、取平均、取中位数或不进行操作,默认不进行操作。注意,若选择进行分组合并的操作,合并后的分组将替代原来的样本,且不再进行分组信息的注释
表型注释信息文件,请参考注释示例文件(非必须)
数据归一化方式,默认"row"
基于层次聚类划分行的簇数(非负整数),如不进行行聚类或分割,则忽略参数;
基于层次聚类划分列的簇数(非负整数),如不进行列聚类或分割,则忽略参数;
格子高度(非负数),可调整,如12,范围在0.1-12,大于12按照12计算,当分析条目过多时,需要调小次参数否则会展示不全
格子宽度(非负数),可调整,如15,范围在10-40,大于40按照40计算,小于10按照10计算
特征字符大小(非负数),可调整,如8
样本名字符大小(非负数),可调整,如10
图例的最大值,注意图例的最大值和最小值需要配对使用
图例的最小值,注意图例的最大值和最小值需要配对使用
选择对字符串进行截取,保留前70个字符
字体类型,默认"Helvetica"
字体样式,默认"无"
筛选表达丰度值之和从大到小排序的top特征进行绘图。默认不输入,即不进行筛选。注意,当文本框输入特征列表且选择“筛选基因用途”为“筛选绘图特征名称”时,该参数将失效
当导入样本分组信息文件时,是否按照分组重新对数据矩阵排序,默认为"否"
注意:不能添加特殊字符,如 () 等
筛选基因用途,可选择用于“绘图特征筛选”或“注释基因挑选”,注意,当且仅当文本框内输入内容不为空时起效
从丰度矩阵文件中选取用于特征名称列表用于绘图或注释。默认不输入,即不进行筛选。输入格式为一行一个特征,每个特征间需换行,用于特征筛选或注释由上方选项“筛选基因用途”决定。注意,这里通过输入框输入的绘图特征名称区分大小写
图片高度
图片宽度
提交 重置

结果与说明

任务正在排队中,目前后台任务排队数量:

当前任务开始运行后预计需要耗时

请勿重复提交任务!

程序正在运行中,预计需要耗时

{{ m.content }}

程序运行出错,报错信息如下:

玩转攻略可点击公众号推文:5分钟教你使用欧易云快速进行聚类热图绘制


1. 表达量矩阵文件

    第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。如果表达量矩阵文件中存在空值的情况,请补充完整后再分析


fpkm.png

demo数据下载fpkm.3rep.xlsx



2. 样本分组信息文件(非必选)

    第一列为样本分析名称"Sample", 与表达量矩阵列名保持一致,第二列为分组名称"Group"(注意列名首字母的大小写


group.png


    demo数据下载group.xlsx



3. 注释信息文件(非必选

    第一列为特征名称, 与表达量矩阵行名保持一致,其余各列为特征的注释信息(注意列名首字母的大小写


p.png


    demo数据下载phenotype.xlsx



4. 分组配色方案


image.png



  1. 1. 图形输出

    示例图片为默认参数下的聚类热图。示例图片中,一个小方格代表一个基因,其颜色代表该基因表达量大小,红色表示高表达基因,蓝色表示低表达基因。图片上方树形图表示来自不同实验分组的不同样品的聚类分析结果,左侧树状图表示对来自不同样本的不同基因的聚类分析结果。

heatmap.png


    示例图片为添加分组信息和注释信息且不对行进行聚类。



heatmap2.png


  1. 2. 表格输出

    若选择行/列聚类,将输出聚类后顺序文件,“heatmap.reorder_cluster_result.xls”。示例图片中,基因名顺序已为聚类分析后排序,并补充各样本原表达量信息


聚类结果.png



(1) 尽量新建全新的excel文件进行数据筛选,不在源文件操作。

(2) 少于2个样本时,不绘制热图;仅2个样本时,不对数据进行行标准化;

(3) 默认条件下,行列聚类,输出聚类后排序列表;当行不聚类时,限制绘图特征数目(数据量)不能多于 65536 个;当行聚类时,特征数目(数据量)不能多于14000个;

(4) 若显示特征名称时,字符串太长,可选择对字符串(70个字符)进行截取;

(5) 某特征在所有样本中数值相等(方差等于0)时将自动删除,并提供oeweb_task.log日志文件;

(6) 存在相同特征时,将自动计算表达量之和且保留高表达特征,并提供oeweb_task.log日志文件;

(7) 分析前请检查数据是否完整,不允许有空值

(8) 数据预处理(log化)公式:pre_data = log(data + 1) ,当数据中存在负数时,请选择"默认无需处理"

(9) 行标准化方式默认为 zscore 标准化。

(10) 一款简单易操作的编辑器:Notepad++,下载地址:https://notepad-plus-plus.org/

(11) 修改文件可进行以下操作:

  1. 在原始转录组报告结果(未进行修改)中,单击右键,以notepad++方式打开文件;

  2. 新建excel文件,选中第一列,在"单元格格式"中选择"文本";

  3. 复制文本打开的源文件内容,粘贴到excel文件中,保存后进行修改。

1.png

2.png



(12) 修改文件切记:删除-整行/整列,而非按退格键或"清除内容"。



版本更新日期更新内容
v1.82020.09.18整合多平台聚类热图工具
v1.92020.09.27修复数据框报错问题
v1.9.12020.10.23添加图片高宽参数
v2.1.12020.10.28添加格子高宽,行列字符大小,归一化参数
v2.1.22020.11.04添加长字符截取参数,重复id保留表达量高者并输出warning文件
v2.1.32020.11.13针对目前所遇到的文件格式错误制定报错机制
v2.1.42020.12.11添加字体参数, 判断编码方式
v2.1.52020.12.26
判断编码方式优化, 空数据矩阵检查, 非负数进行log化抛出报错
v2.1.6
2020.01.07
数据检查顺序调整,cutree判断修改
v2.2.02020.01.11
行名替换代码修改
v2.3.02021.01.22报错日志oeweb_task.log;检查方差值是否异常
v2.4.02021.02.01画布长宽限制为正数
V1.012021.03.07修改log化计算方式
V1.052021.11.15添加图形标题参数, 修改日期型基因的匹配形式, 增加聚类树指定排序功能; 添加色系蓝白红-2
V1.062021.11.16修复列聚类bug
V1.082021.11.24修复列聚类与重排参数逻辑出现的bug
v1.092022.1.19增加分组颜色方案,修改pdf不能出图,自适应图片大小调整部分参数默认值
v1.102022.1.26页面显示报错,增加图例最大值和最小值
v1.262022.8.9增加筛选基因等功能


在线咨询