聚类热图

开发者:fmt, czq, ljw  |  更新于1 周前  |  浏览量 15404

聚类热图(Cluster heatmap)常用于大数据表数据关系的可视化展示,以便快速阅读和发现规律。
默认情况:
1. 少于2个样本时,不绘制热图;仅2个样本时,不对数据进行归一化;
2. 默认条件下,行列聚类,输出聚类后排序列表,限制绘图特征数目上限为 65536 个,聚类特征上限为14000个;
3. 可根据参数自定义热图,默认不显示特征名称,若显示特征名称时,可选择对字符串(70个字符)进行截取;
4. 某特征在所有样本中数值相等(方差等于0)时将自动删除,并提供warning文件;
5. 存在相同特征时,将自动计算表达量之和且保留高表达特征,并提供warning文件;
6. 分析前请检查数据是否完整,不允许有空值。

参数信息
  1. 基因表达量矩阵文件,请参考表达量示例文件(必选)
  2. 对数据进行log化处理后,颜色展示会更平滑。一般情况下,芯片/微生物数据不需log处理,测序(基因/转录本)数据以2为底取对数,蛋白/代谢物数据以10为底取对数。
    基因/蛋白/代谢物/微生物物种聚类可展示出变量间的表达模式相似度
    样本聚类可展示出不同样本/分组间的相似度,用于考察数据质量、重复性等

查看更多非必选参数

    是否在图片上显示基因/蛋白/代谢物/微生物物种名称,若名称长度大于60个字符,则自动截取后显示。
    是否在图片上显示样本名称,默认显示
  1. 样品分组信息文件,请参考分组示例文件(非必须)
  2. 表型注释信息文件,请参考注释示例文件(非必须)
  3. 基于层次聚类划分行的簇数(非负整数),如不进行行聚类或分割,则忽略参数;
  4. 基于层次聚类划分列的簇数(非负整数),如不进行列聚类或分割,则忽略参数;
  5. 图片高度(非负整数),可调整,如10;
  6. 图片高度(非负整数),可调整,如8;
  7. 格子高度(非负数),可调整,如12,注意不与图片高度等比例,一般不建议修改
  8. 格子宽度(非负数),可调整,如15,注意不与图片宽度等比例,一般不建议修改
  9. 特征字符大小(非负数),可调整,如8
  10. 样本名字符大小(非负数),可调整,如10
    字体类型,默认"Arial"
    字体样式,默认"无"
    当导入样本分组信息文件时,是否按照分组重新对数据矩阵排序,默认为"否"
相关数据
  • 使用说明
  • 结果说明
  • 重要提示
  • 版本信息
  • 1. 表达量矩阵文件(必选):

        表达量矩阵文件为必填参数,第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。

        输入文件格式支持xlsx、csv、txtxls,文件名不允许有空格和特殊字符,外来数据请先调整数据格式。

    fpkm.png

        示例表达矩阵文件下载:fpkm.3rep.xls


    2. 样本分组信息文件(可选):

        示例文件为样本分组信息,需包含列名 "Sample", "Group"。

    group.png

        示例样本分组信息文件下载:group.xls


    3. 注释信息文件(可选):

        示例文件为表型数据

    p.png

        示例注释信息文件下载:phenotype.xls



  • 1. 图形输出

        示例图片为默认参数下的聚类热图。示例图片中,一个小方格代表一个基因,其颜色代表该基因表达量大小,红色表示高表达基因,蓝色表示低表达基因。图片上方树形图表示来自不同实验分组的不同样品的聚类分析结果,左侧树状图表示对来自不同样本的不同基因的聚类分析结果。

    heatmap.png

    2. 表格输出

        若选择行/列聚类,将输出聚类后顺序文件,“heatmap.reorder_cluster_result.xls”。示例图片中,基因名顺序已为聚类分析后排序,并补充各样本表达量信息。

    聚类结果.png


  • 1. 尽量新建全新的excel文件进行数据筛选,不在源文件操作。


    2. 一款简单易操作的编辑器:Notepad++,下载地址:https://notepad-plus-plus.org/


    3. 修改文件可进行以下操作:

        a. 在原始转录组报告结果(未进行修改)中,单击右键,以notepad++方式打开文件;

        b. 新建excel文件,选中第一列,在"单元格格式"中选择"文本";

        c. 复制文本打开的源文件内容,粘贴到excel文件中,保存后进行修改。

    1.png

    2.png



    4. 修改文件切记:删除-整行/整列,而非"删除"或"清除内容"。


  • 版本
    更新日期更新内容
    v1.82020.09.18整合多平台聚类热图工具
    v1.92020.09.27修复数据框报错问题
    v1.9.12020.10.23添加图片高宽参数
    v2.1.12020.10.28添加格子高宽,行列字符大小,归一化参数
    v2.1.22020.11.04添加长字符截取参数,重复id保留表达量高者并输出warning文件
    v2.1.32020.11.13针对目前所遇到的文件格式错误制定报错机制
    v2.1.42020.12.11添加字体参数, 判断编码方式
    v2.1.52020.12.26
    判断编码方式优化, 空数据矩阵检查, 非负数进行log化抛出报错
    v2.1.6
    2020.01.07
    数据检查顺序调整,cutree判断修改
    v2.2.02020.01.11
    行名替换代码修改