差异统计(组学通用)

搜索
开发者:lyc  |  更新于2 周,2 日前  |  浏览量 1185

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.cn.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
差异统计分析小工具,用于对芯片、测序、qPCR、蛋白、代谢、微生物等标准化后的数据,进行差异计算。常见的差异分析分为参数检验和非参数检验。该款小工具提供6类统计方法:
1、ANOVA分析:即单因素方差分析。适用场景为 >=3 组的比较;数据符合正态分布的情况下适用;(注:如大于等于3组情况下,选取ANOVA方法,会同时提供后验概率计算结果)
2、Kruskal Wallis检验:适用场景为 >=3 组的比较;数据不符合正态分布的情况下可用;
3、T test检验:适用场景为 2 组的比较;数据符合正态分布的情况下适用;
4、Wilcoxon检验:适用场景为 2 组的比较;数据不符合正态分布的情况下可用;
5、T test配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应;
6、Wilcoxon配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应。

参数信息
  1. 微生物/蛋白/代谢/(测序-芯片-qPCR)基因表达或者丰度矩阵【注:需要提供标准化后的数据】
  2. 样本的分组文件
  3. 差异统计的方法,下拉可选(如选取ANOVA,且比较组大于等于3组,同时提供后验概率TukeyHSD分析结果)
  4. p值矫正的算法,共7种可选(默认建议BH方法):1.BH; 2.bonferroni; 3.fdr; 4.holm; 5.hochberg; 6.hommel; 7.BY
    选择是否对差异feature绘制boxplot箱线图。注:默认不绘制。如果选择绘制,程序运行时间会延长。!!!如果feature过多,不建议绘制。

查看更多非必选参数

    可选两种色系:柳叶刀配色/自定义配色
  1. 自行命名导出的统计文件(tab键分割文件)。右键选择用excel打开
  2. 自行命名导出p值小于0.05的矩阵文件(tab键分割文件),可用于热图绘制。右键选择用excel打开
    字体类型:Arial、Times New Roman、Verdana3类可选
    字体样式:默认为regular;bold(加粗)/ italic(斜体)可选
相关数据
  • 使用说明
  • 结果说明
  • 版本信息
  • 1. 矩阵文件(例如:基因(测序、芯片、qPCR)/蛋白/代谢物/微生物标准化后的表达或者丰度矩阵)

    第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。注:列名不允许为空


    示例图片1.png

     demo数据下载: matrix.xlsx



    2. 分组文件(即:样本的分组情况)

    第一列为样本名称Sample,第二列为分组名称Group,第三列为配对样本的对应编号pairedID(如果2组间样本配对,则需要以相同的ID命名)

    注:

    (1)如所选方法为非配对统计检验,可以不用提供第三列pairedID

    (2)列名的拼写及字母大小写请和示例保持一致:Sample  ;  Group ;  pairedID

    示例图片2.png

     demo数据下载: group.xlsx


  • 差异统计的6类方法:

    1、ANOVA分析:即单因素方差分析。适用场景为 >=3 组的比较;数据符合正态分布的情况下适用;(注:如大于等于3组情况下,选取ANOVA方法,会同时提供后验概率计算结果)
    2、Kruskal Wallis检验:适用场景为 >=3 组的比较;数据不符合正态分布的情况下可用;
    3、T test检验:适用场景为 2 组的比较;数据符合正态分布的情况下适用;
    4、Wilcoxon检验:适用场景为 2 组的比较;数据不符合正态分布的情况下可用;
    5、T test配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应;
    6、Wilcoxon配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应。


    p值矫正的算法选择,共提供7类方法:

    (1)BH,即:Benjamini & Hochberg(1995); 

    (2)bonferroni,即:Bonferroni

    (3)fdr,即FDR方法

    (4)holm,即Holm(1979) 

    (5)hochberg,即Hochberg(1988)

    (6)hommel,即Hommel(1988)

    (7)BY,即Benjamini & Yekutieli(2001)

    注:

    (1)默认建议选用BH方法;

    (2)“bonferroni”和“BH”法是较为常见的方法;

    (3)“bonferroni”方法进行校正是最严格的方法

    分析软件:R中 p.adjust() 函数

    参考文献:Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing,DOI: 10.2307/2532694


    后验概率选取TukeyHSD方法,仅在样本比较组大于等于3组,且选取ANOVA方法的时候,结果会增加后验概率计算结果列。如想了解更多有关后验概率的内容,参考:

    https://en.wikipedia.org/wiki/Tukey%27s_range_test

    https://web.archive.org/web/20081017161620/http://faculty.vassar.edu/lowry/ch14pt2.html


    共生成3个文件,如下: 


    示例图片3.png


    1. 差异统计结果文件

    注:如果任意组内重复样小于等于3个,则不进行正态分布检验,同时也不提供方差齐次性检验(仅提供p-value,significant,q-value结果)。仅当所有组内重复样均大于3个的情况下,提供正态分布检验,以及方差齐次性检验分析结果。


    示例图片4-改2021.06.02.png


    如果差异比较组大于等于3,并且选择ANOVA检验,则输出结果会增加后验概率列(即通过TukeyHSD方法统计两两组间的差异,但属于后验概率计算。)

    后验概率图片解释.png




    2. 差异feature矩阵文件(heatmap作图文件)

    示例图片5.png


    3.差异feature的boxplot图

    非配对差异boxplot图

    结果图片1.png

    配对差异boxplot图

    结果图片2.png







  • 版本

    更新时间更新内容备注
    v1.02021.02.24初版上线初版上线
    v1.042021.02.24修正无pairedID列的bug已更新
    v1.052021.02.24增加:1、padj可选参数;2、正态分布检验;3、方差齐次性检验已更新
    v1.062021.03.09

    1、增加后验概率计算(posthoc):如果选ANOVA分析,则采用TukeyHSD方法计算后验概率

    2、读取padj参数的小更新修正;


    v1.072021.03.09debug:增加判断,如果2组的ANOVA分析,则不进行后验概率计算已更新
    v1.082021.03.09脚本提示小更新:如果为2比较组并且选择ANOVA,增加提示已更新
    v1.092021.03.09更新后验概率计算表头已更新
    v1.102021.03.09更新后验概率post.hoc pvalue表头为post.hoc padj已更新
    v1.112021.03.22

    1、针对代谢物名称(含有特殊字符)的问题:重新命名替换;

    2、针对两个表格的列名和行名不对应的情况,增加报错提醒。

    已更新
    v1.122021.03.23debug:脚本中识别特殊字符的判断bug已更新
    v1.132021.04.01

    1、增加识别读取csv的功

    能;2、如果分组内仅3个重复样,则不进行正态分布检验

    已更新
    v1.142021.04.07

    以下情况,为保证p值计算的精确性,计算的时候会删除这部分feature:

    1、feature在所有分组中sd值为0;

    2、配对检验时,多组重复样数据一一对应相等,比如A(1,2,3,4)vs B(1,2,3,4);

    3、非配对检验时,只有1组内sd不为0(即统计需要满足至少有2组sd不为0)

    已更新

    v1.152021.06.02

    1、增加feature名称重复的报错提示;

    2、增加行数限制,超过5000行,则报错;

    3、修改表头:pvalue修改为p-value;qvalue修改为q-value

    已更新
    v1.162021.09.05

    1、增加选项,绘图/不绘图;

    2、如果有重复feature,则输出重复值;

    3、debug:xls格式的文件,读取出错问题

    4、脚本核验表头"Sample","Group","pairedID",如果不符合则报错

    已更新





  • 问题反馈