差异统计(组学通用)

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.com.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
--- 最新更新: 提供31套配色可选,包括Lancet、NEJM等期刊高/低饱和度配色方案
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
差异统计分析小工具,用于对芯片、测序、qPCR、蛋白、代谢、微生物等标准化后的数据,进行差异计算。常见的差异分析分为参数检验和非参数检验。该款小工具提供6类统计方法:
1、ANOVA分析:即单因素方差分析。适用场景为 >=3 组的比较;数据符合正态分布的情况下适用;(注:如大于等于3组情况下,选取ANOVA方法,会同时提供后验概率计算结果)
2、Kruskal Wallis检验:适用场景为 >=3 组的比较;数据不符合正态分布的情况下可用;
3、T test检验:适用场景为 2 组的比较;数据符合正态分布的情况下适用;
4、Wilcoxon检验:适用场景为 2 组的比较;数据不符合正态分布的情况下可用;
5、T test配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应;
6、Wilcoxon配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应。

参数调整

微生物/蛋白/代谢/(测序-芯片-qPCR)基因表达或者丰度矩阵【注:需要提供标准化后的数据】
样本的分组文件
差异统计的方法,下拉可选(如选取ANOVA,且比较组大于等于3组,同时提供后验概率TukeyHSD分析结果)
p值矫正的算法,共7种可选(默认建议BH方法):1.BH; 2.bonferroni; 3.fdr; 4.holm; 5.hochberg; 6.hommel; 7.BY
选择是否对差异feature绘制boxplot箱线图。注:默认不绘制。如果选择绘制,程序运行时间会延长。!!!如果feature过多,不建议绘制。
可选31种色系
对结果进行命名用于区分不同的任务,默认为当前工具名称_当前日期时间
自行命名导出的统计文件(tab键分割文件)。右键选择用excel打开
自行命名导出p值小于0.05的矩阵文件(tab键分割文件),可用于热图绘制。右键选择用excel打开
字体类型:Arial、Times New Roman、Verdana3类可选
字体样式:默认为”无“;bold(加粗)/ italic(斜体)可选
最多可选50。若所选特征数大于阈值筛选后的特征数,则该参数失效
选择对过长的特征名进行字符串截取,保留前70个字符
提交 重置

结果与说明

任务正在排队中,目前后台任务排队数量:

当前任务开始运行后预计需要耗时

请勿重复提交任务!

程序正在运行中,预计需要耗时

{{ m.content }}

程序运行出错,报错信息如下:

最新更新: 提供31套配色可选,包括Lancet、NEJM等期刊高/低饱和度配色方案

玩转攻略可点击公众号推文:“颜值评估器”?原来差异统计小工具还可以这样用?



1. 矩阵文件(例如:基因(测序、芯片、qPCR)/蛋白/代谢物/微生物标准化后的表达或者丰度矩阵)

第一列为基因/蛋白/代谢物名称,其余各列为各样品中相应表达量。注:列名不允许为空


示例图片1.png

 demo数据下载: matrix.xlsx



2. 分组文件(即:样本的分组情况)

第一列为样本名称Sample,第二列为分组名称Group,第三列为配对样本的对应编号pairedID(如果2组间样本配对,则需要以相同的ID命名)

注:

(1)如所选方法为非配对统计检验,可以不用提供第三列pairedID

(2)列名的拼写及字母大小写请和示例保持一致:Sample  ;  Group ;  pairedID

示例图片2.png

 demo数据下载: group.xlsx


生成3个结果文件,如下所示: 


示例图片3.png



1. 差异统计结果文件

    注:如果任意组内重复样小于等于3个,则不进行正态分布检验,同时也不提供方差齐次性检验(仅提供p-value,significant,q-value结果)。仅当所有组内重复样均大于3个的情况下,提供正态分布检验,以及方差齐次性检验分析结果。


示例图片4-改2021.06.02.png


如果差异比较组大于等于3,并且选择ANOVA检验,则输出结果会增加后验概率列(即通过TukeyHSD方法统计两两组间的差异,但属于后验概率计算。)

后验概率图片解释.png



2. 差异feature矩阵文件(heatmap作图文件)

示例图片5.png


3.SATMP分析图

    注:STAMP只绘制p<0.05的差异显著性feature

两组STAMP分析图

stamp.png

多组STAMP分析图

stamp2.png

4.差异feature的boxplot图

非配对差异boxplot图

index1_boxplot_ANOVA.png

配对差异boxplot图

Acinetobacter_boxplot_PairedLinepaired_TTest.png








版本

更新时间更新内容备注
v1.02021.02.24初版上线初版上线
v1.042021.02.24修正无pairedID列的bug已更新
v1.052021.02.24增加:1、padj可选参数;2、正态分布检验;3、方差齐次性检验已更新
v1.062021.03.09

1、增加后验概率计算(posthoc):如果选ANOVA分析,则采用TukeyHSD方法计算后验概率

2、读取padj参数的小更新修正;


v1.072021.03.09debug:增加判断,如果2组的ANOVA分析,则不进行后验概率计算已更新
v1.082021.03.09脚本提示小更新:如果为2比较组并且选择ANOVA,增加提示已更新
v1.092021.03.09更新后验概率计算表头已更新
v1.102021.03.09更新后验概率post.hoc pvalue表头为post.hoc padj已更新
v1.112021.03.22

1、针对代谢物名称(含有特殊字符)的问题:重新命名替换;

2、针对两个表格的列名和行名不对应的情况,增加报错提醒。

已更新
v1.122021.03.23debug:脚本中识别特殊字符的判断bug已更新
v1.132021.04.01

1、增加识别读取csv的功

能;2、如果分组内仅3个重复样,则不进行正态分布检验

已更新
v1.142021.04.07

以下情况,为保证p值计算的精确性,计算的时候会删除这部分feature:

1、feature在所有分组中sd值为0;

2、配对检验时,多组重复样数据一一对应相等,比如A(1,2,3,4)vs B(1,2,3,4);

3、非配对检验时,只有1组内sd不为0(即统计需要满足至少有2组sd不为0)

已更新

v1.152021.06.02

1、增加feature名称重复的报错提示;

2、增加行数限制,超过5000行,则报错;

3、修改表头:pvalue修改为p-value;qvalue修改为q-value

已更新
v1.162021.09.05

1、增加选项,绘图/不绘图;

2、如果有重复feature,则输出重复值;

3、debug:xls格式的文件,读取出错问题

4、脚本核验表头"Sample","Group","pairedID",如果不符合则报错

已更新
v1.172021.12.31

1、修改行数限制,超过20000行,则报错

2、更新共31种配色方案;

3、xls文件的读取不匹配bug修复


更新

v1.182022.01.28

将t test(非配对)的双尾检验中的异方差,改为默认等方差


已更新

v1.19暂未更新

计算组间均值

暂未

更新

v1.212023.01.11

新增STAMP分析

已更新

v1.252023.04.12

xls文件读取报错

已更新

v1.262023.05.05

输出文件路径bug修正

已更新

v1.282023.05.10

组内值恒定的特征剔除

已更新









差异统计的6类方法:

1、ANOVA分析:即单因素方差分析。适用场景为 >=3 组的比较;数据符合正态分布的情况下适用;(注:如大于等于3组情况下,选取ANOVA方法,会同时提供后验概率计算结果)
2、Kruskal Wallis检验:适用场景为 >=3 组的比较;数据不符合正态分布的情况下可用;
3、T test检验:适用场景为 2 组的比较;数据符合正态分布的情况下适用;
4、Wilcoxon检验:适用场景为 2 组的比较;数据不符合正态分布的情况下可用;
5、T test配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应;
6、Wilcoxon配对检验:适用场景为 2 组的比较;并且2组样本数量一致,呈一一对应。


p值矫正的算法选择,共提供7类方法:

(1)BH,即:Benjamini & Hochberg(1995); 

(2)bonferroni,即:Bonferroni

(3)fdr,即FDR方法

(4)holm,即Holm(1979) 

(5)hochberg,即Hochberg(1988)

(6)hommel,即Hommel(1988)

(7)BY,即Benjamini & Yekutieli(2001)

注:

(1)默认建议选用BH方法;

(2)“bonferroni”和“BH”法是较为常见的方法;

(3)“bonferroni”方法进行校正是最严格的方法

分析软件:R中 p.adjust() 函数

参考文献:Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing,DOI: 10.2307/2532694


后验概率选取TukeyHSD方法,仅在样本比较组大于等于3组,且选取ANOVA方法的时候,结果会增加后验概率计算结果列。如想了解更多有关后验概率的内容,参考:

https://en.wikipedia.org/wiki/Tukey%27s_range_test

https://web.archive.org/web/20081017161620/http://faculty.vassar.edu/lowry/ch14pt2.html


可选配色参考

颜色参考1.png

颜色参考2.png

颜色参考3.png


在线咨询