LEfSe分析

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.com.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
LEfSe分析即 Linear discriminant analysis Effect Size 分析,是一种用于发现和解释高维度数据生物标志物的分析工具,可以进行两个或多个分组的比较,它强调统计意义和生物相关性,能够在组与组之间寻找具有统计学差异的生物标志物(Biomarker)。
A.首先在多组样本中采用的非参数因子Kruskal-Wallis秩和检验检测不同分组间丰度差异显著的物种;
B.再利用上一步中获得的显著差异物种,用成组的Wilcoxon秩和检验来进行组间差异分析;
C.最后用线性判别分析(LDA)对数据进行降维和评估差异显著的物种的影响力(即 LDA score)。

参数调整

层级物种丰度文件或非层级丰度文件,列为样本名,含6层级物种,值为丰度。作图文件例如微生物多样性报告result\3.Community_Structure\abundance\relative_abundance\otu_table_L6.txt 或result\3.Community_Structure\abundance\relative_abundance\feature_L6.txt
样本分组信息文件,第一列为样本分析名,与样本物种相对丰度文件中的样本分析名一致,第二列为分组名
对结果进行命名用于区分不同的任务,默认为当前工具名称_当前日期时间
是否需要上传特征表重新画图,如果上传LEfSe_table.res.xls表,则会直接根据特征表直接画图,如果不上传此表会重新根据前面上传的丰度表和分组表重新计算
绘图中标示的差异层级。若实际输入数据的层级高于选择层级,则点会被绘制,但不在图中标示。默认为科。
图例中展示的差异层级。若实际输入数据的层级高于选择的层级,则点会被绘制,但不在图例中展示。默认为科。
进化分支图左空间与进化分支图右空间之和需小于1。若大于等于1,将仅使用进化分支图右空间绘图
进化分支图左空间与进化分支图右空间之和需小于1。若大于等于1,将仅使用进化分支图右空间绘图
是否过滤输入文件中包含Ambiguous_taxa的记录
提交 重置

结果与说明

任务正在排队中,目前后台任务排队数量:

当前任务开始运行后预计需要耗时

请勿重复提交任务!

程序正在运行中,预计需要耗时

{{ m.content }}

程序运行出错,报错信息如下:

1. 层级丰度文件

      第一列为物种名,随后为样本分析名,各列对应值为物种在样本中的相对丰度,每组必须有生物学重复,且不少于3个样本(支持txt、xls、xlsx、csv 格式)(注意Term列名的首字母大写

企业微信截图_16185422586627.png

    demo数据下载:LEfSe_otu_table_L6.xlsx




2. 样本分组信息文件

      第一列为样本分析名,第二列为样本的分组名称,每组必须有生物学重复,且不少于3个样本(支持txt、xls、xlsx、csv 格式)(注意列名的首字母大写


mapping.png

    

demo数据下载:LEfSe_mapping.xlsx


1、LDA值分布柱状图:


       展示了LDA score大于设定值有差异的物种,即具有统计学差异的biomaker。展现不同组中丰度有显著差异的物种,柱状图的长度代表显著差异物种的影响大小;

Plot_LEfSe_bar.png




2、进化分支图:


      由内至外辐射的圆圈代表了由门至属(或种)的分类级别。在不同分类级别上的每一个小圆圈代表该水平下的一个分类,小圆圈直径大小与相对丰度大小呈正比。

Plot_LEfSe_cladogram.png

      着色原则:无显著差异的物种统一着色为黄色,差异物种 Biomarker跟随组进行着色,红色节点表示在红色组别中起到重要作用的微生物类群,绿色节点表示在绿色组别中起到重要作用的微生物类群,其它圈颜色意义类同。图中英文字母表示的物种名称在右侧图例中进行展示。


下面展示微生物16S配色方案:

Plot_LEfSe_cladogram.png


3、特征表:


企业微信截图_16250179723984.png

表头解释

(1) Biomarker : Biomarker 名称

(2) Logarithm value : 组间最大平均丰度的log10值,如果平均丰度小于10则按10来计算

(3) Groups : 组名

(4) LDA_value : LDA 值

(5) p-value :  Kruskal-Wallis 秩和检验 p 值,若不是 Biomarker 则用 “-”表示

(1) 每组必须有生物学重复,且少于3个样本

(2) 柱状图图例分组个数有可能少于实际样本分组个数,这是由于柱状图中实际显示的是Biomarker高丰度的组,低丰度的组不显示,属于正常现象;

(3) 请使用本工具前,按照输入示例文件格式对数据进行修改;

(4) 分组数小于3,无法做KW检验,并且柱形图无法画,进化分支图出图可能不正确,请注意!;




版本更新日期更新内容
v1.02021.04.13LEfSe分析工具
v2.02021.05.11修改matplotlib版本为1.4.3,增加种级别筛选
v3.02021.06.30P_value修改为p-value
v3.12022.03.13新增是否过滤Ambiguous_taxa,默认值修改。
v3.22022.03.18问题修复,添加正确报错
v1.0.02023.05.06

lefse 添加颜色,保持两张图分组颜色一致。

转移镜像版本控制到dev,重新设置1.0.0版本。

v1.0.12023.05.12

数据文件中间空白行问题自动处理

v1.0.182023.09.14

根据微生物16s流程作出了相应更新


在线咨询