随机森林

开发者:oebiotech  |  更新于1 月前  |  浏览量 72

随机森林是一种机器学习算法,最早由 Leo Breiman 和 Adele Cutler 提出,该算法能够对微生物群落样本进行有效且准确的分类,并且可以找出能够区分组间差异的关键成分(OTU或物种)。简单的说,随机森林就是用随机的方式建立一个森林,森林里面有很多的决策树,并且每棵树之间是没有关联的。得到一个森林后,当有一个新的样本输入,森林中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后比较一下被判定哪一类最多,就预测该样本为哪一类。

参数信息
  1. 样本物种或OTU丰度文件,列为样本名,行为物种名
  2. 样本分组信息文件
相关数据
  • 使用说明
  • 结果说明
  • 版本说明
  • 1. 物种或OTU相对丰度文件

        物种相对丰度文件(tab分割文件)为必填参数。第一行为样本分析名,第一列为物种名,值为物种在样本中的相对丰度。输入文件格式支持txtxls,xlsx

    genus.png

        示例文件:Top30_genus.xlsx


    2. 样本分组信息文件(必填)

        样本分组信息文件(tab分割文件)为必填参数。第一列为样本分析名,第二列为样本的分组名称(注意表头Group大小写问题)。输入文件格式支持txtxls,xlsx

    mapping.png

        示例文件:mapping.txt


  • 1. 结果示意图

        图片说明:物种(变量)重要性点图。横坐标为重要性衡量标准,纵坐标为按重要性排序后的物种名称。图中默认使用标准化的重要性值。

    tupian.png

     

    2. 结果示意图

        表格说明:第一列为物种名,前3列为分组。倒数两列为其重要性指示值,MeanDecreaseGini和MeanDecreaseAccuracy两者指示性相同,值越大表示该变量的指示性越大。作图时默认使用MeanDecreaseGini。

    importance.png



  • 版本更新日期更新内容
    v1.02020.9.25上线