随机森林

搜索
开发者:ly  |  更新于3 周前  |  浏览量 345

文献引用:Bioinformatic analysis was performed using the OECloud tools at https://cloud.oebiotech.cn.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
随机森林是一种机器学习算法,最早由 Leo Breiman 和 Adele Cutler 提出,该算法能够对微生物群落样本进行有效且准确的分类,并且可以找出能够区分组间差异的关键成分(OTU或物种)。
简单的说,随机森林就是用随机的方式建立一个森林,森林里面有很多的决策树,并且每棵树之间是没有关联的。得到一个森林后,当有一个新的样本输入,森林中的每一棵决策树会分别进行一下判断,进行类别归类(针对分类算法),最后比较一下被判定哪一类最多,就预测该样本为哪一类。

参数信息
  1. 样本物种或OTU丰度文件,列为样本名,行为物种名,作图文件例如微生物多样性报告result\3.Community_Structure\abundance\relative_abundance\genus.xls
  2. 样本分组信息文件
相关数据
  • 使用说明
  • 结果说明
  • 重要提示
  • 版本说明
    1. 1. 物种或OTU相对丰度文件

        第一列为物种名,随后为样本分析名,各列对应值为物种在样本中的相对丰度。


    genus.png


        demo数据下载:Top30_genus.xlsx


    1. 2. 样本分组信息文件(必填)

        第一列为样本分析名,第二列为样本的分组名称(注意表头Group大小写问题)。


    mapping.png



        demo数据下载:mapping.xls






    1. 1. 结果示意图

        图片说明:物种(变量)重要性点图。横坐标为重要性衡量标准,纵坐标为按重要性排序后的物种名称。图中默认使用标准化的重要性值。


    tupian.png


    1. 2. 结果示意图

        表格说明:第一列为物种名,前3列为分组。倒数两列为其重要性指示值,MeanDecreaseGini和MeanDecreaseAccuracy两者指示性相同,值越大表示该变量的指示性越大。作图时默认使用MeanDecreaseGini。


    importance.png




    1. (1) 支持格式 txt,csv,xlsx,xls

  • 版本
    更新日期更新内容
    v1.02020.9.25上线






  • 问题反馈