随机森林

时间：2024-10-22 09:45:19编辑：阿星

随机森林是用来干嘛的

随机森林本质上属于机器学习的一大分支——集成学习（Ensemble Learning），是将许多棵决策树（Decision Tree）整合成森林并用来预测最终结果的方法。随机森林顾名思义，是用随机的方式建立一个森林，森林里面有很多的决策树组成，随机森林的每一棵决策树之间是没有关联的。在得到森林之后，当有一个新的输入样本进入的时候，就让森林中的每一棵决策树分别进行一下判断，看看这个样本应该属于哪一类（对于分类算法），然后看看哪一类被选择最多，就预测这个样本为那一类。随机森林的由来上世纪八十年代Breiman等人发明分类树的算法（Breiman et al. 1984），通过反复二分数据进行分类或回归，计算量大大降低。2001年Breiman把分类树组合成随机森林（Breiman 2001a），即在变量（列）的使用和数据（行）的使用上进行随机化，生成很多分类树，再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感，结果对缺失数据和非平衡的数据比较稳健，可以很好地预测多达几千个解释变量的作用（Breiman 2001b），被誉为当前最好的算法之一（Iverson et al. 2008）。

随机森林算法的优缺点

1.随机森林是一个用随机方式建立的，包含多个决策树的分类器。其输出的类别是由各个树输出的类别的众数而定。2.随机性主要体现在两个方面：（1）训练每棵树时，从全部训练样本（样本数为N）中选取一个可能有重复的大小同样为N的数据集进行训练（即bootstrap取样）（2）在每个节点，随机选取所有特征的一个子集，用来计算最佳分割方式。3.随机森林算法的优缺点：（1）随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟（2）对于有不同取值的属性的数据，取值划分较多的属性会对随机森林产生更大的影响，所以随机森林在这种数据上产出的属性权值是不可信的。4.比决策树算法更复杂，计算成本更高。

上一篇：陈咏薇

下一篇：没有了