那些年向前冲|一文看懂随机森林 - Random Forest(4个构造步骤+10个优缺点)
随机森林是一种由决策树构成的集成算法 , 他在很多情况下都能有不错的表现 。
【那些年向前冲|一文看懂随机森林 - Random Forest(4个构造步骤+10个优缺点)】本文将介绍随机森林的基本概念、4 个构造步骤、4 种方式的对比评测、10 个优缺点和 4 个应用方向 。
什么是随机森林?
随机森林属于 集成学习 中的 Bagging(Bootstrap AGgregation 的简称) 方法 。 如果用图来表示他们之间的关系如下:
决策树 – Decision Tree
在解释随机森林前 , 需要先提一下决策树 。 决策树是一种很简单的算法 , 他的解释性强 , 也符合人类的直观思维 。 这是一种基于if-then-else规则的有监督学习算法 , 上面的图片可以直观的表达决策树的逻辑 。
详细了解决策树 , 可以看看《一文看懂决策树 – Decision tree(3个步骤+3种典型算法+10个优缺点)》
随机森林 – Random Forest | RF
随机森林是由很多决策树构成的 , 不同决策树之间没有关联 。
当我们进行分类任务时 , 新的输入样本进入 , 就让森林中的每一棵决策树分别进行判断和分类 , 每个决策树会得到一个自己的分类结果 , 决策树的分类结果中哪一个分类最多 , 那么随机森林就会把这个结果当做最终的结果 。
构造随机森林的 4 个步骤
- 假如有N个样本 , 则有放回的随机选择N个样本(每次随机选择一个样本 , 然后返回继续选择) 。 这选择好了的N个样本用来训练一个决策树 , 作为决策树根节点处的样本 。
- 当每个样本有M个属性时 , 在决策树的每个节点需要分裂时 , 随机从这M个属性中选取出m个属性 , 满足条件m << M 。 然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性 。
- 决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解 , 如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性 , 则该节点已经达到了叶子节点 , 无须继续分裂了) 。 一直到不能够再分裂为止 。 注意整个决策树形成过程中没有进行剪枝 。
- 按照步骤1~3建立大量的决策树 , 这样就构成了随机森林了 。
优点
- 它可以出来很高维度(特征很多)的数据 , 并且不用降维 , 无需做特征选择
- 它可以判断特征的重要程度
- 可以判断出不同特征之间的相互影响
- 不容易过拟合
- 训练速度比较快 , 容易做成并行方法
- 实现起来比较简单
- 对于不平衡的数据集来说 , 它可以平衡误差 。
- 如果有很大一部分的特征遗失 , 仍可以维持准确度 。
- 随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合 。
- 对于有不同取值的属性的数据 , 取值划分较多的属性会对随机森林产生更大的影响 , 所以随机森林在这种数据上产出的属性权值是不可信的
推荐阅读
- 基尔摩斯|2020年中报最有料的瓜,一文看尽
- 罗云熙|盘点那些古装帅,现代装却很“丑”的3位男神,罗云熙任嘉伦上榜
- 大众报业·海报新闻|盘点那些低价转让的公司,长城宽带100万元打包转让
- 【】长城宽带100万元打包转让 盘点那些低价转让的公司
- 时尚广州|T恤的标语你了解过吗?揭秘衣服上那些奇怪的字句
- 刘药师话用药|有一种健康和美丽,从脚下开始,足部护理那些事儿
- 穿搭日记|那些一眼就让人爱上的明星耳环,便宜的才几百,陈小纭金晨都在戴
- 穿搭|那些乘风破浪的姐姐们,为什么每次都能把职业装穿得美出圈?
- 穿搭■为什么气质上总是输一大截?来看看那些教科书式的穿搭吧,学起来
- 那些年向前冲|三星可能会关闭在天津的电视工厂
