
文章插图
随机森林是对决策树的一种调整,相对于选择最佳分割点,随机森林通过引入随机性来实现次优分割 。
因此,为每个数据样本创建的模型之间的差异性会更大,但就自身意义来说依然准确无误 。结合预测结果可以更好地估计正确的潜在输出值 。
如果你使用高方差算法(如决策树)获得良好结果,那么加上这个算法后效果会更好 。
10-Boosting和AdaBoost
Boosting是一种从一些弱分类器中创建一个强分类器的集成技术 。它先由训练数据构建一个模型,然后创建第二个模型来尝试纠正第一个模型的错误 。不断添加模型,直到训练集完美预测或已经添加到数量上限 。
AdaBoost是为二分类开发的第一个真正成功的Boosting算法,同时也是理解Boosting的最佳起点 。目前基于AdaBoost而构建的算法中最著名的就是随机梯度boosting 。

文章插图
AdaBoost常与短决策树一起使用 。在创建第一棵树之后,每个训练实例在树上的性能都决定了下一棵树需要在这个训练实例上投入多少关注 。难以预测的训练数据会被赋予更多的权重,而易于预测的实例被赋予更少的权重 。模型按顺序依次创建,每个模型的更新都会影响序列中下一棵树的学习效果 。在建完所有树之后,算法对新数据进行预测,并且通过训练数据的准确程度来加权每棵树的性能 。
因为算法极为注重错误纠正,所以一个没有异常值的整洁数据十分重要 。
写在最后
初学者在面对各种各样的机器学习算法时提出的一个典型问题是“我应该使用哪种算法?”问题的答案取决于许多因素,其中包括:(1)数据的大小,质量和性质; (2)可用的计算时间; (3)任务的紧迫性; 和(4)你想要对数据做什么 。
即使是一位经验丰富的数据科学家,在尝试不同的算法之前,也无法知道哪种算法会表现最好 。虽然还有很多其他的机器学习算法,但这些算法是最受欢迎的算法 。如果你是机器学习的新手,这是一个很好的学习起点 。
【十大机器学习算法数据科学家最常用的 新手必知】
推荐阅读
- 数据库很简单,Mysql数据库基本SQL语法实践操作非常详细值得学习
- 茶桌见人品 学习茶礼仪
- 中国最大的白银矿 世界十大银矿
- 餐厅装修十大注意事项
- 餐厅装修风水十大注意事项
- 微服务的学习总结
- JavaScript命名空间常用方法
- 学习Java必知必会的34个核心知识点
- 用11个事实为8岁女儿解读深度学习
- 阿里大牛为学习java的菜鸟准备的攻略!
