文章插图
> Feature randomness
随机森林是针对许多不同问题的高度精确的模型 , 不需要规范化或缩放 。但是 , 与快速线性模型(即朴素贝叶斯)相比 , 对于高维数据集(即文本分类)而言 , 这不是一个好选择 。

文章插图
7.梯度提升决策树(GBDT)GBDT是一种集成算法 , 使用提升方法来组合各个决策树 。
提升意味着将一系列学习算法串联起来 , 以从许多顺序连接的弱学习者那里获得一个强学习者 。对于GBDT , 弱学习者是决策树 。
每棵树都试图最小化前一棵树的错误 。Boosting中的树是学习能力较弱的树 , 但是连续添加许多树 , 每棵树都专注于前一棵树的错误 , 因此可以构建一个高效且准确的模型 。与装袋不同 , 加强不涉及自举采样 。每次添加新树时 , 它都适合初始数据集的修改版本 。

文章插图
由于树是顺序添加的 , 因此增强算法学习缓慢 。在统计学习中 , 学习缓慢的模型表现更好 。
损失函数用于检测残差 。例如 , 均方误差(MSE)可用于回归任务 , 对数损失(对数损失)可用于分类任务 。值得注意的是 , 添加新树后 , 模型中的现有树不会更改 。添加的决策树适合当前模型的残差 。
学习速率和n_estimator是用于梯度提升决策树的两个关键超参数 。学习率表示为α , 仅表示模型学习的速度 。每棵新树都会修改整个模型 。修改的大小由学习率控制 。n_estimator是模型中使用的树数 。如果学习率低 , 我们需要更多的树来训练模型 。但是 , 我们在选择树数时需要非常小心 。使用过多树木会产生过度拟合的高风险 。
与随机森林相比 , GBDT在分类和回归任务上都非常有效 , 并且提供了更准确的预测 。它可以处理混合类型的功能 , 不需要预处理 。GBDT需要仔细调整超参数 , 以防止模型过度拟合 。
GBDT算法是如此强大 , 以至于已经实现了许多升级版本 , 例如XGBOOST , LightGBM , CatBoost 。
关于过度拟合的注意事项
随机森林和梯度增强决策树之间的一个关键区别是模型中使用的树数 。增加随机森林中的树木数量不会导致过度拟合 。在某一点之后 , 模型的准确性不会因添加更多树而增加 , 但也不会因添加过多树而受到负面影响 。由于计算原因 , 您仍然不想添加不必要的树 , 但是不存在与随机森林中的树数相关联的过拟合风险 。
但是 , 就过度拟合而言 , 梯度增强决策树中的树数非常关键 。添加过多的树会导致过拟合 , 因此一定要停止添加树 , 这一点很重要 。
8. K-均值聚类聚类是一种将一组数据点组合在一起的方式 , 即将相似的数据点组合在一起 。因此 , 聚类算法在数据点之间寻找相似性或相异性 。聚类是一种无监督的学习方法 , 因此没有与数据点相关的标签 。聚类算法试图找到数据的底层结构 。
聚类不是分类 。
分类任务中的观测值(或数据点)具有标签 。每个观察结果根据一些测量结果进行分类 。分类算法尝试对观测值的度量(特征)与其指定的类别之间的关系建模 。然后 , 模型预测新观测的类别 。
K-均值聚类旨在将数据分为k个聚类 , 以使同一聚类中的数据点相似 , 而不同聚类中的数据点相距更远 。因此 , 这是一种基于分区的群集技术 。两个点的相似性取决于它们之间的距离 。
K-均值聚类试图使聚类内的距离最小化 , 并使不同聚类之间的距离最大化 。K-均值算法无法确定簇数 。创建KMeans对象时 , 我们需要对其进行定义 , 这可能是一项艰巨的任务 。
考虑以下数据集的2D可视化:

文章插图
可以将其划分为4个不同的群集 , 如下所示:

文章插图
现实生活中的数据集要复杂得多 , 在这些数据集中聚类没有明显分开 。但是 , 该算法以相同的方式工作 。K均值是一个迭代过程 。它基于期望最大化算法 。确定群集数量后 , 它可以通过执行以下步骤来工作:
推荐阅读
- 英特尔18万6nm芯片订单花落台积电,竞对或成台积电7nm最大客户
- 海洋动物身体庞大全长可达20米是世界上最大的鱼类 海洋中速度最快的动物
- 经常上火喝什么茶好,喝什么茶去胃火最好
- 钓鱼最好的气压是多少?
- 世界上最重的牛有多少吨 世界最重的牛有多重
- 林肯公园最好听的歌推荐
- 宇宙中最近的两颗恒星 距离太阳最近的两颗行星分别是
- 三角龙身长多少米 最大的翼龙长多少米
- 最大松鼠的体重多少 世界上最小的松鼠
- 太阳系中最小的 太阳和地球哪个大哪个小
