迭代次数不是固定的,而是由分析决定的 。然后将结果平均化 。

文章插图
重复随机二次抽样验证

文章插图
优点: 训练和验证拆分的比例不取决于迭代或分区的数量
缺点: 某些样本可能无法选择用于训练或验证、不适合不平衡数据集
6. Stratified k-fold cross-validation对于上面讨论的所有交叉验证技术,它们可能不适用于不平衡的数据集 。分层k折交叉验证解决了数据集不平衡的问题 。
在分层k倍交叉验证中,数据集被划分为k个组或折叠,以使验证数据具有相等数量的目标类标签实例 。这样可以确保在验证或训练数据中不会出现一个特定的类,尤其是在数据集不平衡时 。

文章插图
分层k折交叉验证,每折具有相等的目标类实例
最终分数是通过取各折分数的平均值来计算的
优点: 对于不平衡的数据集,效果很好 。
缺点: 现在适合时间序列数据集 。
7. Time Series cross-validation数据的顺序对于与时间序列相关的问题非常重要 。对于与时间相关的数据集,将数据随机拆分或k折拆分为训练和验证可能不会产生良好的结果 。
对于时间序列数据集,根据时间将数据分为训练和验证,也称为前向链接方法或滚动交叉验证 。对于特定的迭代,可以将训练数据的下一个实例视为验证数据 。

文章插图
如上图所述,对于第一个迭代,第一个3行被视为训练数据,下一个实例T4是验证数据 。选择训练和验证数据的机会将被进一步迭代 。
8. Nested cross-validation在进行k折和分层k折交叉验证的情况下,我们对训练和测试数据中的错误估计差 。超参数调整是在较早的方法中单独完成的 。当交叉验证同时用于调整超参数和泛化误差估计时,需要嵌套交叉验证 。
嵌套交叉验证可同时应用于k折和分层k折变体 。
结论交叉验证用于比较和评估ML模型的性能 。在本文中,我们介绍了8种交叉验证技术及其优缺点 。k折和分层k折交叉验证是最常用的技术 。时间序列交叉验证最适合与时间序列相关的问题 。
这些交叉验证的实现可以在sklearn包中找到 。有兴趣的读者可以阅读sklearn文档以获取更多详细信息 。
【8种交叉验证类型的深入解释和可视化介绍】https://scikit-learn.org/stable/modules/cross_validation.html
作者:Satyam Kumar
deephub翻译组
推荐阅读
- 宝宝夜醒的18种原因分别是什么?
- 2000余字长文讲解Excel中的“数据验证”,我收藏了
- SpringBoot-登录验证码实现
- Web渗透测试——验证码自动识别工具
- 女人有8种话不要乱讲
- 老茶树王绽新枝,8种普洱古树纯料茶
- Go 项目实战:Golang HTTP 验证码
- 澜沧古茶纯料古树熟茶,8种普洱古树纯料茶
- 黑茶48种配方和功效,黑茶具有降脂减肥
- CentOS7下利用Google Authenticator实现SSH登录的二次身份验证
