『机器学习』机器学习验证集为什么不再有新意?( 三 )
归根结底 , 我们在此讨论的是一个心理模型 , 正如 George Box 的著名格言所说的:
- 所有模型都是错的 , 但有些是有用的 。
三、“弄脏”我们的手:模拟验证集泄漏 作为数据科学家 , 我们不能不通过实验就阐述一个观点 。 要求超参数之间没有任何交互作用 , 是过于严格的 。 尽管这对于开发心理模型很有用 , 但最好有一些经验结果表明这种想法能扩展到没那么理想的场景 。
接下来进行一个关于梯度提升回归模型(Gradient Boosting Regression Model)上执行的调整量以及验证集和测试集性能之间的差距的快速实验 。 其中选择使用梯度提升算法的原因 , 是它是具有大量超参数的主流模型 。
根据我们对验证集泄漏的理解 , 我们期望的结果是:随着调整的增加 , 验证集和测试集之间的性能差距将不断扩大 。 在实验中 , “更多的”调整定义为通过5个不同的超参数进行更多次的随机搜索迭代 。 迭代次数越多 , 就越有可能在验证集上找到更理想的结果 。 如果心理模型的部分最优值真的来自非泛化的验证数据异常 , 那么我们期望在测试数据上不要出现这种性能提升 。
在展示最终结果之前 , 需要提前说明一件重要的事:这个实验可能偏向于支持我的论点:
当然 , 通过使用大型验证集可以减少验证集泄漏的风险 , 但我使用了小数据来进行训练和验证 , 即“波士顿的房价”数据集 , 为的是能够轻松地演示过度调整小的验证集的情况 。
你可以怀疑这些结论是否适用于除我选择的特定数据集以外的其它数据集!我鼓励你提出自己的实验并分享你的结果 。
- 实现代码的GitHub地址:https://gist.githubusercontent.com/rayheberer/dcbaf91e9ca053316755e60991e48da9/raw/29eae8febe4e147b02d72b9624a062e86b4a0cc5/validation-test-perforance-gap-experiment.py
本文插图
如图所示 , 当我们投入越多的精力用于优化超参数和根据验证集性能选择模型时 , 验证集和测试集之间的性能差距就越大 。
如果我们已经调优了一个超参数子集 , 然后再调优另一个超参数集 , 或者尝试切换使用的模型族 , 验证集和测试集间的性能差距会更加显著 。 根据数据样本(验证集)做出的每个决策 , 都会将该样本的随机波动缓慢地编码到结果中 。
四、结论 这实际上是我第二次尝试解释超参数调整与验证集过拟合现象之间的关系 。 而难以置信的是 , 我们很难清楚地解释相对简单的潜在直觉想法 。
- 相关阅读参考:https://medium.com/@rayheberer/black-magic-and-hyperparameter-tuning-ef875eb31712
尽管本文是为了更深入、更初级的解释超参数调整和过拟合验证集之间的关系 , 但我们仍有更多角度空间和思考方式 。Cassie Kozyrkov 最近发布了一篇文章 , 将教学和《憨豆先生》进行类比 , 对数据集分割进行了有趣的论述:
- 文章地址:https://towardsdatascience.com/training-validation-and-test-phases-in-ai-explained-in-a-way-youll-never-forget-744be50154e8
【『机器学习』机器学习验证集为什么不再有新意?】via:https://towardsdatascience.com/why-machine-learning-validation-sets-grow-stale-69fa043fd547
推荐阅读
- 『机器人』日本一大学举行云毕业典礼:机器人替身领毕业证
- 『兄弟』兄弟DCP-T710W喷墨一体机评测:微信打作业 在线学习更简单
- 泡泡网@米兔儿童学习手表4上线!首发仅需849元
- 和鲸携手在线公益AI项目,助力学习实训一体化
- 「学习」成功人士每天都会告诉自己这 7 件事
- 「中国电信」中国电信携手海思、长虹联合开展5G机器视觉“端边云”协同创新
- 【线下】线上学习线下行动,龙潭街道各级组织召开主题党日活动
- #广州零点一度#专业全自动一次性口罩机器厂家——零点一度
- 真的会有报复性消费吗?猎豹移动机器人大数据告诉你
- 「美股研究社」谷歌将提供10万个免费热点,疫情下加州学生网络学习难度大
