关于分类数据编码所需了解的所有信息(使用Python代码)( 五 )
我们仅对训练数据执行目标编码 , 并使用从训练数据集中获得的结果对测试数据进行编码 。 尽管这是一种非常高效的编码系统 , 但它具有以下问题 , 这些问题会导致模型性能下降
- 它可能导致目标泄漏( target leakage)或过拟合 。 为了解决过拟合问题 , 我们可以使用不同的技术 。在留一法编码中 , 将当前目标值从目标的整体平均值中减小以避免泄漏 。在另一种方法中 , 我们可能会在目标统计信息中引入一些高斯噪声 。 这种噪声的值是模型的超参数 。
- 我们可能面临的第二个问题是训练和测试数据中类别的不正确分配 。 在这种情况下 , 类别可能采用极端值 。 因此 , 类别的目标平均值与目标的边际平均值混合在一起 。
推荐阅读
- 西部数据在CES 2021推出多款4TB容量的旗舰级SSD
- WhatsApp收集用户数据新政惹众怒,“删除WhatsApp”在土耳其上热搜
- 未来想进入AI领域,该学习Python还是Java大数据开发
- 黑客窃取250万个人数据 意大利运营商提醒用户尽快更换SIM卡
- 高下立现!关于核心技术的态度,柳传志和任正非截然不同
- 阳狮报告:4成受访者认为自己的数据比免费服务更有价值
- 中消协点名大数据网络杀熟 反对利用消费者个人数据画像
- 学习大数据是否需要学习JavaEE
- 意大利运营商Ho Mobile被曝数据泄露
- 微软官方数据恢复工具即将更新:更易于上手 优化恢复性能
