使用标记的和未标记的数据训练学生模型在像Noisy Student Training和SimCLRV2这样的文章中,作者在训练学生模型时使用了额外的未标记数据 。因此,你将使用你的teacher模型来生成未标记数据集上的ground-truth分布 。这在很大程度上有助于提高模型的可泛化性 。这种方法只有在你所处理的数据集中有未标记数据可用时才可行 。有时,情况可能并非如此(例如,医疗保健) 。Xie等人探索了数据平衡和数据过滤等技术,以缓解在训练学生模型时合并未标记数据可能出现的问题 。
在训练教师模型时不要使用标签平滑
标签平滑是一种技术,用来放松由模型产生的高可信度预测 。它有助于减少过拟合,但不建议在训练教师模型时使用标签平滑,因为无论如何,它的logits是按一定的温度缩放的 。因此,一般不推荐在知识蒸馏的情况下使用标签平滑 。
使用更高的温度值Hinton等人建议使用更高的温度值来soften教师模型预测的分布,这样软标签可以为学生模型提供更多的信息 。这在处理小型数据集时特别有用 。对于更大的数据集,信息可以通过训练样本的数量来获得 。
实验结果让我们先回顾一下实验设置 。我在实验中使用了Flowers数据集 。除非另外指定,我使用以下配置:
- 我使用MobileNetV2作为基本模型进行微调,学习速度设置为1e-5,Adam作为优化器 。
- 我们将τ设置为5 。
-
推荐阅读
- 正史中的关羽真有这么厉害吗 关羽是哪部作品的人物
- 浅谈 React 中的 XSS 攻击
- 三国干涉还辽中的三国指的是
- 三国中的贾诩是什么人物 贾诩是一个怎样的人
- 历史名著中的茶文化,茶文化之茶与神农历史记载
- 探究!一个数据包在网络中的心路历程
- 三十六计中的围魏救赵是什么意思 36计第二计围魏救赵的故事
- 大肠杆菌特效药在生活当中的作用是什么
- 儒家孝悌之道 儒学中的孝
- 曹操在官渡之战和赤壁之战中的不同结局给我们什么启示 官渡之战曹操胜,赤壁之战曹操败,启示
