神经网络中的蒸馏技术,从Softmax开始说起( 三 )


使用标记的和未标记的数据训练学生模型在像Noisy Student Training和SimCLRV2这样的文章中,作者在训练学生模型时使用了额外的未标记数据 。因此,你将使用你的teacher模型来生成未标记数据集上的ground-truth分布 。这在很大程度上有助于提高模型的可泛化性 。这种方法只有在你所处理的数据集中有未标记数据可用时才可行 。有时,情况可能并非如此(例如,医疗保健) 。Xie等人探索了数据平衡和数据过滤等技术,以缓解在训练学生模型时合并未标记数据可能出现的问题 。
在训练教师模型时不要使用标签平滑
标签平滑是一种技术,用来放松由模型产生的高可信度预测 。它有助于减少过拟合,但不建议在训练教师模型时使用标签平滑,因为无论如何,它的logits是按一定的温度缩放的 。因此,一般不推荐在知识蒸馏的情况下使用标签平滑 。
使用更高的温度值Hinton等人建议使用更高的温度值来soften教师模型预测的分布,这样软标签可以为学生模型提供更多的信息 。这在处理小型数据集时特别有用 。对于更大的数据集,信息可以通过训练样本的数量来获得 。
实验结果让我们先回顾一下实验设置 。我在实验中使用了Flowers数据集 。除非另外指定,我使用以下配置: