KDD Cup 2020多模态召回比赛季军方案与广告业务应用( 三 )
第二 , 复杂多模信息匹配问题 。 怎么进行多模信息融合是多模态学习中的基础性问题 , 而怎么对复杂的多模信息进行语义匹配 , 是本竞赛特有的挑战 。 从数据看 , 一方面商品图片多框 , 信息含量大、噪点多;另一方面 , 用户搜索Query一般具有多个细粒度属性词 , 且各个词均在语义匹配中发挥作用 。 这就要求我们在模型设计上针对性处理图和Query两方面的复杂性 , 并做好细粒度的匹配 。
针对这两大挑战 , 下面将详述搜索广告团队的解决方案 。
竞赛方案
我们的方案直接回应了上述两个挑战 , 其主体部分包含两方面的内容 , 一是通过联合多样化的负采样策略和蒸馏学习以桥接训练数据和测试集的分布 , 处理分布不一致问题;二是采取细粒度的文本-图片匹配网络 , 进行多模信息融合 , 处理复杂多模信息匹配问题 。 最后 , 通过两阶段训练和多模融合 , 我们进一步提升了模型表现 , 整个方案的流程如下图所示 。 下面详述方案的各个部分 。
本文插图
图4 基于多样化负采样的多阶段蒸馏学习框架
多样负采样策略和预训练
训练集和测试集分布不一致 。 最直观的不一致是 , 训练集中只有正样本 , 没有负样本 。 我们需要设计负采样策略来构造负样本 , 并尽可能使得采样出的负样本靠近测试集真实分布 。 最直观的想法是随机采样 。 随机采样简单易行 , 但和验证集区别较大 。
但分析验证集发现 , 对同一Query下的候选图片 , 通常有着紧密的语义关联 。 如“甜美法式长裙”这一Query下 , 待选的图片全是裙装 , 只是在款式上有不同 。 这说明 , 这一多模匹配赛题需要在较细的属性粒度上对文本和图片进行匹配 。 从图片标签和Query词两个角度出发 ,我们可以通过相应的聚类算法 , 使得待采样的空间从全局细化为相似语义条目 , 从而达到负采样更贴近测试集分布的目的 。
基于如上分析 , 我们设计了如下表所示的四种采样策略来构建样本集 。 这四种策略中 , 随机采样得到的正负样本最容易被区分 , 按Query最后一词采样得到的正负样本最难被区分;在训练中 , 我们从基准模型出发 , 先在最简单的随机采样上训练基准模型 , 然后在更困难的按图片标签采样、按Query的聚类采样的样本集上基于先前的模型继续训练 , 最后在最难的按Query最后一词采样的样本集上训练 。 这样由易到难、由远到近的训练方式 , 有助于模型收敛到验证集分布上 , 在测试集上取得了更好的效果 。
本文插图
表3 多样化负采样
蒸馏学习
尽管使用多种采样策略 , 可从不同角度去逼近测试集的真实分布 , 但由于未直接利用测试集信息指导负采样 , 这些采样策略仍有不足 。 因而 , 我们采用蒸馏学习的办法 , 来进一步优化负采样逻辑 , 以求拿到更贴近测试集的样本集分布 。
如下图所示 , 在通过训练集负采样得到的样本集上预训练以后(第1步) , 我们将该模型在验证集上进一步Finetune , 得到微调模型(第2步) 。 利用微调模型 , 我们反过去在训练集上打伪标签 , 作为Soft Label , 并把Soft Label引入Loss , 跟原始的0-1 Hard Label联合学习(第3步) 。 这样 , 训练集的训练上 , 即直接引入了验证集的分布信息 , 进一步贴近了验证集分布 , 提升了预训练模型的表现 。
本文插图
图5 多阶段蒸馏学习
细粒度匹配网络
多模态学习方兴未艾 , 各类任务、模型层出不穷 。 针对我们面临的复杂图片和搜索Query匹配的问题 , 参照CVPR 2017的VQA竞赛的冠军方案 , 我们设计了如下的神经网络模型作为主模型 。
推荐阅读
- 求职|2020年考上“专科”的新生注意了!这3件事越早明白越好,对就业有帮助
- 知识百科|都错了! 福州大学2020年分数线出炉, 福大完胜,欠福师大一个211?
- 天秤座每日运势|天秤座每日运势2020年10月20日2020/10/20 #天秤座# 每日运势
- 京东|全世界都在看的晚会!2020天猫双11狂欢夜来了
- 邱猎猎人力资源集团邱猎猎集团“决胜2020”Q3季度会议顺利举行
- 大数据&云计算长飞公司亮相2020中国国际信息通信展览会
- 紫光集团|紫光集团亮相2020全球工业互联网大会,“芯云一体”助力工业互联网领先发展
- 封面新闻|PEL2020 S3常规赛结束:DKG豪取最后一个周冠军 TC闷声发大财
- 中国网财经|比音勒芬2020年前三季度净利润约3.49亿元 同比增加12.01%
- 威尔|《中国新说唱2020》diss过吴亦凡的威尔淘汰小白,这次歌词更劲爆
