KDD Cup 2020多模态召回比赛季军方案与广告业务应用( 二 )
为方便理解 , 本赛道提供了少量真实图片及其对应的原始数据 , 下面是一个例子 。 该图例是一个正样例 , 其Query为Sweet French Dress , 图片主体部分是一名身着甜美裙装的女性 , 主体部分以外 , 则有大量杂乱信息 , 包括一个手提包、一些气球以及一些商标和促销文字信息 。 赛题本身不提供原始图片 , 而提供的是Faster RCNN在图片上提取出的特征向量 , 即图片中被框出的几个部分 。 可见 , 一方面Faster RCNN提取了图片中有明显语义的内容 , 有助于模型学习;另一方面 , Faster RCNN的提取会包含较多的框 , 这些框体现不出语义的主次之分 。 怎样利用这些框和文本相匹配 , 是该赛题的核心内容 。
本次赛题设置的评价指标为NDCG@5 。 具体来说 , 在给定的测试集里 , 每条Query会给出约30个样本 , 其中大约6条为正样本 , 其余为负样本 。 赛题需要选手设计匹配算法 , 召回出任意5条正样本 , 即可获得该Query的全部分数 , 否则 , 按照召回的正样本条数来计算NDCG指标作为该Query的分数 。 全部Query的分数进行平均 , 即为最终得分 。
本文插图
图3 Query和Product数据示例
数据分析和理解
本赛道提供了三份数据集 , 分别称为训练集、验证集和测试集 。 各个数据集的基本信息如下:
本文插图
表1 数据集概况
为进一步探索数据特点 , 我们将验证集给出的原始图片和特征信息做了聚合展现 , 下表是一组示例 。
本文插图
表2 搜索短语与图片的匹配正负例
根据如上探索 , 我们总结了数据集的三个重要特点:
- 训练集和验证集/测试集的数据特点大不相同 。 训练集量级显著高于验证集/测试集 , 足有三百万条Query-Image对 , 是验证集/测试集的一百倍以上 。 同时 , 训练集的每条Query-Image对均被视为正样本 , 这和验证集给出的一条Query下挂多个有正有负的Image截然不同 。 而通过对验证集原始图片和Query进行可视化探索 , 可见验证集数据质量很高 , 应该为人工标注 。 考虑人工标注成本和负样本的缺失 , 训练集有极大可能描述的是点击关系 , 而非人工标注的语义匹配关系 。 我们的解决方案中必须要考虑到训练集分布和测试集分布并不匹配这一基本特点 。
- 图片信息复杂 , 常常包含多个物体 。 这些物体均被框出 , 作为给定特征 , 但各个框之间语义信息并不平等;某些是噪音 , 如Query(men's high collar sweater)下的墨镜、围巾、相机等框图 , 某些又是因商品展示需要而重复 , 如Query(breathable and comfortable children's shoes)下的重复鞋的框图 。 平均来说 , 一张图片有4个框 , 怎么将这多个框包含的语义信息去噪、综合 , 得到图片的整体语义表达 , 是建模的一个重点 。
- Query作为给定的原始文本 , 有着与常用语料截然不同的构造和分布情况 。 从示例表可见 , Query并非自然语句 , 而是一些属性和商品实体连缀成的短语 。 经过统计发现 , 90%的Query都由3-4个单词组成;训练集有约150万的不同Query , 其词表大小在15000左右;通过最后一个单词 , 可将全部Query归约为大约2000类 , 每一类都是一个具体的商品名词 。 我们需要考虑文本数据的这些特质 , 进行针对性处理 。
本竞赛是在电商的搜索数据上的一个多模信息匹配任务 。 从上述数据集的三个特点出发 , 我们总结了该竞赛的两大主要挑战:
第一 , 分布不一致问题 。 经典统计机器学习的基础假设是训练集和测试集分布一致 , 不一致的分布通常会导致模型学偏 , 训练集和验证集效果难以对齐 。 我们必须依赖于已有的大规模训练集中的点击信号和小规模的和测试集同分布的验证集 , 设计可行的数据构建方法和模型训练流程 , 采取诸如迁移学习等技术 , 以处理这一问题 。
推荐阅读
- 求职|2020年考上“专科”的新生注意了!这3件事越早明白越好,对就业有帮助
- 知识百科|都错了! 福州大学2020年分数线出炉, 福大完胜,欠福师大一个211?
- 天秤座每日运势|天秤座每日运势2020年10月20日2020/10/20 #天秤座# 每日运势
- 京东|全世界都在看的晚会!2020天猫双11狂欢夜来了
- 邱猎猎人力资源集团邱猎猎集团“决胜2020”Q3季度会议顺利举行
- 大数据&云计算长飞公司亮相2020中国国际信息通信展览会
- 紫光集团|紫光集团亮相2020全球工业互联网大会,“芯云一体”助力工业互联网领先发展
- 封面新闻|PEL2020 S3常规赛结束:DKG豪取最后一个周冠军 TC闷声发大财
- 中国网财经|比音勒芬2020年前三季度净利润约3.49亿元 同比增加12.01%
- 威尔|《中国新说唱2020》diss过吴亦凡的威尔淘汰小白,这次歌词更劲爆
