KDD Cup 2020多模态召回比赛季军方案与广告业务应用


ACM SIGKDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining)是世界数据挖掘领域的顶级国际会议 。 今年 , KDD Cup共设置四个赛道共五道赛题 , 涉及数据偏差问题(Debiasing)、多模态召回(Multimodalities Recall)、自动化图学习(AutoGraph)、对抗学习问题和强化学习问题 。
美团搜索广告算法团队最终在Debiasing赛道中获得冠军(1/1895) , 在AutoGraph赛道中也获得了冠军(1/149) 。 在Multimodalities Recall赛道中 , 亚军被美团搜索与NLP团队摘得(2/1433) , 而季军被美团搜索广告算法团队收入囊中(3/1433) 。
本文将介绍多模态召回赛道季军的技术解决方案 , 以及在美团搜索广告业务中的应用与实践 。 希望能给从事相关工作的同学带来一些帮助或者启发 。
KDD Cup 2020多模态召回比赛季军方案与广告业务应用
本文插图
背景
美团到店广告平台搜索广告算法团队基于自身的业务场景 , 一直在不断进行前沿技术的深入优化与算法创新 , 团队在图学习、数据偏差、多模态学习三个前沿领域均有一定的算法研究与应用 , 并取得了不错的业务结果 。
基于这三个领域的技术积累 , 团队在KDD Cup 2020比赛中选择了三道紧密联系的赛题 , 希望应用并提升这三个领域技术积累 , 带来技术与业务的进一步突破 。 团队的黄坚强、胡可、漆毅、曲檀、陈明健、郑博航、雷军与中科院大学唐兴元共同组建参赛队伍Aister , 参加了AutoGraph、Debiasing、Multimodalities Recall三道赛题 , 最终在AutoGraph赛道中获得了冠军(1/149)(KDD Cup 2020 自动图学习比赛冠军技术方案及在美团广告的实践) , 在Debiasing赛道中获得冠军(1/1895)(KDD Cup 2020 Debiasing比赛冠军技术方案及在美团广告的实践) , 并在Multimodalities Recall赛道中获得了季军(3/1433) 。

KDD Cup 2020多模态召回比赛季军方案与广告业务应用
本文插图
图1 KDD 2020会议
要处理自然界、生活中多种模态纠缠、互补着的信息 , 多模态学习是必由之路 。 随着互联网交互形态的不断演进 , 多模态内容如图文、视频等越发丰富;在美团的搜索广告系统中 , 也体现出同样的趋势 。
搜索广告算法团队利用多模态学习相关技术 , 已在业务上取得了不错的效果 , 并在今年KDD Cup的Multimodalities Recall赛道获得了第三名 。 本文将介绍Multimodailites Recall赛题的技术方案 , 以及团队在广告业务中多模态学习相关技术的应用与研究 , 希望对从事相关研究的同学能够有所帮助或者启发 。
KDD Cup 2020多模态召回比赛季军方案与广告业务应用
本文插图
图2 KDD Cup 2020 Multimodalities Recall 比赛TOP 10榜单
赛题介绍与分析
题目概述
多模态召回赛题由阿里巴巴达摩院智能计算实验室发起并组织 , 关注电商行业中的多模信息学习问题 。 2019年 , 全世界线上电商营收额已经达到3530亿美元 。 据相关预测 , 到2022年 , 总营收将增长至6540亿美元 。 大规模的营收和高速增长同时预示着 , 消费者对于电商服务有着巨大的需求 。 跟随这一增长 , 电商行业中各种模态的信息越来越丰富 , 如直播、博客等等 。 怎样在传统的搜索引擎和推荐系统中引入这些多模信息 , 更好地服务消费者 , 值得相关从业者深入探讨 。
【KDD Cup 2020多模态召回比赛季军方案与广告业务应用】本赛道提供了淘宝商城的真实数据 , 包括两部分 , 一是搜索短句(Query)相关 , 为原始数据;二是商品图片相关 , 考虑到知识产权等 , 提供的是使用Faster RCNN在图片上提取出的特征向量 。 两部分数据被组织为基于Query的图片召回问题 , 即有关文本模态和图片模态的召回问题 。


推荐阅读