KDD Cup 2020多模态召回比赛季军方案与广告业务应用( 四 )

该模型的设计主要考虑了如下三点：

利用带门全连接网络做语义映射。图片和Query处于不同语义层级，需利用函数映射到相同的语义空间，我们采取了两个全连接层的方式达到该目的。实验发现，全连接层的隐层大小是比较敏感的参数，适当增大隐层，可在不过分增加计算复杂度的情况下，显著提升模型效果。此外，如文献所述，使用带门的全连接层可进一步提升语义映射网络的效果。
采用双向Attention机制。图片和Query均由更细粒度的子语义单元组成。具体来说，一张图片上可能有多个框，每个框均有独立的语义信息；一个Query分为多个词，每个词也蕴含独立的语义信息。这一数据特点是由电商搜索场景决定的。因而，在模型设计时，需考虑到单个子语义单元之间的匹配。我们采用单个词和全部框、单个框和全部词双方向的注意力机制，去捕捉这些子单元的匹配关系和重要程度。
使用多样化多模融合策略。多模信息融合有很多手段，大部分最终归结为图片向量和Query向量之间的数学操作符。考虑到不同融合方式各有特点，多样融合能够更全面地刻画匹配关系，我们采用了Kronecker Product、Vector Concatenation和Self-Attention 三种融合方式，将经过语义空间转化和Attention机制映射后的图片向量和Query向量进行信息融合，并最终送入全连接神经网络，得到匹配与否的概率值。

此外，我们采用在训练集样本上预训练词向量的方式得到原始Query的表示，而非使用BERT模型等流行的预训练模型。这里的主要考虑是，数据分析指出， Query和常见的自然语句很不同，而更像是一组特定属性/品类名词组合在一起的短语，这和BERT等预训练模型所使用的语料有明显差异。事实上，我们初步尝试引入Glove预训练词向量等，和直接在Query文本上预训练相比，并无明显收益。再考虑到BERT模型比较笨重，不利于快速迭代，我们最终没有使用相关的语言模型技术。

本文插图
图6 细粒度匹配网络
多模融合
在上述技术手段的处理下，我们得到了多个基础模型。这些模型均可在验证集上进行Finetune ，从而使其效果更贴近真实分布。一方面， Finetune阶段可继续使用前述的神经网络匹配模型。另一方面，前述神经网络可作为特征提取器，将其在规模较小的验证集上的输出，放入树模型重新训练。这一好处是树模型和神经网络模型异质性大，融合效果更好。最终，我们提交的结果是多个神经网络模型和树模型融合的结果。
评估结果
我们以随机采样训练的粗粒度（图片表示为所有框的平均， Query表示为所有词的平均）匹配网络为基准模型。下表列出了我们解决方案的各个部分在基准模型上的提升效果。

本文插图
表4 不同方法的NDCG提升
广告业务应用
搜索广告算法团队负责美团与点评双平台的搜索广告与筛选列表广告业务，业务类型涉及餐饮、休闲娱乐、丽人、酒店等，丰富的业务类型为算法优化带来很大空间与挑战。搜索广告中的创意优选阶段，目的在通过当前搜索词或者筛选意图，为用户的每一个广告展示结果选择高质量的图片。用户的搜索词与图片在维度，表达粒度均有较大差异，我们采用多模态学习来解决这一问题，将跨模表达进行同空间映射。
如下图所示，在多模态网络中，将广告特征、请求特征、用户偏好连同图片特征作为输入，其中图片特征通过CNN网络提取图片向量表示，其他特征通过多层MLP进行交叉得到稠密向量表示，最终通过图片Loss和多模Loss两个损失函数约束模型训练。通过这样的建模方式，创意优选模型可以根据查询为不同用户的广告结果呈现最合适的图像。