趣投稿|用BERT夺腾讯广告算法大赛50万元大奖,这是冠军团队的解决方案( 二 )
本文插图
BERT 部分
DYG 团队假设每个广告为一个单词 , 将用户点击序列看作一句话 , 这样就将问题转为了 NLP 的文本分类问题 。 DYG 团队使用 bert 作为 encoder 进行编码 , 并使用了 12 层 transformer 。 每层 transoformer 将上一层的隐变量作为输入 , 经过 Multi-Head Self Attention 和 Layer Norm 等 , 最后输出交互更高的隐变量 。
本文插图
bert 在 NLP 能够取得巨大成功的主要原因是预训练 , 所以在比赛初期 DYG 团队不断尝试将预训练运用到本赛题中 。 但与 NLP 不同 , 广告具有稀疏性 , 使其词表达到七八百万 。 这就会造成两个问题:第一个问题是这么大的词表很难放入 GPU 中 , 第二个问题是即使放到 CPU , 由于参数过大 , 也难于训练 。 针对这些问题 , DYG 团队使用了两个阶段的预训练方法对 BERT 进行训练 。
预训练:Word2Vector
第一个阶段:使用 word2vec 去预训练广告的 embedding , 目标是将类似的广告进行聚类 。 具体操作如下图所示 , DYG 团队首先将用户点击广告序列输入到 embedding 层 , 然后预测广告 id 。
本文插图
但这里会存在两个问题 , 首先是此处只使用了一个广告去预测另一个广告 , 并没有使用更多的广告进行预测 , 因此缺失了更多的上下文信息 。
其次是没有利用广告本身的属性进行预测 。 比如给定该广告是游戏类型的广告 , 那么就更容易预测出当前广告 , 同时也鼓励模型结合最近点击的广告和当前广告的属性进行预测 , 从而对齐广告 id 及其属性的 embedding 。
预训练:Masked Language Modeling (MLM)
DYG 团队对 Masked Language Modeling (MLM)进行了改进 , 原始的 MLM 直接 mask 掉包括属性在内的整个广告 , 而改进之后的 MLM 只 mask 广告的一部分(广告 id 或属性) 。 改进后的 MLM 随机 mask 掉 20% 的 token , mask 后的位置使用 0 向量来代替 , 或者采样一个属性 id 来替换 。
本文插图
使用改进后的 MLM 预测广告时 , 不仅可以使用最近点击的广告 , 也可以用其属性来预测 , 使得不同属性的 embedding 能够在语义空间上对齐 。
同时 , DYG 团队针对词表过大的问题采用了一个很关键的策略:把词表缩小到 10 万(提取 top10w , 其余为 unk) , 在预训练阶段只预测这 10 万个单词 , 从而使 bert 能够跑起来 。
融合层
本文插图
DYG 团队方案在融合层(Fusion Layer)中 , 把点击广告的受众人群性别年龄分布融入到网络之中 , 具体的做法是把人群分为五个部分 , 假设用户点击 n 个广告并来自第一个人群 , 那么可以把剩下的作为种子人群 , 计算出每个广告的性别年龄概率分布 , 用四层的 transformer 进行融合 。
输出层
最后来看下输出层:
本文插图
以上就是本次比赛 DYG 团队解决方案的主要内容 。 凭借此方案 , DYG 团队一路披荆斩棘 , 最终捧起第四届腾讯广告算法大赛冠军的奖杯 。
赛后分析
DYG 团队在赛后对此方案做了分析总结 , 归纳出其创新的亮点:
1. 改进 BERT 并运用到人口属性预测场景
推荐阅读
- 腾讯|9月20号后,iPhone还能不能使用微信?腾讯高管给出答案
- 微信|9月20号后,iPhone还能不能使用微信?腾讯高管给出答案
- 腾讯|三大疑点!账号被封事件背后发生了什么?
- 青年|21岁男子因腾讯封微信号,一气之下从腾讯大厦跳下,原因竟是这样
- |BATJ罕见联手!一公司被百度京东腾讯阿里联合申诉,怎么了?
- 腾讯新闻潜望|一线|小米发布第三代屏下相机技术 将于明年正式量产
- 腾讯科技|同城艺龙第二季度营收同比下降24.6% 净利下滑43.2%
- 数字化|腾讯云启&德勤中国强强联合,助力中小企业数字化转型
- 腾讯科技|神州租车上半年营收同比下降26.3% 净亏损43.4亿元
- 融资并购,腾讯|腾讯旗下微民保险代理公司注册资本增加至约6.96亿元
