趣投稿|用BERT夺腾讯广告算法大赛50万元大奖,这是冠军团队的解决方案
机器之心报道
编辑:小舟、蛋酱
这三位程序员 , 用 BERT 捧走了 50 万人民币的高额奖金 。
8 月 3 日 , 一年一度的腾讯广告算法大赛在深圳腾讯滨海大厦举办 。
一直以来 , 腾讯广告都在不断寻找更为优秀的数据挖掘和机器学习算法 。 这场备受瞩目的算法盛事 , 今年已经是第四届 。 每一年的比赛都会吸引上万人参加 , 还催生出一个小型算法社区 。
最终 , 由三位年轻程序员组成的 DYG 团队捧走了冠军 7 万美金(近 50 万人民币)的高额大奖 。 从初赛冠军、复赛冠军 , 再到最佳答辩 , 这三位程序员究竟靠的是什么?
DYG 团队由来自武汉大学计算机科学硕士、算法工程师王贺 , 中山大学 - 微软研究院联合培养博士生郭达雅以及多次荣获国内 NLP 和数据挖掘比赛 TOP 名次的梁少强组成 。 值得一提的是 , 前两位选手同时也是 2019 年腾讯广告算法大赛的冠军得主 。
本文插图
左起:腾讯广告副总裁蒋杰 , 「DYG」战队王贺、郭达雅、梁少强 。
比赛题目
今年腾讯广告算法大赛的题目是「广告受众基础属性预估」 , 和以往比赛分析广告转化率、预估曝光效率的传统思路不同 , 这次的赛题是一种逆向思考 。
通常认为人们对于广告的偏好会因年龄和性别的不同而有所区别 , 许多行业的实践者已经验证了这一假设 。 但大多数采用的方法是在已有这些属性之后进行区分推荐 , 随后对比推荐效果 。
【趣投稿|用BERT夺腾讯广告算法大赛50万元大奖,这是冠军团队的解决方案】而今年的赛题「广告受众基础属性预估」尝试从相反方向验证这一假设 。 这既是行业中会面临的问题 , 也符合目前 AI 算法落地更加注重用户隐私的趋势 。
本次比赛的训练数据集为一组用户在长度为 91 天(3 个月)时间窗口内的广告点击历史记录 。 每条记录中包含了日期(从 1 到 91)、用户信息(年龄 , 性别) , 被点击的广告的信息(素材 id、广告 id、产品 id、产品类目 id、广告主 id、广告主行业 id 等) , 以及该用户当天点击该广告的次数 。
测试数据集则是另一组用户的广告点击历史记录 , 提供给参赛者的测试数据集中不会包含这些用户的年龄和性别信息 。 测试数据集与训练数据集一起提供给参赛者 。
本赛题要求参赛者预测测试数据集中出现的用户的年龄和性别 , 并以约定的格式提交预测结果 。 评价指标包括参赛者提交的结果计算预测的准确率(accuracy) , 年龄预测和性别预测的准确率分别评估 , 两者之和用于参赛者的打分 。
测试数据集中出现的用户划分为两组 , 具体划分方式对参赛者不可见 。 其中一组用户用于初赛和复赛阶段除最后一天之外的排行榜打分计算 , 另一组则用于初赛和复赛阶段最后一天的排行榜打分计算 , 以及最后的胜出队伍选择 。
接下来我们就来看一下本次比赛的冠军 DYG 团队的解决方案 。
代码地址:https://github.com/guoday/Tencent2020_Rank1st
特征工程
统计特征
用户出现的总次数和天数
用户点击广告的总次数
用户点击不同广告、产品、类别、素材、广告主的总数
用户每天每条广告点击的平均次数 , 均值和方差
概率分布特征
本文插图
经过大量特征工程的尝试 , DYG 团队最后选用五折交叉的 target encoding 得到每个该广告实体对应的性别年龄信息 , 按用户点击广告实体进行聚合统计 。
模型介绍
首先来看下模型的框架 , 主要分为三个部分:BERT(Bidirectional Encoder Representation From Transformer)部分、融合层和输出层 。
推荐阅读
- 腾讯|9月20号后,iPhone还能不能使用微信?腾讯高管给出答案
- 微信|9月20号后,iPhone还能不能使用微信?腾讯高管给出答案
- 腾讯|三大疑点!账号被封事件背后发生了什么?
- 青年|21岁男子因腾讯封微信号,一气之下从腾讯大厦跳下,原因竟是这样
- |BATJ罕见联手!一公司被百度京东腾讯阿里联合申诉,怎么了?
- 腾讯新闻潜望|一线|小米发布第三代屏下相机技术 将于明年正式量产
- 腾讯科技|同城艺龙第二季度营收同比下降24.6% 净利下滑43.2%
- 数字化|腾讯云启&德勤中国强强联合,助力中小企业数字化转型
- 腾讯科技|神州租车上半年营收同比下降26.3% 净亏损43.4亿元
- 融资并购,腾讯|腾讯旗下微民保险代理公司注册资本增加至约6.96亿元
