极速聊科技@阿里、南大最新论文或推翻以往电商排序算法,验证集评估可能是错的( 二 )


在这一框架中 , 使用强化学习根据评估器的反馈来优化生成器是很自然的思路 。
评估器
为了兼顾购买样本的稀疏性 , 评估器还用点击数据标签进行了联合训练 。 这可帮助模型学习点击预测任务和购买预测任务中的常识知识 。
生成器
在该框架中 , 生成器的结构类似于指针网络 , 但为了更快速地在线预测 , 该网络进行过简化 。
编码器:生成器的编码器的输入分为两部分 。 第一部分是表征列表的当前状态 , 其处理过程类似于评估器中的方法 。 第二部分是提取动作的特征 。 编码器的输出包含N个向量 , 其中包含候选商品的特征和当前的隐藏状态 。
解码器:解码器的输入是N个动作对和隐藏状态 , 输出则可通过简单的masking进行采样得到 。
EG-Rerank
研究者优化生成器的方法是PPO算法 , 这是根据评估器在生成器输出上的反馈来实现的 。 但是 , 标准的PPO算法无法在阿里巴巴的离线数据中训练得到稳定的critic网络 。 在实验中 , critic网络总是输出随机值 , 无法根据编码器产生的状态而为训练提供太多帮助 。 因此 , 研究者并未训练critic网络 , 而是采样了一些轨迹 , 然后估计状态的值 。
EG-Rerank+
针对这一问题 , 这篇论文提出的解决方案是引入一个序列判别器 , 加入这个判别器后的框架记为EG-Rerank+ 。
该数据包含几千个原始查询为「手机屏幕保护膜」的真实列表 。 很明显 , EG-Rerank+的输出比EG-Rerank更接近记录中的列表 。
极速聊科技@阿里、南大最新论文或推翻以往电商排序算法,验证集评估可能是错的
文章图片
实验
下表展示了各种方法在模拟环境中的表现:
表3:在基于规则的模拟环境中的模型表现 。 评估器根据原始顺序为商品打分 , 这样我们便可以在生成任务中排除它 。 EG-Rerank和EG-Rerank+并没有为列表打分的函数 。 各分组的最佳用下划线标出 , 粗体则表示全局最佳 。
研究者还在AliExpressSearch上进行了少量在线A/B测试 , 其中每个模型都可提供随机部分的搜索查询 。 模型可以获取过去两周的数据 , 展示的列表有数十亿个 , 购买记录有数百万个 。 购买转化率是在线性能的主要指标 。 在线环境的变化速度非常快 , 每天的差距可能都各不相同 。 所有的A/B测试都持续进行了一周时间 , 然后方差是可接受的 , 可以清楚地确定更好的方法 。
在长期测试中 , 事实证明 , 经过微调的RankNet*离线表现最好且在线表现也很出色 。 RankNet*与该系统能很好地合作 , 并且可以近乎实时地更新自己 , 其中EG-Rerank每天都进行增量训练 。 得益于判别器策略 , EG-Rerank+的平均离线GroupAUC比EG-Rerank高 。 表4给出了在线指标的结果 。
表4:在线性能 。 在CRgap列 , 第一行因为是基准 , 所以差距始终为0 。


推荐阅读