极速聊科技@阿里、南大最新论文或推翻以往电商排序算法，验证集评估可能是错的( 二 ) 参与：Panda用验证集来测试算法性能、

在这一框架中，使用强化学习根据评估器的反馈来优化生成器是很自然的思路。
评估器
为了兼顾购买样本的稀疏性，评估器还用点击数据标签进行了联合训练。这可帮助模型学习点击预测任务和购买预测任务中的常识知识。
生成器
在该框架中，生成器的结构类似于指针网络，但为了更快速地在线预测，该网络进行过简化。
编码器：生成器的编码器的输入分为两部分。第一部分是表征列表的当前状态，其处理过程类似于评估器中的方法。第二部分是提取动作的特征。编码器的输出包含N个向量，其中包含候选商品的特征和当前的隐藏状态。
解码器：解码器的输入是N个动作对和隐藏状态，输出则可通过简单的masking进行采样得到。
EG-Rerank
研究者优化生成器的方法是PPO算法，这是根据评估器在生成器输出上的反馈来实现的。但是，标准的PPO算法无法在阿里巴巴的离线数据中训练得到稳定的critic网络。在实验中， critic网络总是输出随机值，无法根据编码器产生的状态而为训练提供太多帮助。因此，研究者并未训练critic网络，而是采样了一些轨迹，然后估计状态的值。
EG-Rerank+
针对这一问题，这篇论文提出的解决方案是引入一个序列判别器，加入这个判别器后的框架记为EG-Rerank+ 。
该数据包含几千个原始查询为「手机屏幕保护膜」的真实列表。很明显， EG-Rerank+的输出比EG-Rerank更接近记录中的列表。

文章图片
实验
下表展示了各种方法在模拟环境中的表现：
表3：在基于规则的模拟环境中的模型表现。评估器根据原始顺序为商品打分，这样我们便可以在生成任务中排除它。 EG-Rerank和EG-Rerank+并没有为列表打分的函数。各分组的最佳用下划线标出，粗体则表示全局最佳。
研究者还在AliExpressSearch上进行了少量在线A/B测试，其中每个模型都可提供随机部分的搜索查询。模型可以获取过去两周的数据，展示的列表有数十亿个，购买记录有数百万个。购买转化率是在线性能的主要指标。在线环境的变化速度非常快，每天的差距可能都各不相同。所有的A/B测试都持续进行了一周时间，然后方差是可接受的，可以清楚地确定更好的方法。
在长期测试中，事实证明，经过微调的RankNet*离线表现最好且在线表现也很出色。 RankNet*与该系统能很好地合作，并且可以近乎实时地更新自己，其中EG-Rerank每天都进行增量训练。得益于判别器策略， EG-Rerank+的平均离线GroupAUC比EG-Rerank高。表4给出了在线指标的结果。
表4：在线性能。在CRgap列，第一行因为是基准，所以差距始终为0 。

极速聊科技@阿里、南大最新论文或推翻以往电商排序算法，验证集评估可能是错的( 二 )

推荐阅读

520祝福的话语,句句暖人心 520祝福

【克什米尔】克什米尔激战持续两天，近200人倒在血泊中，大批印军被击毙！

手工面料教程手工面料方案

湖南积极引导社会扶贫合力攻坚

关羽|关羽五虎将被喷惨，张大仙体验后给出公正评价，这次老马又亏了

运动后足弓酸痛是啥问题，怎样解决

全国最好的6大高速服务区，你开车路过吗

【新华网】美国前总统卡特准备接受手术缓解脑压高

江苏如何进行理商标注册查询？

网易娱乐|台媒曝王大陆母亲病逝送医后研判是脑干肿瘤破裂

【肝脏】肝不好，手脚会有4种表现，若占1个，警惕是肝在向你“求救”！

南极|科学家感到惊异，南极卫星拍摄到地下城市，不冻湖里藏有外星基地

核桃果肉能吃吗

肝脏|肝癌发现即晚期，医生：睡觉时有三症状，或是“求救信号”莫忽视

疾病|寿命不长的男性，多半会有这3个“标准”，希望你一个都没有

来历|陇上传说（73）丨“罗家洞”的来历不简单

去年北京实际利用外资167.4亿美元同比增近四成

『蜗牛的吃鸡日常』在镜头镀膜上省钱，魅族前副总裁李楠嘲讽P40Pro：用一个超大底

身体或内心，最难受的一次是怎么的？

「C罗」山东鲁能热身赛确定转播机构，齐鲁德比或成本赛季“绝唱”！