极速聊科技@阿里、南大最新论文或推翻以往电商排序算法,验证集评估可能是错的

参与:Panda
用验证集来测试算法性能、挑选模型是一种常见操作 , 在电商领域也是如此 。 但阿里巴巴与南京大学的一篇论文指出 , 对于在线推荐排序这种具有决策因素的环境 , 验证集评估得到的性能与真实的在线性能会出现很大的出入 , 验证集效果好的方法真实性能可能更差 。
「这意味着 , 这一方向的研究可能已经被验证集评估带歪了 。 」针对这一问题 , 他们提出了一种新的评估器-生成器方法 , 可显著提升商品排序的有效性 。
极速聊科技@阿里、南大最新论文或推翻以往电商排序算法,验证集评估可能是错的
文章图片
论文链接:https://arxiv.org/pdf/2003.11941.pdf
【极速聊科技@阿里、南大最新论文或推翻以往电商排序算法,验证集评估可能是错的】学习排名是网络搜索引擎和推荐系统的核心问题 , 直接关乎这些业务的利润 。 之前的很多LTR方法都假设一项商品存在固有的查询相关性 , 这些方法希望能基于有标注的数据集准确习得这种相关性 。 这些标签通常是通过消费者隐性反馈所收集的 , 可在许多方法中被用作训练模型的基本真值 。 在上述设置中 , 关注基于数据的排名指标是合理的 , 比如被广泛采用的曲线下面积和归一化折损累积收益 。 这会得到与标注数据紧密匹配的LTR模型 , 然后这些模型会被用于寻找最相关的商品 。
为了攻克组合空间巨大这一难题 , Zhuangetal.,2018提出了不同于经典LTR方法的重排名策略 。 这种学习过程首先是寻找与查询相关的一个小型的候选商品集合 , 然后在重排名阶段决定候选商品的顺序 。 这种重排名策略可以极大地减小组合空间 , 因此可以对候选项有全面的理解 , 以便找到适当的顺序 。 Aietal.,2019提出的逐分组评分函数框架也关注的是商品之间的影响力 , 其与重排名方法采用了同样的设置 。
即使重排名策略已经减少了候选项的数量 , 使得在组合空间中进行搜索变得可以实现 , 但是为了找到最佳排序 , 我们仍然需要一个准确的评估器来为各个商品列表打分 。 但是 , 通常的情况是已有列表的很多排序方式其实并未在已收集的数据中出现过 。 考虑到这些问题 , 阿里巴巴和南京大学的研究者发现:之前采用基于数据的指标的监督学习方法有两个重大局限 。 第一 , 基于数据的指标往往与在线表现不一致 , 因此可能误导学习过程 。 第二 , 监督学习范式难以探索组合空间 , 因此难以直接优化转化率和毛销售量等最终的性能指标 。 因此 , 有必要建立一种超出数据集范围的评估方法以及一种超出监督学习范式的探索方法 。
本论文为电子商务的逐分组LTR提出了一种评估器-生成器框架EG-Rerank 。 EG-Rerank可使用商品及其上下文信息来预测已排序商品列表的购买概率 。 此外 , 研究者还引入了一个判别器并将其用作自信评分函数 。 这个判别器可通过对抗训练方法来学习 , 可给出评估器为一个商品列表给出的分数的置信度 。 研究者使用这一判别器来引导生成器从判别器的视角在置信空间中输出顺序 。 然后 , EG-Rerank通过一种强化学习方法来训练LTR模型 , 其可在评估器的引导下探索商品的顺序 。 本文的主要贡献包括:
研究者在世界上最大的国际零售平台AliExpressSearch上进行了实验 , 结果表明某些常用的基于数据的指标可能与网上的实际表现不一致 , 因此确认基于数据的指标可能会误导LTR模型的学习过程 。
研究表明所学习到的评估器可能是一种非常稳健的目标 , 可以替代基于数据的指标 。
研究者展示了评估器-生成器框架的EG-Rerank和EG-Rerank+方法 。 研究表明 , 在在线A/B测试中 , 相比于经过微调的产业级再排名逐对评分模型 , EG-Rerank+可将转化率稳定地提升2%——对于成熟的大型平台而言 , 这是非常重大的提升 。
方法
新提出的用于逐分组LTR的评估器-生成器框架包括一个生成器、一个评估器和一个判别器 , 如下图所示 。


推荐阅读