华为云摘得信息检索领域国际权威比赛金牌，实力全解析( 二 ) WSDM被誉为全球信息检索领域最有影响力

　　3、数据分析

　　本次赛题共给出80多万条候选论文,6万多条训练样本和3万多条本测试样本,候选论文包含paper_id,title,abstract,journal,keyword,year这六个字段的信息,训练样本包含description_id,paper_id,description_text这三个字段的信息,而测试数据则给出description_id和description_text两个字段,需要匹配出相应的paper_id 。

----华为云摘得信息检索领域国际权威比赛金牌，实力全解析//----

　　我们对数据中候选论文的title,abstract以及描述文本的长度做了一些统计分析,如图1所示,从图中我们可以看到文本长度都比较长,并且针对我们后续的单模型,我们将模型最大长度从300增加到512后,性能提升了大约1% 。

　　图1 候选论文的Title(a),Abstract(b)以及描述文本(c)的长度分布

　　4、整体方案

　　我们方案的整体架构如图2所示,整体方案分为四个部分:数据处理,候选论文的召回,候选论文的重排以及模型融合。

华为云摘得信息检索领域国际权威比赛金牌，实力全解析。

----华为云摘得信息检索领域国际权威比赛金牌，实力全解析//----

　　图2 整体方案架构(部分图引自[5])

　　4.1 数据处理

　　通过观察数据我们发现,在标题给出的描述语句中,有许多相同的描述文本,但是参考标记的位置却不同。也就是说,在同一篇文章中,不同的句子引用了不同的论文。为此,我们抽取句子中引用标记位置处的语句作为新的描述语句生成候选集。

　　如表1所示,我们选取描述中[[**##**]]之前的句子作为描述关键句。

----华为云摘得信息检索领域国际权威比赛金牌，实力全解析//----

　　表1 描述关键句生成

　　4.2候选论文召回

　　如图3所示,我们运用BM25和TF-IDF来进行论文的召回,选取BM25召回的前80篇论文和TF-IDF召回的前20篇论文构成并集组成最终的召回论文。

　　rId13

　　图3 召回示意图

　　4.3候选论文重排

　　在本方案中,我们用BERT模型作为基础模型,BERT是一种能在基于查询的文章重排任务中取得良好性能的语义表示模型。通过观察数据发现,论文主要数据生物医学领域,于是我们聚焦到采用生物医学领域数据训练预训练模型。然后将查询与描述字段以句子对的形式输入进BERT模型进行训练。我们的实验表明,在该任务上,单个的BioBERT的性能要比BERT性能高5个百分点。如图4为BioBERT的结构图。