华为云摘得信息检索领域国际权威比赛金牌,实力全解析( 二 )
3、数据分析
本次赛题共给出80多万条候选论文,6万多条训练样本和3万多条本测试样本,候选论文包含paper_id,title,abstract,journal,keyword,year这六个字段的信息,训练样本包含description_id,paper_id,description_text这三个字段的信息,而测试数据则给出description_id和description_text两个字段,需要匹配出相应的paper_id 。
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
我们对数据中候选论文的title,abstract以及描述文本的长度做了一些统计分析,如图1所示,从图中我们可以看到文本长度都比较长,并且针对我们后续的单模型,我们将模型最大长度从300增加到512后,性能提升了大约1% 。
图1 候选论文的Title(a),Abstract(b)以及描述文本(c)的长度分布
4、整体方案
我们方案的整体架构如图2所示,整体方案分为四个部分:数据处理,候选论文的召回,候选论文的重排以及模型融合 。
华为云摘得信息检索领域国际权威比赛金牌,实力全解析。
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
图2 整体方案架构(部分图引自[5])
4.1 数据处理
通过观察数据我们发现,在标题给出的描述语句中,有许多相同的描述文本,但是参考标记的位置却不同 。 也就是说,在同一篇文章中,不同的句子引用了不同的论文 。 为此,我们抽取句子中引用标记位置处的语句作为新的描述语句生成候选集 。
如表1所示,我们选取描述中[[**##**]]之前的句子作为描述关键句 。
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
表1 描述关键句生成
4.2候选论文召回
如图3所示,我们运用BM25和TF-IDF来进行论文的召回,选取BM25召回的前80篇论文和TF-IDF召回的前20篇论文构成并集组成最终的召回论文 。
rId13
图3 召回示意图
4.3候选论文重排
在本方案中,我们用BERT模型作为基础模型,BERT是一种能在基于查询的文章重排任务中取得良好性能的语义表示模型 。 通过观察数据发现,论文主要数据生物医学领域,于是我们聚焦到采用生物医学领域数据训练预训练模型 。 然后将查询与描述字段以句子对的形式输入进BERT模型进行训练 。 我们的实验表明,在该任务上,单个的BioBERT的性能要比BERT性能高5个百分点 。 如图4为BioBERT的结构图 。
推荐阅读
- 华为云启动全球抗疫行动,参与计划伙伴将获最高30000美元免费云资源
- 『科技拌饭』敌人无处遁形,手机变身物理外挂?华为MateXs双倍视野刚枪
- [欧阳公明仔父]华为P40已摆脱谷歌阴影?迈向自主系统仍有挑战
- 华为■华为P40 Pro冰霜银“神仙图赏”:颜值巅峰+DxO霸榜+旗舰性能
- #华为#华为 P40 Pro 冰霜银赏析:四曲满溢屏 + 哑光机身
- 华为与统信软件签署合作协议,携手共建鲲鹏桌面云新生态
- 『全国能源信息平台』并重申2025年前年产80万辆电动汽车目标,奥迪详解4大电动车平台
- 经济日报:华为完成中国优惠贷款合作项目——“智慧塞内加尔”助力塞政府举行首次远程内阁会议
- 「P40」未发布手机盘点,华为本月带来8款新机,还有一款麒麟810入门机型
- 麒麟820:麒麟820完虐骁龙756G,华为芯片终于出了一口气
