华为云摘得信息检索领域国际权威比赛金牌,实力全解析( 三 )
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
图4 BioBERT结构图 (图引自[6])
4.4 模型融合
在模型融合的过程中,我们运用了6种共9个经过科学和生物医药语料库训练的预训练模型分别为:BioBERT_v1.1* 3, BioBERT_v1.0_PubMed_PMC * 2, BioBERT_v1.0_PubMed* 1,BioBERT_v1.0_PMC * 1, BioBERT_dish*1,SciBERT* 1 。 他们的单模型在该任务中的性能如表2所示 。
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
表2 单模型性能
然后我们对单模型输出的概率结果进行blending操作如图5所示,得到最后的模型结果,其比最好的单模型结果提升了1个百分点左右 。
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
图5 模型融合
5、总结与展望
本文主要对比赛中所使用的关键技术进行了介绍,如数据处理,候选论文的召回与重排,模型融合等 。 在比赛中使用专有领域训练后的预训练模型较通用领域预训练模型效果有较大的提升 。 由于比赛时间的限制,许多方法还没来得及试验,比如在比赛中由于正负样本不平衡,导致模型训练结果不理想,可以合理的使用上采样或下采样来使样本达到相对平衡,提升模型训练效果 。
参考文献
[1] Yang W, Zhang H, Lin J. Simple applications of BERT for ad hoc document
retrieval[J]. arXiv preprint arXiv:1903.10972, 2019.
[2] Gupta V, Chinnakotla M, Shrivastava M. Retrieve and re-rank: A simple and
effective IR approach to simple question answering over knowledge
graphs[C]//Proceedings of the First Workshop on Fact Extraction and
VERification (FEVER). 2018: 22-27.
[3] Peters M E, Neumann M, Iyyer M, et al. Deep contextualized word
representations[J]. arXiv preprint arXiv:1802.05365, 2018.
[4] Radford A, Wu J, Child R, et al. Language models are unsupervised multitask
推荐阅读
- 华为云启动全球抗疫行动,参与计划伙伴将获最高30000美元免费云资源
- 『科技拌饭』敌人无处遁形,手机变身物理外挂?华为MateXs双倍视野刚枪
- [欧阳公明仔父]华为P40已摆脱谷歌阴影?迈向自主系统仍有挑战
- 华为■华为P40 Pro冰霜银“神仙图赏”:颜值巅峰+DxO霸榜+旗舰性能
- #华为#华为 P40 Pro 冰霜银赏析:四曲满溢屏 + 哑光机身
- 华为与统信软件签署合作协议,携手共建鲲鹏桌面云新生态
- 『全国能源信息平台』并重申2025年前年产80万辆电动汽车目标,奥迪详解4大电动车平台
- 经济日报:华为完成中国优惠贷款合作项目——“智慧塞内加尔”助力塞政府举行首次远程内阁会议
- 「P40」未发布手机盘点,华为本月带来8款新机,还有一款麒麟810入门机型
- 麒麟820:麒麟820完虐骁龙756G,华为芯片终于出了一口气
