华为云摘得信息检索领域国际权威比赛金牌,实力全解析
近日,在美国休斯敦闭幕的第13届网络搜索与数据挖掘国际会议(WSDM 2020)上,华为云语音语义创新Lab带领来自华南理工大学、华中科技大学、江南大学、武汉大学学生组成的联合团队,摘得WSDM Cup 2020大赛“论文引用意图识别任务”金牌(Gold Medal) 。
WSDM被誉为全球信息检索领域最有影响力也最权威的会议之一,会议关注社交网络上的搜索与数据挖掘,尤其关注搜索与数据挖掘模型、算法设计与分析、产业应用和提升准确性与效果的实验分析 。 今年已经是WSDM的第十三届会议 。
本文将详细介绍本次获奖的解决方案 。 文章转载自华为云社区https://bbs.huaweicloud.com/blogs/149716
1、背景
几个世纪以来,社会技术进步的关键在于科学家之间坦诚的学术交流 。 新发现和新理论在已发表的文章中公开分发和讨论,有影响力的贡献则通常被研究界以引文的形式认可 。 然而,随着科研经费申请竞争日趋激烈,越来越多的人把学术研究当成一种资源争夺的手段,而不是单纯为了推动知识进步 。 部分期刊作者“被迫”在特定期刊中引用相关文章,以提高期刊的影响因子,而论文审稿人也只能增加期刊的引用次数或h指数 。 这些行为是对科学家和技术人员所要求的最高诚信的冒犯,如果放任这种情况发展,可能会破坏公众的信任并阻碍科学技术的未来发展 。 因此,本次WSDM Cup 2020赛题之一将重点放在识别作者的引文意图:要求参赛者开发一种系统,该系统可以识别学术文章中给定段落的引文意图并检索相关内容 。
华为云语音语义创新Lab在自然语言处理领域有着全栈的技术积累,包括自然语言处理基础中的分词、句法解析,自然语言理解中的情感分析、文本分类、语义匹配,自然语言生成,对话机器人,知识图谱等领域 。 其中和本次比赛最相关的技术是语义匹配技术 。 Xiong团队通过对赛题任务进行分析,针对该问题制定了一种“整体召回+重排+集成”的方案,该方案以轻量化的文本相似度计算方法(如BM25等)对文章进行召回,然后基于深度学习的预训练语言模型BERT等进行重排,最后通过模型融合进行集成 。
2、赛题介绍
华为云摘得信息检索领域国际权威比赛金牌,实力全解析。 本次比赛将提供一个论文库(约含80万篇论文),同时提供对论文的描述段落,来自论文中对同类研究的介绍 。 参赛选手需要为描述段落匹配三篇最相关的论文 。
例子:
描述:
An efficient implementation based on BERT [1] and graph neural network (GNN) [2] is introduced.
相关论文:
[1] BERT: Pre-training of deep bidirectional transformers for language understanding.[2] Relational inductive biases, deep learning, and graph networks.
评测方案:
----华为云摘得信息检索领域国际权威比赛金牌 , 实力全解析//----
推荐阅读
- 华为云启动全球抗疫行动,参与计划伙伴将获最高30000美元免费云资源
- 『科技拌饭』敌人无处遁形,手机变身物理外挂?华为MateXs双倍视野刚枪
- [欧阳公明仔父]华为P40已摆脱谷歌阴影?迈向自主系统仍有挑战
- 华为■华为P40 Pro冰霜银“神仙图赏”:颜值巅峰+DxO霸榜+旗舰性能
- #华为#华为 P40 Pro 冰霜银赏析:四曲满溢屏 + 哑光机身
- 华为与统信软件签署合作协议,携手共建鲲鹏桌面云新生态
- 『全国能源信息平台』并重申2025年前年产80万辆电动汽车目标,奥迪详解4大电动车平台
- 经济日报:华为完成中国优惠贷款合作项目——“智慧塞内加尔”助力塞政府举行首次远程内阁会议
- 「P40」未发布手机盘点,华为本月带来8款新机,还有一款麒麟810入门机型
- 麒麟820:麒麟820完虐骁龙756G,华为芯片终于出了一口气
