百度联合中国计算机学会、中国中文信息学会共同发布“千言”计划
近年来 , 尽管自然语言处理技术飞速发展 , 但在模型鲁棒性、可解释性、复杂知识表示与文本融合、跨模态语义理解等方面依然面临挑战 。 为了解决自然语言技术发展中所面临的挑战和推进中文信息处理技术的进步 , 8月25日百度大脑语言与知识技术峰会在线上召开 , 百度联合中国计算机学会、中国中文信息学会共同发布千言数据共建计划(网址:https://luge.ai) 。 同时 , 百度技术委员会主席吴华发布了算力共享计划 , 希望通过数据集的共建与算力的共享 , 与学界、产业界共同推进技术进步 。

百度联合中国计算机学会、中国中文信息学会共同发布千言数据共建计划
目前 , 千言项目第一期已涵盖7大任务、20余个中文开源数据集 , 由百度携手哈工大、清华、中科院信息工程研究所等在内的10所顶级高校、企业共同建设完成 。 吴华表示:我们希望通过这些计划 , 与业界同仁一起解决中文信息处理技术发展中的挑战 , 并在世界范围内建设中文信息处理影响力 。
除两大重磅计划公布外 , 此次峰会凝聚了百度在语言与知识领域十年的技术积累和产业实践 。 百度CTO王海峰发表主旨演讲 , 解读了百度语言与知识技术的发展历程、最新成果及趋势展望 , 百度集团副总裁吴甜重磅推出5款产品的新发布 , 加速技术大规模应用发展 。
共建中文开源数据集 千言计划应对语言与知识技术应用新挑战
让机器像人一样理解语言、掌握知识的自然语言处理技术 , 是人工智能中认知智能的核心;对语言信息的处理能力也是一个国家的核心竞争力 。 我们每天都在使用的搜索、翻译、信息流推荐、时刻回应你每个需求的智能助手等 , 背后都是语言与知识技术在发挥作用 。
这样大规模的产业化应用也对技术提出了新挑战 。 包括模型需要具有全面的、处理多个子任务的能力;在跨领域数据上具有较好的泛化能力;在应用中有足够的鲁棒性以保证安全等等 。 此外 , 这些大规模应用对语义理解提出了更高的要求 , 要求模型具备一定的常识、背景知识甚至推理能力;同时随着内容承载形式的多元化 , 也需要模型具有多模态融合的内容理解能力等 。

为应对以上问题 , 百度联合中国计算机学会、中国中文信息学会共同发起了千言数据共建计划 , 携手高校和企业的数据资源研发者共同建设中文开源数据集 。 在此次峰会上 , 百度技术委员会主席吴华、中国中文信息学会副理事长兼秘书长孙乐、中国计算机学会自然语言处理专委会主任周国栋共同解读了千言数据集 , 千言的目标是覆盖丰富的任务类型 , 从语义理解、知识融合、跨模态融合等角度推动技术进步 , 同时提供能进行多维度综合评价的数据集 , 从而评价模型的全面性、泛化性和鲁棒性等 。
截至目前 , 第一期千言项目已涵盖了7大任务、20余个中文开源数据集 , 包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度等 。 由百度携手来自哈尔滨工业大学、清华大学、中国科学院信息工程研究所等10所顶尖高校和企业的数据集作者共同建立完成 。

为了使千言能够提供一站式的数据浏览、下载和评测的科研体验 , 百度还对所有数据进行了处理 , 每个任务都有统一的数据格式和评测 , 并在此基础上提供了基线系统 , 帮助加速模型的研发 。
吴华表示 , 在未来3年中 , 千言计划面向超20个任务 , 收集和建设不少于100个中文自然语言处理数据集 , 全面覆盖知识图谱、语言理解、语言生成、跨模态融合、NLP 应用系统等多个领域 。 也期待更多数据集作者能够加入共建 , 共同推动中文信息处理技术的进步 。
推荐阅读
- 中国新闻网|他主动投案,今年7月刚当上副省长……
- 武契奇|塞尔威亚总统武契奇:我在白宫捍卫了和中国的关系
- 中国江苏网|疫情诉求主入口,“12345”经历了什么?
- 健康中国微信公众号|颠覆!午睡千万别超过这个时间!当心引发致命疾病…
- 欧盟_时政|就美国与欧盟,塞尔维亚与科索沃罕见发表联合声明!
- 赵立坚|赵立坚:美国以莫须有借口抓捕中国企业高管 连一个弱女子都不放过
- 国际事今日看|美国一杯羹都分不到,只信任中国!埃及送来3000亿大项目
- 中国新闻网|港中大研究表明部分新冠患者康复后粪便内病毒仍具传染性
- 今天国际超大事儿|却向中国讨说法,希望中国能网开一面,美国60家企业破产
- 中国青年报|专升本再迎大规模扩招 高职生热衷升本该怎么看?
