百度联合中国计算机学会、中国中文信息学会共同发布“千言”计划近年来

近年来，尽管自然语言处理技术飞速发展，但在模型鲁棒性、可解释性、复杂知识表示与文本融合、跨模态语义理解等方面依然面临挑战。为了解决自然语言技术发展中所面临的挑战和推进中文信息处理技术的进步， 8月25日百度大脑语言与知识技术峰会在线上召开，百度联合中国计算机学会、中国中文信息学会共同发布千言数据共建计划（网址：https://luge.ai）。同时，百度技术委员会主席吴华发布了算力共享计划，希望通过数据集的共建与算力的共享，与学界、产业界共同推进技术进步。

百度联合中国计算机学会、中国中文信息学会共同发布千言数据共建计划
目前，千言项目第一期已涵盖7大任务、20余个中文开源数据集，由百度携手哈工大、清华、中科院信息工程研究所等在内的10所顶级高校、企业共同建设完成。吴华表示：我们希望通过这些计划，与业界同仁一起解决中文信息处理技术发展中的挑战，并在世界范围内建设中文信息处理影响力。
除两大重磅计划公布外，此次峰会凝聚了百度在语言与知识领域十年的技术积累和产业实践。百度CTO王海峰发表主旨演讲，解读了百度语言与知识技术的发展历程、最新成果及趋势展望，百度集团副总裁吴甜重磅推出5款产品的新发布，加速技术大规模应用发展。
共建中文开源数据集千言计划应对语言与知识技术应用新挑战
让机器像人一样理解语言、掌握知识的自然语言处理技术，是人工智能中认知智能的核心；对语言信息的处理能力也是一个国家的核心竞争力。我们每天都在使用的搜索、翻译、信息流推荐、时刻回应你每个需求的智能助手等，背后都是语言与知识技术在发挥作用。
这样大规模的产业化应用也对技术提出了新挑战。包括模型需要具有全面的、处理多个子任务的能力；在跨领域数据上具有较好的泛化能力；在应用中有足够的鲁棒性以保证安全等等。此外，这些大规模应用对语义理解提出了更高的要求，要求模型具备一定的常识、背景知识甚至推理能力；同时随着内容承载形式的多元化，也需要模型具有多模态融合的内容理解能力等。

为应对以上问题，百度联合中国计算机学会、中国中文信息学会共同发起了千言数据共建计划，携手高校和企业的数据资源研发者共同建设中文开源数据集。在此次峰会上，百度技术委员会主席吴华、中国中文信息学会副理事长兼秘书长孙乐、中国计算机学会自然语言处理专委会主任周国栋共同解读了千言数据集，千言的目标是覆盖丰富的任务类型，从语义理解、知识融合、跨模态融合等角度推动技术进步，同时提供能进行多维度综合评价的数据集，从而评价模型的全面性、泛化性和鲁棒性等。
截至目前，第一期千言项目已涵盖了7大任务、20余个中文开源数据集，包括开放域对话、阅读理解、机器同传、情感分析、语义解析、信息抽取和文本相似度等。由百度携手来自哈尔滨工业大学、清华大学、中国科学院信息工程研究所等10所顶尖高校和企业的数据集作者共同建立完成。

为了使千言能够提供一站式的数据浏览、下载和评测的科研体验，百度还对所有数据进行了处理，每个任务都有统一的数据格式和评测，并在此基础上提供了基线系统，帮助加速模型的研发。
吴华表示，在未来3年中，千言计划面向超20个任务，收集和建设不少于100个中文自然语言处理数据集，全面覆盖知识图谱、语言理解、语言生成、跨模态融合、NLP 应用系统等多个领域。也期待更多数据集作者能够加入共建，共同推动中文信息处理技术的进步。

百度联合中国计算机学会、中国中文信息学会共同发布“千言”计划

推荐阅读

大话NBA|拿什么来争？，湖人要与篮网抢东部第一分卫

毛笔颂——纪念毛泽东诞辰（作者：进静净）

宁波旅游必去十大景点，去宁波旅游必玩景点有哪些

新华网|“创客之夜”亮相全国双创活动周看硬科技如何激活新动能

从新疆开汽车去巴基斯坦需要给汽车办理啥手续

娇嫩娇嫩果蔬守卫战美的智能保鲜冰箱果润维C系列领“鲜”发声

山西晋城一在建隧道发生塌方致1人死亡5人被困

烤箱沾锡纸家庭烤箱锡纸清洗方法

手机|“保温杯”成学生藏手机神器！网友：商家无底线

袁天罡曾与一老农打赌，原本胜券在握，结果却是完败，怎么回事呢

青海日报|海拔3300米！我们的青贮玉米丰收了

深林游鹿：振动刀切割机行业为什么会迅速发展？

河南很可悲的2个城市，一个是全国百强城市，一个是濮阳

毕业生|北京：为困难家庭毕业生至少推荐3次就业岗位

创业板|价格笼子还是增压发动机？创业板新交易规则引热议

曝光张首芳的各种信息张首芳简介个人资料

央视新闻|直升机中的“F-117”：揭秘科曼奇隐身武装直升机！

骑士|骑勇大战的再次交手！乐透抽签库里助勇士夺榜眼，骑士仅仅第五

被子的价格是多少，如何选择

中国青年网@[新中国70年，镇馆之宝70件](三)一碑守公田，勿忘红