空白键|中文自然语言处理百万级语料库-ChineseSemanticKB免费下载
本语料库免费下载地址:个人主页“私信” , 回复关键字“nbase”获取下载地址 。
项目介绍
语义知识库是自然语言处理中十分重要的一个基础资源 , 与学术界追求算法模型不同 , 工业界的自然语言处理对于底层的词汇知识库、语义知识库等多种资源依赖度很高 , 具体体现在:1、具有落地场景的自然语言处理任务都是业务高度相关 , 一个业务需求刚进去 , 需要解决的是业务的词汇问题 , 无基础词库 , 无项目冷启动;
2、规则和正则启动下的工业级应用 , 规则的扩展、泛化都需要底层的词汇网络做支撑;
3、目前包括搜索、问答、舆情监控、事件分析等应用 , 与标签体系的运作关系密切 , 而这与先验的底层词汇库依赖性很强;
4、自然语言场景越来越关注推理层面 , 即所谓的“认知”层面 , 认知背后的各种逻辑关系库 , 是驱动这一决策的根本途径;
5、当前 , 面向中文开源词库的工作存在少量、分散的状态 , 无论从规模 , 还是质量 , 都需要进一步聚合;因此 , 我从过往的开源工作中进一步抽离和整理 , 形成了中文处理的12类、百万规模的语义常用词典 , 包括34万抽象语义库、34万反义语义库、43万同义语义库等 , 用于相关下游任务 。
项目放于dict当中 , 可直接下载 , 不建议二次建库共享 , 尊重开源 。
词库的类别
2、本项目开源的34万抽象语义库、34万反义语义库、43万同义语义库 , 在作者的实际工作中【事件处理、事理抽取、事件推理】等有重要用途;
3、中文常用语义常用词典 , 均来源于公开文本+人工整理+机器抽取形成 , 其中若有质量不高之处 , 可积极批评指正;
4、中文开源事业还是要坚持做下去 , 尽可能地缩短自然语言处理学术界和工业界之间的鸿沟 。
本资源免费下载地址
个人主页“私信” , 回复关键字“nbase”获取下载地址 。
往期精品内容推荐
个人主页点击“私信” , 回复关键字“his”获取文章地址 。
深度学习通信领域相关经典论文、数据集整理分享
邱锡鹏DL经典教材-《神经网络与深度学习》免费pdf及ppt分享
肖桐、朱靖波老师新著-《机器翻译统计建模与深度学习方法》中文版书籍分享
李宏毅-《深度学习/机器学习2020》中文视频课程及ppt分享
机器学习精髓-机器学习百页书-最新版下载
12月机器学习新书-《可解释机器学习局限性》最新版下载
学术论文写作精典-《如何撰写优秀科研论文》书籍分享
历史最全-130本科技互联网类免费书籍整理-汇总分享
元学习(MetaLearning)最全论文、视频、书籍资源整理
吴恩达新课-《CS230-深度学习基础-2019年春》课程视频分享
推荐阅读
- 程序员|程序员:代码全部替换成中文,你能接受吗?
- 产业气象站|自然语言处理必读:5本平衡理论与实践的书籍
- 空白键|日常更新全面屏壁纸
- 空白键|你在你男/女朋友的手机里发现过什么秘密?
- Paydex中文社区|商业地产新机遇:paydex构建的潜在影响如何渗透?
- 芯片|中国芯需要多久才能造出来,中间的空白期怎么办?
- 空白键|我用什么品牌手机,跟爱国有什么关系?,请问
- Mac夏天|5 for Mac(笔记软件)v5.5.3中文激活版,GoodNotes
- 空白键|iMatch移动固态硬盘体验,抛弃U盘从它做起,ORICO
- 空白键|CORESET和Search Space基本原理,点点滴滴学5G—一文掌握NR
