python如何使用HanLP,LTP,jieba中文分词库( 二 )


import jiebaseg_str = "我们都是中国人 , 我爱我的祖国 。"print("/".join(jieba.lcut(seg_str))) # 精简模式 , 返回一个列表类型的结果print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式 , 使用 'cut_all=True' 指定print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

python如何使用HanLP,LTP,jieba中文分词库

文章插图
jieba分词
我们/都/是/中国/人/ , /我/爱/我/的/祖国/ 。我们/都/是/中国/国人/ , /我/爱/我/的/祖国/ 。我们/都/是/中国/人/ , /我/爱/我/的/祖国/ 。LTP中文分词库LTP(哈工大)提供了一系列中文自然语言处理工具 , 用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作 。
从应用角度来看 , LTP为用户提供了下列组件:针对单一自然语言处理任务 , 生成统计机器学习模型的工具针对单一自然语言处理任务 , 调用模型进行分析的编程接口使用流水线方式将各个分析工具结合起来 , 形成一套统一的中文自然语言处理系统系统可调用的 , 用于中文语言处理的模型文件针对单一自然语言处理任务 , 基于云端的编程接口LTP的python接口是pyltp , 直接在cmd命令框中直接输入pip install pyltp安装即可 , ltp的安装不会自动下载模型 , 可以到 http://ltp.ai/download.html下载这里需要注意:pyltp 的当前版本0.2.1 对应模型是:3.4.00.1.9.1 , 对应的模型是:3.3.1
python如何使用HanLP,LTP,jieba中文分词库

文章插图
模型下载
这里需要下载对应的模型版本 , 否则会出现模型无法运行
python 操作pyltp
LTP提供的模型包括:(在ltp_data文件夹)
cws.model 分句模型 , 单文件
ner.model 命名实体识别模型 , 单文件
parser.model 依存句法分析模型 , 单文件
pos.model 词性标注模型 , 单文件
 
 
 
pisrl.model模型等等 , 我们可以根据已经训练好的模型进行中文的分词或者其他操作
import pyltpfrom pyltp import Segmentorsegmentor = Segmentor()segmentor.load('ltp_data_v3.4.0/ltp_data_v3.4.0/cws.model')#加载分词库ltpword = segmentor.segment("我们是人工智能研究所 , 主要致力于分享人工智能方面的技术知识 , 欢迎大家一起学习 。")print(' '.join(ltpword).split())#分词后的结果>>>['我们', '是', '人工智能', '研究所', ' , ', '主要', '致力', '于', '分享', '人工智能', '方面', '的', '技术', '知识', ' , ', '欢迎', '大家', '一起', '学习', ' 。']以上我们便打造了一个LTP的分词任务 , 当然 , 你也可以加载其他模型 , 进行不同的分词任务 , 且可以加载大量的文本 , 只需要segmentor.segment文件里面输入打开的文件便可
当然跟hanlp一样 , LTP同样提供了可视化操作界面LTP可视化:可以到官方网站 , 进行可视化的操作http://ltp.ai/demo.html
python如何使用HanLP,LTP,jieba中文分词库

文章插图
LTP可视化




推荐阅读