import jiebaseg_str = "我们都是中国人 , 我爱我的祖国 。"print("/".join(jieba.lcut(seg_str))) # 精简模式 , 返回一个列表类型的结果print("/".join(jieba.lcut(seg_str, cut_all=True))) # 全模式 , 使用 'cut_all=True' 指定print("/".join(jieba.lcut_for_search(seg_str))) # 搜索引擎模式

文章插图
jieba分词
我们/都/是/中国/人/ , /我/爱/我/的/祖国/ 。我们/都/是/中国/国人/ , /我/爱/我/的/祖国/ 。我们/都/是/中国/人/ , /我/爱/我/的/祖国/ 。LTP中文分词库LTP(哈工大)提供了一系列中文自然语言处理工具 , 用户可以使用这些工具对于中文文本进行分词、词性标注、句法分析等等工作 。从应用角度来看 , LTP为用户提供了下列组件:针对单一自然语言处理任务 , 生成统计机器学习模型的工具针对单一自然语言处理任务 , 调用模型进行分析的编程接口使用流水线方式将各个分析工具结合起来 , 形成一套统一的中文自然语言处理系统系统可调用的 , 用于中文语言处理的模型文件针对单一自然语言处理任务 , 基于云端的编程接口LTP的python接口是pyltp , 直接在cmd命令框中直接输入pip install pyltp安装即可 , ltp的安装不会自动下载模型 , 可以到 http://ltp.ai/download.html下载这里需要注意:pyltp 的当前版本0.2.1 对应模型是:3.4.00.1.9.1 , 对应的模型是:3.3.1
文章插图
模型下载
这里需要下载对应的模型版本 , 否则会出现模型无法运行
python 操作pyltp
LTP提供的模型包括:(在ltp_data文件夹)
cws.model 分句模型 , 单文件
ner.model 命名实体识别模型 , 单文件
parser.model 依存句法分析模型 , 单文件
pos.model 词性标注模型 , 单文件
pisrl.model模型等等 , 我们可以根据已经训练好的模型进行中文的分词或者其他操作
import pyltpfrom pyltp import Segmentorsegmentor = Segmentor()segmentor.load('ltp_data_v3.4.0/ltp_data_v3.4.0/cws.model')#加载分词库ltpword = segmentor.segment("我们是人工智能研究所 , 主要致力于分享人工智能方面的技术知识 , 欢迎大家一起学习 。")print(' '.join(ltpword).split())#分词后的结果>>>['我们', '是', '人工智能', '研究所', ' , ', '主要', '致力', '于', '分享', '人工智能', '方面', '的', '技术', '知识', ' , ', '欢迎', '大家', '一起', '学习', ' 。']以上我们便打造了一个LTP的分词任务 , 当然 , 你也可以加载其他模型 , 进行不同的分词任务 , 且可以加载大量的文本 , 只需要segmentor.segment文件里面输入打开的文件便可当然跟hanlp一样 , LTP同样提供了可视化操作界面LTP可视化:可以到官方网站 , 进行可视化的操作http://ltp.ai/demo.html

文章插图
LTP可视化
推荐阅读
- 电脑发送的信息是如何到达目的地的?简单了解下网络传输原理过程
- 教您如何照顾好胃 吃什么养胃
- 教你泡普洱茶,教你如何调饮菊花普洱茶
- 如何看待商鞅变法 司马迁对商鞅的看法
- 老茶头是如何形成的呢,老茶头的味道是什么味
- 黄歇为什么死的 黄歇结局如何
- 骑自行车的坏处有哪些 如何正确骑自行车
- 如何检查自行车轴承
- |职场中对领导的态度很重要,怎么正确面对领导?如何让职场更顺利
- 黑乌龙茶如何泡,如何选购乌龙茶注意的问题
