Python jieba库的使用

（一）概要

Python有很多有意思的库，jieba(结巴)就是其中一个，它号称要做最好的中文分词库。分词就是按算法把一段话分成成语、词语、单词等。分词会应用的很多的场景比如搜索、翻译、机器学习都需要结合分词开展。jieba分词是做WordCloud和词频统计的基础。

（二）安装

在Terminal里面安装jieba:

pip install jieba

(三)类型

jieba主要的分词有三种类型：

注意：分词结果可以为字串符和列表，在后续的case里面会介绍

类型	函数	说明
精确模式	jieba.cut(s)	词少，且精确,适用于文本分析
全模式	jieba.cut(s,cut_all = True)	词最多，冗余，全面
搜索模式	jieba.cut_for_search(s)	词较少，在精确模式上再切，适合搜索场景

（四）代码实例

import jieba#切成strings = '我来自中国人民大学'm1= jieba.cut(s)print('字符精确模式：'+','.join(m1)) #需要结合join函数使用m2 = jieba.cut(s,cut_all=True)print('字符全模式：'+ ' ,'.join(m2))m3 = jieba.cut_for_search(s)print('字符检索模式：' + ','.join(m3))output:字符精确模式：我,来自,中国人民大学字符全模式：我 ,来自 ,中国 ,中国人民大学 ,国人 ,人民 ,人民大学 ,大学字符检索模式：我,来自,中国,国人,人民,大学,中国人民大学
#切成列表m_1= jieba.lcut(s)print('精确模式：' , list(m_1))#打印的时候需要用list关键字才能打印m_2 = jieba.lcut(s,cut_all=True)print('列表全模式：', list(m_2))m_3 = jieba.lcut_for_search(s)print('列表搜索模式：' , list(m_3))output:精确模式：['我', '来自', '中国人民大学']列表全模式：['我', '来自', '中国', '中国人民大学', '国人', '人民', '人民大学', '大学']列表搜索模式：['我', '来自', '中国', '国人', '人民', '大学', '中国人民大学']

726500Python jieba库的使用

Python jieba库的使用

文章评论