(一)概要
Python有很多有意思的库,jieba(结巴)就是其中一个,它号称要做最好的中文分词库。分词就是按算法把一段话分成成语、词语、单词等。分词会应用的很多的场景比如搜索、翻译、机器学习都需要结合分词开展。jieba分词是做WordCloud和词频统计的基础。
(二) 安装
在Terminal里面安装jieba:
pip install jieba
(三)类型
jieba主要的分词有三种类型:
注意:分词结果可以为字串符和列表,在后续的case里面会介绍
类型 |
函数 |
说明 |
精确模式 |
jieba.cut(s) |
词少,且精确,适用于文本分析 |
全模式 |
jieba.cut(s,cut_all = True) |
词最多,冗余,全面 |
搜索模式 |
jieba.cut_for_search(s) |
词较少,在精确模式上再切,适合搜索场景 |
(四)代码实例
import jieba
#切成string
s = '我来自中国人民大学'
m1= jieba.cut(s)
print('字符精确模式:'+','.join(m1)) #需要结合join函数使用
m2 = jieba.cut(s,cut_all=True)
print('字符全模式:'+ ' ,'.join(m2))
m3 = jieba.cut_for_search(s)
print('字符检索模式:' + ','.join(m3))
output:
字符精确模式:我,来自,中国人民大学
字符全模式:我 ,来自 ,中国 ,中国人民大学 ,国人 ,人民 ,人民大学 ,大学
字符检索模式:我,来自,中国,国人,人民,大学,中国人民大学
#切成列表
m_1= jieba.lcut(s)
print('精确模式:' , list(m_1))#打印的时候需要用list关键字才能打印
m_2 = jieba.lcut(s,cut_all=True)
print('列表全模式:', list(m_2))
m_3 = jieba.lcut_for_search(s)
print('列表搜索模式:' , list(m_3))
output:
精确模式:['我', '来自', '中国人民大学']
列表全模式:['我', '来自', '中国', '中国人民大学', '国人', '人民', '人民大学', '大学']
列表搜索模式:['我', '来自', '中国', '国人', '人民', '大学', '中国人民大学']
文章评论