Python jieba库的使用

2022年6月30日 285点热度 0人点赞 0条评论

图片

(一)概要

Python有很多有意思的库,jieba(结巴)就是其中一个,它号称要做最好的中文分词库。分词就是按算法把一段话分成成语、词语、单词等。分词会应用的很多的场景比如搜索、翻译、机器学习都需要结合分词开展。jieba分词是做WordCloud和词频统计的基础。

(二) 安装

在Terminal里面安装jieba:

pip install jieba

(三)类型

jieba主要的分词有三种类型:

注意:分词结果可以为字串符和列表,在后续的case里面会介绍

类型
函数
说明
精确模式
jieba.cut(s)
词少,且精确,适用于文本分析
全模式
jieba.cut(s,cut_all = True)
词最多,冗余,全面
搜索模式
jieba.cut_for_search(s)
词较少,在精确模式上再切,适合搜索场景

(四)代码实例

import jieba#切成strings = '我来自中国人民大学'm1= jieba.cut(s)print('字符精确模式:'+','.join(m1)) #需要结合join函数使用m2 = jieba.cut(s,cut_all=True)print('字符全模式:'+ ' ,'.join(m2))m3 = jieba.cut_for_search(s)print('字符检索模式:' + ','.join(m3))output:字符精确模式:我,来自,中国人民大学字符全模式:我 ,来自 ,中国 ,中国人民大学 ,国人 ,人民 ,人民大学 ,大学字符检索模式:我,来自,中国,国人,人民,大学,中国人民大学
#切成列表m_1= jieba.lcut(s)print('精确模式:' , list(m_1))#打印的时候需要用list关键字才能打印m_2 = jieba.lcut(s,cut_all=True)print('列表全模式:', list(m_2))m_3 = jieba.lcut_for_search(s)print('列表搜索模式:' , list(m_3))output:精确模式:['我', '来自', '中国人民大学']列表全模式:['我', '来自', '中国', '中国人民大学', '国人', '人民', '人民大学', '大学']列表搜索模式:['我', '来自', '中国', '国人', '人民', '大学', '中国人民大学']

72650Python jieba库的使用

这个人很懒,什么都没留下

文章评论