Python分词库jieba快速入门

2020年3月24日 309点热度 0人点赞 0条评论
                                 ?
图片


Python有一个库名为jieba的中文分词库,可以把中文句子切分成一个个的词语以用于文本分析、制作词云图等。
首先我们要安装jieba,在命令行输入“pip install jieba”即可。
jieba有3种分词模式,分别是精准模式(将句子尽量精准切分开)、全模式(将所有能成为词语的都切分出来)、搜索引擎模式(在精准模式的基础上再次切分比较长的词语)。


安装好后就可以直接使用了。

import jieba#导入jieba库s = '我喜欢九龙公园游泳池,那里我不再执着一些往事。'#定义测试字符串


精准模式

jieba.cut(s)#返回的结果是生成器#<generator object Tokenizer.cut at 0x000001E58DCC6248>
print('/'.join(jieba.cut(s)))#将结果用“/”拼接后打印出来:'我/喜欢/九龙/公园/游泳池/,/那里/我/不再/执着/一些/往事/。'

全模式

jieba.cut(scut_all=True)#输入参数cut_all=True即是全模式,返回的结果也是生成器
print('/'.join(jieba.cut(s, cut_all=True)))#将结果用“/”拼接后打印出来:'我/喜欢/九龙/公园/游泳/游泳池/泳池/,/那里/我/不再/执着/一些/往事/。'#可以看到“游泳池”被切分为3个词

搜索引擎模式

jieba.cut_for_search(s)#返回的结果也是生成器
print('/'.join(jieba.cut_for_search(s)))#将结果用“/”拼接后打印出来:'我/喜欢/九龙/公园/游泳/泳池/游泳池/,/那里/我/不再/执着/一些/往事/。'


获取其它类型的结果

#在方法面前加上“l”,返回的就是列表了jieba.lcut(s)jieba.lcut(s, cut_all=True)jieba.lcut_for_search(s)

向词典中添加新词

jieba.add_word('龙公')#该方法每次只能添加一个词,添加后可以识别该词
print('/'.join(jieba.cut(s, cut_all=True)))#将结果用“/”拼接后打印出来:'我/喜欢/九龙/龙公/公园/游泳/游泳池/泳池/,/那里/我/不再/执着/一些/往事/。'#可以识别到新添加的词了

往期精彩回顾


如何写出Pythonic的代码?
用Python自制专属二维码吧~
装饰一下你的Python函数吧~


今天也学到了很多东西呢,明天有什么新知识呢?真期待鸭~如果喜欢文章可以关注我哦~

图片

 ?

70830Python分词库jieba快速入门

这个人很懒,什么都没留下

文章评论