Python除了自带的功能之外,还有很多第三方机构拓展的功能,比如人工智能、大数据、图片识别等等,这些都有相应的模块。第三方库不包含在python安装包中,需要单独安装。
jieba是用于中文单词拆分的第三方库,它具有分词、添加用户词典、提取关键词和词性标注等功能。安装:pip install jieba
import jieba
ci = "我是一名来自陕西西安高新区的小学生"
# 精准模式,是最常用的分词方法,把文本精确的切分开,不存在冗余的词
print(jieba.lcut(ci))
# 全模式,把句子中所有可能的词语都扫描出来,有冗余。
print(jieba.lcut(ci, cut_all=True))
# 搜索引擎模式,使用了基于汉字成词能力的 HMM 模型和
# Viterbi 背包算法得到分词的结果。
# 搜索引擎模式,在精确模式的基础上,对长词再次划分,
# 适用于搜索引擎分词。
print(jieba.lcut_for_search(ci))
执行结果:
文章评论