Python文本分析系列之一：NLTK语料库下载

2022年8月26日 661点热度 0人点赞 0条评论

Python文本分析系列之一：NLTK语料库下载

平凡的一天

一般而言，数据分析包括结构化与非结构化数据分析两类。前者比如常见的列表格式的结构化数据分析，后者则是针对文本、图像和视频等非结构化格式的数据分析。其实，类似于结构化数据，纯文本也是常见的数据格式。

文本分析通过运用自然语言处理（NLP）、信息检索和机器学习（ML）等技术将非结构化文本数据解析为更结构化的形式，从而提取对终端用户有益的模式与见解。

诸如文本分类、文本聚类、情感分析以及相似性分析与关系建模，都是常见的文本分析技术。

对于非结构化文本数据，我们需要借助Python自然语言工具包NLTK（The Python Natural Language Toolkit）进行分析。源于2001年的NLTK设计初衷是用于教学，其中包括一个名为corpora的文本样本集。显然，展开文本分析需要我们首先获得NLTK。

官网下载nltk_data

点击NLTK Downloader右下角Refresh按钮，首先将服务器索引（Server Index）右侧的网址修改为NLTK官网“https://www.nltk.org/nltk_data”；

选择拟下载的安装包后点击Download，即可将nltk_data语料库下载至“C:\Users\Administrator\AppData\Roaming\nltk_data”文件夹，参见图1。

图1 官网下载nltk语料库

官网下载的nltk语料库容量高达1.8GB，下载速度较慢。一个可行的替代方案是利用百度云下载压缩包，相应的代价是需要人工解压nltk_data.zip中的每一个子压缩文件。

百度云下载压缩包nltk_data.zip

在360浏览器搜索栏输入以下文件链接：“https://pan.baidu.com/s/1LWM3o7iRZMF8XaD91vx9Dw”，输入手机发送的动态验证码可打开百度网盘，然后输入提取码“cnpf”即可下载压缩包nltk_data.zip，参见图2。

图2 百度云下载nltk语料库

解压下载所得压缩包，可得chunkers、corpora等9个子文件夹，我们将其置于Download Directory路径“C:\Users\Administrator\AppData\Roaming\nltk_data”，参见图3。

图3 nltk_data文件夹所包含的9个子文件夹

测试nltk语料库下载是否成功

打开Jupyter Notebook，点击右侧的New按钮创建一个Python新文件，依次输入以下命令以检测nltk语料库是否下载成功，参见图4。

图4 nltk下载测试：访问Brown语料库

Brown是全世界第一个百万级的英文语料库，也称为“当代美国英语标准语料库”，由布朗大学Kucera和Francis于1961年开发。该语料库由来自不同来源和分类的文本组成。

图4的命令运行结果告诉我们，该语料库中共有15个类型，例如新闻（news）、推理小说（mystery）、传说（fiction）等等，这表明本机nltk语料库已经成功安装。

自然语言处理的一个示例：

基于Gutenberg语料库的停用字、姓名和数字的滤除

NLTK包含Gutenberg语料库，这是一个供人们在互联网上阅读的数字图书馆计划。

1、解压nltk_data子文件夹corpora中的gutenberg、punkt、stopwords和words压缩包，参见图5。

图5 nltk_data子文件夹的解压

2、在以下路径新建PY3子文件夹，并将该路径中的english.pickle文件置于这一新建的子文件夹PY3中，参见图6。

图6 新建子文件夹PY3

3、打开Jupyter Notebook，点击右侧的New按钮创建一个Python新文件，依次输入以下命令，运行结果参见图7和图8。

图7 基于Jupyter Notebook的NLP演示

图8 滤除停用字、姓名和数字的NLP演示：基于Gutenberg项目

图8显示，停用字、姓名与数字在words列表中均已被滤除。

编辑：曹承洲

审核：杨露

往期回顾：

Python数据分析系列之八：Python与Stata数据分析的互联互通

Python数据分析系列之七：多元回归分析

Python数据分析系列之一：Anaconda的安装

实证会计入门一点通

扫描二维码关注我们

鼎园会计微信群

本群主旨：

交流Stata与Python，

分析结构化数据，

探讨非结构化文本会计，

共同书写鼎园会计人生。

816100Python文本分析系列之一：NLTK语料库下载

Python文本分析系列之一：NLTK语料库下载

文章评论