爬虫俱乐部平安经

2020年7月29日 252点热度 0人点赞 0条评论

本文作者:王玉婷、方言、赵冰洁、李婷婷、任哲、王子一、戴雯、陈丹慧

文字编辑:李婷婷

技术总编:余术玲

Stata云端培训课程在腾讯课堂上线啦!

    爬虫俱乐部于2020年7月中旬线上举行的Stata编程技术培训课程在腾讯课堂上线啦!课程通过案例教学模式,帮助学员在短期内掌握Stata的基本命令、编程、数据处理以及结果输出等技术,并对Stata16的实用新功能做了详细介绍。

    现在关注公众号并在朋友圈转发推文,即可获得600元课程优惠券,集赞50个再领200元课程优惠!(截图发至本公众号后台领取)原价2400元的课程,现在只要1600元!

    爬虫俱乐部将于2020年8月25日至28日在线上举行Stata数据分析法律与制度专题训练营,主要是为了让学员掌握Stata软件进阶操作,涉及内容包括基本字符串函数及其应用、正则表达式、法律与制度数据网络爬虫技巧、判案文书的文本分析等技术。课程全部采用最新版Stata16软件(提供Stata16试用版, 试用期一个月)进行教学,课程通过案例教学模式,专题式的讲解使你能在短时间内掌握Stata的精髓,精选的实例和详实的配套资料能让你在课后快速拓展所学,并能够编写一些实用的Stata程序,为进一步学习和科研打下扎实的基础。同时,此次云端课程提供线上答疑。详情请参考《8月Stata数据分析法律与制度专场来啦!》

各地粉丝平安

上海2652位粉丝平安,东瀛248位粉丝平安,中华人民共和国台湾省62位粉丝平安,云南省521位粉丝平安,内蒙古自治区357位粉丝平安,北京3512位粉丝平安,吉林省274位粉丝平安,四川省2266位粉丝平安,大不列颠及北爱尔兰联合王国265位粉丝平安,天津699位粉丝平安,宁夏99位粉丝平安,安徽省1638位粉丝平安,山东省2466位粉丝平安,山西省922位粉丝平安,广东省4793位粉丝平安,广西壮族自治区753位粉丝平安,德意志联邦198位粉丝平安,战斗民族298位粉丝平安,新疆维吾尔族自治区427位粉丝平安,朝鲜半岛南部174位粉丝平安,枫叶国179位粉丝平安,江苏省2499位粉丝平安,江西省1310位粉丝平安,河北省1141位粉丝平安,河南省3595位粉丝平安,法兰西共和国208位粉丝平安,浙江省2335位粉丝平安,海南省194位粉丝平安,湖北省3091位粉丝平安,湖南省1369位粉丝平安,澳门特别行政区17位粉丝平安,甘肃省680位粉丝平安,福建省1229位粉丝平安,美利坚合众国1090位粉丝平安,西藏自治区19位粉丝平安,贵州省375位粉丝平安,辽宁省805位粉丝平安,重庆912位粉丝平安,陕西省1145位粉丝平安,青海省51位粉丝平安,香港特别行政区254位粉丝平安,黑龙江省375位粉丝平安。


命令平安

addbefore平安,cnaddress平安,chinafin平安,cngcode平安,cnar平安,cnintraday平安,cnstock平安,cntop10平安,cntrade平安,cntraveltime平安,corr2docx平安,eventstudy平安,psemail平安,reg2docx平安,subinfile平安,sum2docx平安,t2docx平安,ttable2平安,wordconvert平安。

曾授课的院校平安
中南财经政法大学平安,中央财经大学平安,兰州财经大学平安,华中农业大学平安,华中科技大学平安,华侨大学平安,南京信息工程大学平安,厦门大学平安,新疆财经大学平安,武汉大学平安,河南大学平安,湖北大学平安,湖北经济学院平安,石河子大学平安,福州大学平安,西南政法大学平安,西南财经大学平安,郑州大学平安,长沙理工大学平安。

各项工作平安
做研究助理平安,写推文平安,写程序平安,写论文平安,授课平安,爬虫平安,课程答疑平安。

在香港工作的小盆友平安
在香港大学工作的司海涛平安,在香港大学工作的徐鑫平安,在香港大学工作的薛原平安,在香港大学工作的赵一平安,在香港岭南大学工作的刘贝贝平安,在香港岭南大学工作的宋凯平安,在香港岭南大学工作的潘铖平安,在香港岭南大学工作的高金凤平安,在香港理工大学工作的张计宝平安,在香港理工大学工作的李子健平安,在香港理工大学工作的孙雪丽平安。

爬虫俱乐部成员平安
Karamat Khan平安,Winnie Coleman平安,任哲平安,余术玲平安,余金馨平安,俞诗琪平安,刘天航平安,刘贝贝平安,司海涛平安,周宏杰平安,孙宪明平安,孙晓玲平安,孙雪丽平安,宁刘莹平安,崔赵雯平安,张学人平安,张璇平安,张计宝平安,张语盈平安,张邯平安,张鑫月平安,戴晓东平安,戴雯平安,方言平安,曾雨婷平安,朱巧利平安,李婷婷平安,李子健平安,李春涛平安,李朋冲平安,李金洋平安,李钊颖平安,杨慧琳平安,杨长青平安,毛秀苹平安,王凯丽平安,王子一平安,王悦平安,王歌平安,王涛平安,王玉婷平安,王碧琪平安,田志凡平安,白晔峰平安,石艳平安,祁让坤平安,胡婧平安,薛原平安,赵一帆平安,赵冰洁平安,赵宇亮平安,钱梦璇平安,闫宇聪平安,闫续文平安,陈丹慧平安,陈志玲平安,马晨静平安,高金凤平安。

毕业生平安
Muhammad Usman平安,付彩月平安,何雪泽平安,余新海平安,冯梦露平安,刘凯航平安,刘婉茹平安,刘爱娟平安,刘贝贝平安,司海涛平安,吴晓蔓平安,周聪聪平安,孔文泰平安,孙学浩平安,孙萌平安,孙雪丽平安,宋凯平安,尹晓雯平安,岳海峰平安,张伶敏平安,张宇平安,张梦婷平安,张欢平安,张语盈平安,强宇曦平安,徐苾雯平安,徐鑫平安,徐露露平安,曹松威平安,朱子奇平安,朱紫丹平安,朱蓉青平安,李曼蕊平安,李迎春平安,杨慧琳平安,杨玉冰平安,杨长青平安,潘丛慧平安,潘慧聪平安,潘铖平安,王凯丽平安,王明平安,王涛平安,王清平安,王立威平安,王鑫平安,祁让坤平安,许明星平安,谭亮平安,赵宇亮平安,赵磊平安,郝一珺平安,闫宇聪平安,韩帅平安,高金凤平安。

最后,祝最近遭受暴雨的各省市人民平安,祝本文所有作者平安,祝所有读者平安!
笔者是如何用Stata的putdocx和foreach命令自动生成《爬虫俱乐部平安经》的呢?下面就让我们来看一看这两个神奇的命令吧。这里,附上我们这段文本输出的代码,通过代码进行讲解我们今天要介绍的两个命令。
为方便读者调用,我们把推文中用到的数据分别保存为独立的文件并且上传到爬虫俱乐部云端数据源,读者可自行下载使用。https://stata-club-1257787903.cos.ap-chengdu.myqcloud.com/%E5%B9%B3%E5%AE%89%E7%BB%8F1.dta)
如图,是我们收集到的相关信息。图片
程序如下:
clear allcap mkdir d:/Stata16/爬虫俱乐部平安经cd d:/Stata16/爬虫俱乐部平安经use 平安经1.dta,clearforeach v of var*{  local a=1  ! taskkill /F /IM WINWORD.EXE /T  putdocx begin,pagesize(A4)  putdocx paragraph,font("宋体",18,black) halign(left)  putdocx text ("`v'平安"), bold  levelsof `v',local(p)  putdocx paragraph,font("宋体",16,black) halign(left) indent(para,0.5)  foreach t in `p'{    if `a'<`r(N)' putdocx text ("`t'平安,")       else putdocx text ("`t'平安。")      local a=`a'+1  }putdocx save "平安经`v'.docx",replace}clear allputdocx begin,pagesize(A4)putdocx paragraph,font("宋体",16,black) halign(left) indent(para,0.5)putdocx text ("最后,祝最近遭受暴雨的各省市人民平安,祝本文所有作者平安,祝所有读者平安!")putdocx save "平安经祝福.docx",replaceputdocx append "平安经各地粉丝.docx" "平安经命令.docx" "平安经曾授课的院校.docx" "平安经各项工作.docx" "平安经在香港工作的小盆友.docx" "平安经爬虫俱乐部成员.docx" "平安经毕业生.docx" "平安经祝福.docx",saving("平安经.docx",replace)shellout "平安经.docx"

由于我们要将所有的内容后面都加上平安,因此我们需要通过foreach循环来进行遍历。这里涉及到的是foreach的一个用法:

foreach lname of list {  commands referring to `lname'}

这里的lname表示循环算子,list是我们需要进行遍历的变量列表。在foreach中如果要遍历所有变量,需要用of进行连接。

在循环中我们可以设置需要输出内容的相关格式,这里就需要用到我们强大putdocx命令,该命令允许将各种文本、格式化的图表,甚至是图片等交由Stata自动输出为.docx文件。下面我们来分析一下程序:

(1)为防止内存中存在尚未关闭的word文档而导致程序报错,我们首先需要清空内存,用taskkill命令关闭所有打开的word文件。

! taskkill /F /IM WINWORD.EXE /T

(2)创建新的.docx文件,并将其设置成A4纸张的格式。

putdocx begin,pagesize(A4)

(3)要想输出成平安经里的效果,必须用putdocx paragraph先生成段落并设置好每段的标题以及内容的格式。

putdocx paragraph,font(“宋体”,18,black) halign(left)  //这里我们将每个段落的标题格式设置为黑色18号宋体,并实现左对齐。

在输入完每个段落的标题之后,我们将输入每个段落标题的具体内容。这里的v表示的是foreach中的循环算子:

putdocx text ("`v'平安"), bold

其次,我们要输入每个段落具体的内容和格式。

putdocx paragraph,font(“宋体”,16,black) halign(left) indent(para,0.5)  //这里我们将每个段落的格式设置为黑色16号宋体,并实现左对齐以及首行缩进的效果

我们要把以上输入的这段文字保存在.docx文件里面,这时候需要用到命令putdocx save。

putdocx save "平安经`v'.docx",replace

(4)最后我们将每个文件进行合并并输出到docx文档中。

putdocx append "平安经各地粉丝.docx" "平安经命令.docx" "平安经曾授课的院校.docx" "平安经各项工作.docx" "平安经在香港工作的小盆友.docx" "平安经爬虫俱乐部成员.docx" "平安经毕业生.docx" "平安经祝福.docx",saving("平安经.docx",replace)shellout "平安经.docx"
这样我们就利用foreach命令和putdocx命令生成了《爬虫俱乐部平安经》。



图片


对我们的推文累计打赏超过1000元,我们即可给您开具发票,发票类别为“咨询费”。用心做事,不负您的支持!
往期推文推荐
一个函数实现PDF文档合并与拆分
补全股票代码位数的一百种姿势

明星闪闪亮:各校高被引论文

高校经管类核心期刊发文排行榜|2010-2019

PDF图片提取
PDF文档转换成图片

split和nsplit助你轻松拆分

集成学习介绍之三——Stacking算法

PyMuPDF提取文本信息

Mylabels命令介绍  

用WordStat看中国日报新闻  

数据集的划分——交叉验证法

大数据视角下的大学录取分数排行
集成学习介绍之二——Boosting算法

PDF文本信息提取(二)

取长补短、互通有无 ——集成学习介绍之Bagging &随机森林
PDF表格信息提取

关于我们



微信公众号“Stata and Python数据分析”分享实用的stata、python等软件的数据处理知识,欢迎转载、打赏。我们是由李春涛教授领导下的研究生及本科生组成的大数据处理和分析团队。

此外,欢迎大家踊跃投稿,介绍一些关于stata和python的数据处理和分析技巧。
投稿邮箱:[email protected]
投稿要求:
1)必须原创,禁止抄袭;
2)必须准确,详细,有例子,有截图;
注意事项:
1)所有投稿都会经过本公众号运营团队成员的审核,审核通过才可录用,一经录用,会在该推文里为作者署名,并有赏金分成。
2)邮件请注明投稿,邮件名称为“投稿+推文名称”。
3)应广大读者要求,现开通有偿问答服务,如果大家遇到有关数据处理、分析等问题,可以在公众号中提出,只需支付少量赏金,我们会在后期的推文里给予解答。

图片
图片
图片
61310爬虫俱乐部平安经

这个人很懒,什么都没留下

文章评论