爬虫爬进了监狱

2019年3月25日 241点热度 0人点赞 0条评论

爬虫违法不违法这事情又被盯上了风口浪尖。前两天一家收录了超过1.6亿人的简历大数据公司巧达科技,因涉嫌提供海量个人数据进行牟利,被一锅端。公司办公室直接被查封,据说连带着整个公司人都被暂时拘留了。后者是传闻。


这家公司的简历信息你们猜猜看哪来的?其一是靠爬虫采集来的,其二是靠HR们自己上传的。有人会有疑惑到哪里采集简历信息,各大招聘网站如果你注册了企业主,你可以查询很多的简历信息。


那为什么HR会自己上传呢?因为这些简历大数据企业他们会把自己包装成一个企业服务。大家都知道HR每天要处理非常多的信息数据,所以如果有一个平台能帮助他们处理一些简历数据,那是再好不过的,所以就有了这样的企业。


这样一来这些简历大数据企业就掌握了非常多的简历数据,类似的企业非常多,我在大学毕业前也接触过这样的企业。做爬虫的同学可能或多或少都接触过。


大家都知道一封简历里面囊括的个人信息非常多:姓名、年龄、可能包括工资水平、在什么公司、城市等一系列的个人信息。


得益于此这些简历大数据公司的赚钱模式也非常多。包括向HR、招聘企业、猎头等售卖简历信息;对简历进行分析,这些个人财产等数据可以直接进入黑产。能从个人简历上做的文章特别多。


正因为他们这种灰色的赚钱模式,他们的公司盈利数据非常好看,类似这种掌握个人信息的大数据公司在前几年活的非常好。譬如开头说的这家公司就是获得过中信产业基金和创新工场的投资。

但是这一直是处于灰色地带的。首先大量采集个人信息数据,它本身是犯法的;再者通过获取的个人信息数据进行售卖非法获利更是违法的。

预计在接下来的一段时间内,类似的企业可能都会活得不太好,倒闭这个问题算是小的,更严重的是进局子。

——,——

我知道我的读者里面做爬虫的人很多,而且很多人都是出于兴趣的平常自己采集一些好玩的数据。但是在这里我还是想给大家一些提醒。

其实关于爬虫是不是犯法的问题被争论了很久,作为一个算是爬虫领域的KOL也被无数的律师咨询过关于爬虫的技术原理等事情,前前后后还被两个律师事务所被邀请过去讲讲爬虫这个东西。

历来,我坚持的原则是爬虫并不犯法,因为爬虫采集的是公开的数据。这个定义里面有一个非常关键的词语是公开,对大众公开,对所有人公开的信息,并不是特定人群才能看到的信息,我们称之为公开。

所以如果你漫游到内网,采集一些不是公开的信息,这可能是违法的,因为这个信息不是公开的。对这种超纲的爬虫,我们也是嗤之以鼻的。

另外,对于自己采集的数据,一旦包含个人信息的,请立即停止你的爬虫,更不要想通过这种信息来赚钱。一时的贪恋可能毁了你自己。

各位在工作的做爬虫或不做爬虫的同学,也要注意一下自己的公司是否存在类似行为,尤其是利用采集数据进行售卖的企业更要当心。

采集个人信息是红线,

贩卖个人信息更是红线。


推荐阅读

再也不敢点外卖了

抖音怼微信,微信笑嘻嘻

图片

知乎:路人甲

图片
告诉身边的朋友
63150爬虫爬进了监狱

这个人很懒,什么都没留下

文章评论