爬虫玩的好,监狱进的早将“不能被爬取的网站”明码的列在了robots.txt中,这无异于是在挑衅、引起某些爬虫“得不到的永远在骚动”的强烈探知欲望。
大公司因“爬虫涉黑”高管被带走调查的消息频频传出,情况就如多米诺骨牌一般,不断的坍塌,“君子协议“被看作是道德的约束,反爬机制也一直在九攻九距,爬虫从道德到法律上还是一个“多变脸”。
“我终于上岸了,可能不需要再下海了吧?”AI星球走访一位多年深陷网贷泥潭的年轻人这样说道。
如今很多人都会因各种情况去借贷,没了就去借,还不上就分期,分期不小心便成了逾期。
这种借贷生活慢慢便陷入了“病态循环”中,以致大多数不堪重负的贷民为了改善这种情况,会还清所有借贷、卸载APP、换手机号来让自己“上岸”。
这位90后贷民是一个前几年刚从校园走来的创业大学生,因不好意思向父母伸手拿钱,过去的几年里一直都过着以贷养贷的生活,期间从未有过逾期的现象。
但直到今年上旬,平静的日子被“每天几十个电话的狂轰滥炸、企图曝光通信录、动辄问候双亲”等威胁打破,以致90后贷民,从在短短20天内还了6万多的网贷,在重压之下他终于向父母坦白,还清了高达十多万元的网贷。
“虽然不是直接放贷平台,但看着他们一个个被查,如今他们终于可以尝尝那种心惊胆战、坐立不安的滋味了……”这位90后贷民听说近期多家风控公司被抓后这样说。
如今大数据风险控制在金融行业得到了较为广泛的应用,比如在银行中,贷款业务是占银行风控日常工作比重最高的一类业务。
一些中端的风控部门往往在客户阅读贷款细则时就开始对贷款对象的个人风险评估进行风险审核,只有审核通过后方可被提交到更高管理处审批。而对于一些期货、信托、小额贷款、融资租赁企业来讲,他们则侧重于信用、操作、市场、交易对手等风险操作。
在消费金融科技领域中,大数据风控业务已成为关键环节。
但当下大数据风控行业却迎来多事之秋,多家为互联网小贷公司、个人消费类业务金融等公司提供服务的大数据风控领域企业被抓,他们旗下的爬虫业务先后都因“涉黑”被暂停营业。
这些企业“收紧或叫停数据服务”的背后与涉嫌利用网络爬虫技术侵犯个人隐私有关联。
数据服务被叫停,风控行业陷恐慌
9月6日下午,大数据风控平台杭州魔蝎科技有限公司(简称魔蝎科技)的创始人兼CEO周江翔被警方带走调查,其公司数据抓取业务或涉嫌侵犯隐私、助力暴力催收。
据公开资料显示,魔蝎科技成立于2016年1月,是一家提供精准营销、风险分析、反欺诈、多维度用户画像、授信评分等多维度风险管理服务的公司。事发当天,其官网无法登陆,旗下的服务也突然终止,甚至有员工失联。
同日,另一家提供大数据风控服务的新颜科技人工智能科技有限公司(简称新颜科技)CEO黄向前也被警方带走协助调查。对于此事,新颜科技内部客服人员予以否认,表示“并不知情,业务正常开展”。
至此大数据风控公司被抓的、被查的情况并未结束,糟糕的是情况就如多米诺骨牌一般,不断的坍塌。
还不到一周时间,这厢第三方数据服务公司聚信立于9月10号对外宣布:“自9月6日起停止对用户提供“爬虫”相关类的业务,将配合国家政策对内部业务板块作整顿”,而次日就被封了。
另一边多位业内人士爆料,9月12日上午,天翼征信的总经理、副总经理以下及市场人员共计十余人皆被警察带走。据一位天翼征信内部员工透露:“之前征信跟几家被查的爬虫公司有过相关合作,这次去主动说明情况了”。
大数据行业动荡不安,整个大数据行业如履薄冰,而更糟糕的事情依旧还在进行。
消金时代独家报道,9月16日大数据风控平台同盾科技实控人兼CEO蒋韬竟为了避风头“跑路”了,解散了其下的爬虫部门,并建议员工:不要随便“离开”,否则会“被抓的”。
显然同盾科技也被卷入了“爬虫风暴”中,于是在事发第二天便站出来“辟谣”:“CEO跑路、员工被恐吓、举报友商都实属无稽之谈,同盾科技创始人蒋韬还将一直在国内进行日常的公司事宜,数聚魔盒已停止相关业务。”
而今日(9月27日),据宅客频道称:蒋涛被逼的发了一份公共声明,同盾又一次为此数据魔盒“出头辟谣“,表示同盾科技旗下杭州信川科技公司不涉及金融业务、不引流、不放贷,同时杭州信川相关人员也正积极协助警方调查第三方单位情况,一旦发现客户违规行为,同盾科技立即终止合作。(具体如下)
起初,一连着几家知名的爬虫公司陆续被带走调查,业界人士都以为被查的、被抓的只是做爬虫相关业务的公司,但随着公信宝被封甚至连天翼征信这样的国企都涉及调查,行业内开始引起了恐慌。
9月仿佛成了现金贷行业、大数据风控服务业的“黑暗月”,由起初的个案接连引发了多家数据公司被抓,一时间查处整治从杭州遍及到上海,似乎成为了一项全国性的禁黑活动。
的确,网安及联合多个部门目前正针对大数据行业开展严查政治活动,据接近监管层的人士说:“这次对数据公司的整顿清理是场大活动”,目前已有几十家大数据公司被介入调查。
近年来,大公司因“爬虫涉黑”高管被带走调查的消息频频传出。
去年年底,就有现金贷系统供应商有脉金控,以及消金技术服务商同牛科技相继“失联”的消息传出,以及前几年著名的百度、奇虎360事件。
2014年8月7日,北京一中院围绕奇虎科技有限公司(简称奇虎公司)是否以不正当行为违反了百度Robots协议作出了一审宣判。
法院方面认为,奇虎公司违反了百度的“爬虫Robots协议”,依据360搜索引擎随意抓取百度的网页、甚至将用户的浏览链接直接跳转至360的快照界面的不正当行为,判决赔偿百度公司经济损失50万元及20万元的其他合理费用。
百度方面表示,360公然违反了Robots协议,随意将百度公司的网站内容占为己有,侵犯了百度公司的权益。
大数据风控行业及各大巨头企业都不断的迎来一波接波的“震荡”。其中的导火索都是因为——“爬虫业务”。这也似乎印证了技术圈内的那句,“爬虫玩的好,监狱进的早”。
喂养、抓取、解析:爬虫无限制循环
2000年, eBay以对方故意违反“君子协议”向聚合价格信息的比价网BE(“Bidder’s Edge”一家提供一站式拍卖搜索的服务提供商)提起诉讼。
eBay是一个电子交易网站,其在诉讼中表示:如若任其BE的行为,这将会怂恿其他与BE从事相似业务的公司肆无忌惮的搜索eBay的交易系统,将致使eBay因系统瘫痪或数据丢失而造成巨大的损失。
最终,诉讼结果以eBay胜利而告终。这也是史上首例关于君子协议纠纷的“爬虫官司”,自此之后,爬虫技术、君子协议便慢慢走入寻常百姓家。
大数据行业吃紧,现金贷行业中接连多家公司被大范围指控。被举报的、抓走的、指控的等多家商业公司也都在利用“爬虫技术”不断对数据进行爬取、搜集、整理。
一位目前就职于搜索引擎公司的研发工程师告诉AI星球:“爬虫本质上就是获取‘信息数据’的一种方式,除此之外也还包含了一些不常使用的名字,比如蚂蚁、自动索引、模拟程序或者蠕虫等”。
随着网络的不断发展,万维网(中国最大的域名注册和虚拟主机服务提供商)逐渐成为信息的载体,在信息应运而生的同时,利用信息赚取利益的企业也逐渐增多,并因此被称作“网络爬虫”(也被称为网页追逐者)。
万维网上,各个网页都通过超链接相互连接在一起,形成一张巨型“网状结构”,而爬虫刚好按照这种特殊的网页结构沿着紧密的超链接不断的爬取数据,自动抓取万维网上的程序或脚本信息:
通过URL的喂养,爬虫进行种子(seeds)抓取,解析Html网页,抽取其超链接,抓取信息,以此不断循环往复着。
不论是明网、还是暗网,对爬虫来说,网站一般都会处于被动的、消极被抓取的地位。
在这场利用爬虫技术索取“信息数据”的抢滩战中,胜败自然是兵家常事。有“过五关斩六将”,熬过了诉讼、自掏腰包保命的搜索引擎公司,也有当下国内外满负盛名的谷歌搜索引擎巨头。
但值得思考的是,同样都在用“爬虫”,百度、谷歌搜索引擎巨头走上了“信息时代”的巅峰,而魔蝎、新颜、聚信立等科技公司反而被推上“违法犯罪”的风口浪尖,这背后主要关联着一份企业间的“君子协议”。
君子协议的挑衅:得不到的永远在骚动
90年代初,就有一些搜索引擎网站运用爬虫技术来抓取网上的大量信息,为了营造和谐的网络环境,一些搜索引擎从业者和网站站长通过邮件便定下了“君子协议(Robots协议)”。
据一位资深程序员在接受AI星球的采访中表示:“从功能上说,谷歌在收集数据时,有一种叫SEO(Search Engine Optimization,搜索引擎优化)的方式,在工作原理上与爬虫相似,都存在着自己约定俗成的君子协议。”
历年来,在爬虫技术上,各个网站以防不良商家、个人利用爬取到的数据信息从事非法交易,也都在自己的网站中都设置了一份属于自己的“君子协议”——“Robots协议”来维护自己的权益。
Robots协议(Robots ExclusionProtocol)是网站为维护自身数据信息,通过一种约定俗成的规则告诉一些“爬虫玩家”、搜索引擎哪些页面可抓、哪些不能抓。
例如这是京东的“君子协议”:
(不要让无聊的代码阻挡你读下去的欲望,真正的君子协议要“亮剑”了)
在上面的协议中:User-agent表示对哪些爬虫生效,*表示所有爬虫;Disallow正如其译文一样,代表拒绝爬虫进行抓取的网址,/表示根目录;通常爬虫对某些网站进行爬取时,要获取到robots.txt这个文件,通过解析其中的规则,来了解自己可以抓取的范围、规则。
但事实上这些规则却是一种道德上认可,这种规则在爬虫看来:“君子协议”遵守了便是君子,视而不见时就像撕破了一张废纸。
据资深程序员告诉AI星球:“两年前,在当时的数据买卖市场中,通过爬虫抓取到的号码、身份等信息会通过暗网等渠道来出售,通常按号码质量来划分价格,每条标价在1毛至5毛不等,一些较隐私的身份证号码等信息售价会更高上几毛钱。虽然每条只有几毛的售价,但爬虫每次爬取的数量至少都在上万条。”
虽然在Robots君子协议上明码规定了哪些网站可以爬、哪些信息不能抓,但在利益面前,道德似乎永远都在让步。
不仅如此,君子协议还存在着一个显而易见暴露隐私的问题:将“不能被爬取的网站”明码的列在了robots.txt中,这无异于是在挑衅、引起某些爬虫“得不到的永远在骚动”的强烈探知欲望。
君子协议究竟是为保护隐私而生,还是在刻意暴露隐私?没有硬性法律在背后撑腰,君子协议徘徊于道德与被漠视之间,君子协议何时才会成为真正的君子。
爬虫与反爬虫的攻坚战:黑灰产业的诱惑
在爬虫技术刚兴起时,互联网还是一方“净土”,每个从业者都会默默的遵守“君子协议”。
随着互联网的发展,个人隐私开始变成商品来贩卖,利益面前,“君子协议”也只是一纸道德,当君子协议开始失效时,反爬虫技术也应运而生。
商家开始用技术手段来维护自己的利益:例如当用户对某一网站浏览过快时,系统会要求输入验证码,因为这种快速浏览的行为与爬虫相似。
如今像这样随意将“爬虫”关键字输入进搜索引擎,大大小小的爬虫工具、“python课程”映入眼帘。
的确近年来爬虫技术兴起,各个公司的网站为维护用户的隐私建立了“君子协议”,但这远远不够。据一家媒体报道,去年8月28日华住集团旗下连锁酒店近5亿条开房、住客信息被卖家在“暗网”中打包售出售。
将容易被撕破的“君子协议”作为防备爬虫的终极防护墙显然是远远不够的,为此在各个公司的网站中他们还建立了自己的“反爬虫机制”,反爬虫正如其名字一样,针对“爬虫”而生的一种硬核技术。
据就职于搜索引擎公司的一位研发工程师透露,最初的反爬虫与爬虫的攻防之战是以检测Http头部文件的版本号,当反爬虫一旦发现爬虫的不正当抓取行为,立即会以返回“404、空页面、500”等错误页面信息阻止其不正当行为。
从一定程度上说,爬虫本身不具有浏览器的功能,仅作为一个客户端的形式存在。在网络上,没有绝对安全的系统,只有在激烈的攻防中不断提高自己的防御与攻击力,才能稳中求胜。
在针对爬虫无休止的攻击,网站只有将反爬虫的复杂度不断提高,以此使得不良经销商在编写爬虫的难度上不断加大,这样随着爬虫复杂度不断提升,营销商的成本也呈现不断增长的趋势。
“当制作一个爬虫的成本远高于抓取得到信息数据的利益时,爬虫的存在也变的毫无意义。”这是反爬虫的核心理念。
据接受AI星球采访的资深程序员透露,若在暗网获取到某公司数据库的信息数据时,仅2G的数据量便可得卖到三到四万元,所以有很多兼职爬虫的程序员会利用这种黑灰产业不断的为自己牟利。
在一篇报道中,一位程序员利用工作之外的闲暇时间兼职爬虫,仅一年的外快收入就超50万元……
目前看来,网页的反爬虫机制还不足以让“爬虫们”放弃,远抵挡不住暗藏在深处的“黑灰产业”所带来的诱惑,这场攻坚战未完待续 ……
公民身份证是“爬虫”应得的
爬虫就其本质来讲,作为一种计算机技术就决定了它的中立性,其本身的技术并不能触犯到法律边缘,但利用其获取非法数据的行为具有违法犯罪的风险的。
在刑法中,对爬虫的法律是这样规定的:
《刑法》第285条第二款:违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制。
处罚规定:情节严重的,处三年以下 有期徒刑 或者 拘役 ,并处或者单处 罚金 ;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。
在《刑法》的285条中,明显指出“获取该计算机信息系统中存储、处理或者传输的数据”属于违法行为,但更多的时候在大家的潜意识中多半参杂着道德的评判。
利用爬虫技术既可以批量获取网络上的公共信息也可以抓取非法的个人隐私信息。
就像谷歌的搜索引擎,每隔几天都会对网页的进行扫查、更新信息,用户可以实时获取到最新新闻,这种爬虫,虽与法律法规相悖,但其在一定的道德层面上被定义为“善意爬虫”。
同时与之相随的是从抓取隐私数据到贩卖于暗网之上,“恶意爬虫”只能从法律层面来看待它。
“君子协议”被看作是道德的约束,反爬机制也一直在九攻九距,爬虫从道德到法律上还是一个“多变脸”,在适当的时候我们应该为爬虫颁发一张像普通公民一样的身份证:因为爬虫就像人一样,会被利用,会徘徊于道德与法律之间,爬虫变的越来越难了……
文章