.

网络爬虫的前世今生

网络爬虫是当下很热的一个词,很多人知道网络爬虫是来源于网络上铺天盖地的Python编程培训广告,网络营销让这个炒得很热的词和Pathon、人工智能、大数据分析、黑客技术联系了起来,顿时给人一种神秘而高大上的感觉。那网络爬虫到底是个什么东东?今天就做个科普。

网络爬虫也叫网络蜘蛛或网络机器人(WebRobot),说白了就是一种计算机程序,用来在互联网上爬取数据,这个技术最早运用于搜索引擎,用来在网络上爬取数据,所以最先的爬虫是善意的爬虫,活着套用现在比较时髦的几句话叫技术无罪,是个中立的技术。正是有了爬虫技术,我们才可以通过搜索引擎获得我们所想要的海量数据。

爬虫技术从诞生初期和网站之间是一种和平相处的共生关系,搜索引擎就是为爬取数据,而网站的目的就是为了在网络上发布内容,并且网站是希望自己的内容被搜索引擎抓取的。比如,网页会在HTML文档中用meta标签模拟HTTP协议的响应头报文,向搜索引擎说明自己的情况,便于搜索引擎更方便地找到自己,像网页中的metaname="KEYWords"contect=""就是向搜索引擎说明你的网页的关键词。也就是说爬虫爬取网站的数据是你情我愿的事情。

后来随着网络应用的发展,网站并不愿意让自己是所有数据被搜索引擎抓取,于是就有了后来的robots协议,就是大家制定了一个规则,网站如果有不想让爬虫爬取的数据,就在网站根目录放一个robots.txt文档,文档的格式和内容大致就相当于一份导游图,告诉爬虫我这个网站哪些数据是可以爬取的,哪些是不可以爬取的。这一开始大家相互遵守协议,相安无事。

再后来,爬虫开始不受规矩了,经常不顾robots协议,而肆意爬取网站私密数据,于是双方展开博弈,社会层面,双方对簿公堂;技术层面,网站开始运用各种技术措施防止和屏蔽爬虫,比如各种加密算法,身份校验,访问频率控制等,魔高一尺道高一丈,爬虫也运用各种技术手段绕过网站的技术措施,比如伪造虚假ID,伪造UA代理等等,可以说现在的爬虫编程技术很就是如何绕过网站的反爬虫措施,双方就是矛与盾的关系。

那活说回来,爬虫逾越规则,爬取网站私密信息有什么危害呢,这个就厉害了,爬虫非法爬取数据包括公民个人信息、商业秘密、虚拟财产、著作权作品、当然了,还有大量的淫秽和非法内容。以上都是根据所爬取数据的属性分类,当然了,由于数据的兜底属性是物理属性,所以,只要是爬虫用非法手段爬取数据,会涉及计算机信息系统的五宗罪(刑法条条规定的五个罪名)。

在司法实践中,由于对数据属性的区分认识不够,往往采取口袋罪的计算机信息系统五宗罪来定罪处罚,而实际上,爬虫的不同技术手段在实践中的应用,涉及的民事侵权类型和刑法上法益损害是不一样的,比如深层网络爬虫(deepweb),它能把存在于网络数据库中,不能直接以超级链接方式访问而只能通过动态网页技术访问的资源聚合起来,这就是我们所说的加框链接,类似的还有深度链接,聚合链接,盗链接等新的技术,这些都涉及著作权的侵权。

额额额,说好的科普的,越说越专业了,好了,专业的知识还会留着下回分解吧……




转载请注明:http://www.abachildren.com/hbyx/5300.html