阿布云

你所需要的，不仅仅是一个好用的代理。

爬虫的威力有多大？

发表于 2018-03-16

假如你的网站经常被百度或者其他爬虫爬取数据,对于推广来说这无疑是一件好事,因为爬虫会帮你的网站提高流量.百度的爬虫叫做Baiduspider,相信如果你的网站统计能统计爬虫的流量,一定会见过不少Baiduspider.当然,你的站得被百度关注才行.百度作为一款搜索引擎,当然是希望爬到的数据信息越多越好,所以Baiduspider的功能会不断地加强,或者有一天,它们真的会像Philipp写的科幻短文那样,会上门偷听你所说的话,或者把你家的垃圾桶全搬走调查呢.

但是,如果有一天,你发现自己的网站里的所有内容都被爬虫删除掉了,你会有怎样的反应？我并不是说从搜索页面上删掉,而真的从你的服务器里！下面就是这样一个离奇的例子. 在Digg上面找到的这个故事里,谷歌的爬虫Googlebot被怀疑是删除掉整个网站的元凶！Josh Breackman在一间负责一个大型政府网站的CMS系统开发工作的公间工作.这个CMS开发项目主要是为了让政府员工能创建或维护他们自己的网站上的不断变化的内容.但由于之前他们已经有一个网站,并且网站上面有丰富的内容,所以客户要求在新的网站正式上线之前,将旧网站的内容重组并上传到新网站里.这是一个需时较长的过程,在几个月后,他们终于把所有的旧网站上的内容都转移到新的CMS系统里,并且把新网站正式放上线,公开浏览. 但就在网站正式上线的第六天,他们突然发现新网站上的所有内容都自己消失了,并且所有网页都指向了默认的“请输入内容”编辑页.

很自然地,Josh被要求对这个事件进行彻查.在调查中,他发现了一个外部的IP曾经进入系统,并且删除了所有系统里的内容.这个IP并不是属于某些海外的黑客,或者目的是想破坏政府网站的信息,而是属于googlebot.com的.也就是说,这个是一个googlebot爬虫. 那么Googlebot为什么会这么做呢？它怎么会偷偷地将一个网站的内容全部删掉了呢？难道Google与这个政府网站有过节？然而都不是,经过多番调查,Josh终于找到了原因.原来在转移内容的过程中,有一个用户将内容从一个网页复制然后粘贴到另一个网页上,其中包括了“编辑”链接,而这个链接是可以编辑内容的.在正常情况下,这个链接是没有问题的,因为外部的用户即使点了这个链接,他还需要输入有效的用户名和密码才能通过身份验证,因此他不可能进行编辑.但是,这个CMS却有一个致命的漏洞,那就是它的认证系统并没有包括像Googlebot这类爬虫在内.也就是说,Googlebot可以轻松通过它的认证系统. 因为Googlebot没有使用cookies,所以它可以轻松地绕过cookies验证.它也不理会JS代码,所以也不会像普通用户那样点击了“编辑”链接后被自动转向到正常的未登录提示页上.因此,它大摇大摆地顺着网页上的链接把整个网站逛遍了,其中当然包括了标题为“删除网页”的网页. 整个事件的起因是这个CMS系统存在致命的漏洞,并且更倒霉的是,它刚好碰上了爬虫.

新闻中心