阿布云

你所需要的，不仅仅是一个好用的代理。

网站反爬虫的相关知识

发表于 2018-03-16

一般而言，用户去抓取稍微正规一点的网站信息，都会有反爬虫的制约。这样使得用户在获取信息的时候会受到一定的阻碍。那么网站反爬虫方法主要有什么呢?

1.通过UA判断。这是最低级的判断方式，一般反爬虫不会用这个做唯一判断，因为反反爬虫的方法非常容易，直接随机UA即可解决。

2.通过一个固定的IP地址频繁访问判断。这个判断很简单，而且反反爬虫比较费力，是反爬虫绝佳方案。这个方式的解决方法就是需要采用多个IP地址抓取。

3.通过Cookie来判断。例如通过会员制的账号密码登陆的，会通过判断这一个账号短时间内抓取次数来判断。这种方式的反反爬虫也很费力，需采用多账号的方法来抓取。

4.动态页面加载。这个考验前端工程师的功底，如果前端写的好，各种JS判断，各种逻辑，像百度，淘宝一样，post登录很难。较好的方法，但是对于大牛，还是防不胜防。反反爬虫多采用渲染浏览器抓取，效率低下。

5.采用验证码获取信息的。这里要么是登录、查看的时候有验证码，要么是判断是爬虫时，不封IP，而是采用验证码验证，例如链家网。验证码是这种方法是反爬虫性价比较高的方案，反反爬虫一般需要接入OCR验证码识别平台或者人工打码平台，亦或者利用Tesseract OCR识别，亦或者采用神经网络训练识别验证码等。

新闻中心