很多python爱好者在利用爬虫采集网站数据时,总会遇到IP被网站封掉的时候,这个时候就需要用到代理ip了.然而,我们应该如何选择爬虫代理ip,才能保证数据采集的高效性和稳定性呢?首先,我们根据代理IP的匿名性可以分为下面这几种.
- 透明代理(TransparentProxies):目标服务器能够检测到真实的源IP地址,目标服务器会根据HTTP请求头进行检测.检测依据:REMOTE_ADDR=代理服务器,IP HTTP_VIA=通常为代理服务器IP(或代理软件名称,也可能无此头),HTTP_X_FORWARDED_FOR=真实源IP(不用代理时,无此头或值为空).然而这种类型的代理并不适合用于数据的采集.
- (普通)匿名代理(AnonymousProxies):目标服务器无法检测到真实的源IP地址,但能够检测到使用了代理.检测依据:REMOTE_ADDR=代理服务器,IP HTTP_VIA=通常为代理服务器IP(或代理软件名称,也可能无此头),HTTP_X_FORWARDED_FOR=代理服务器IP(知道你使用了代理,但无法得知真实源IP).这种类型的代理就可以用于数据采集,但是有一定被检测到的风险.
- 高匿名代理(HighAnonymityProxies-Eliteproxies):目标服务器无法检测到你在是使用代理.检测依据:REMOTE_ADDR=代理服,IPHTTP_VIA=值为空或无此头,HTTP_X_FORWARDED_FOR=没数值或无此头,PS:这种代理就非常适合用户对于大数据的采集.
另外,不使用代理时发出的头:REMOTE_ADDR=真实源,IPHTTP_VIA=值为空或无此头,HTTP_X_FORWARDED_FOR=没数值或无此头.不过,在检测严格的情况下,即使没有HTTP_VIA头和HTTP_X_FORWARDED_FOR头,如果存在HTTP_PROXY_CONNECTION头,会被认为在使用普通匿名代理.