阿布云

你所需要的,不仅仅是一个好用的代理。

爬虫项目

阿布云 发表于

 

开源地址 https://github.com/shuiqukeyou/E-HentaiCrawler

项目依赖

本项目使用的 python 版本为 python3.5,因为几个依赖项目都是 py2、3 兼容的,所以稍微改改应该能做到 py2、py3 兼容。

使用到的第三方库:requests、pymysql、BeautifulSoup4、IPProxyPool。

前面三个都是 python 里很出名的第三方库了,安装方式为:pip install requests pymysql bs4。
py2 和 py3 共存时请使用 pip3 install requests pymysql bs4
Anaconda 选手请用 Anaconda 的方法安装

关于 IPProxyPool

  • IPProxyPool 是一个爬取代理 IP 的爬虫,本项目中的 IP 池模块基于该项目运行
  • IPProxyPool 模块另有其自身的依赖,请移步至项目地址查看其所需依赖

项目介绍

Proxy 为 IP 池模块,需要手动运行 IPProxyPool 项目才能正常工作

crawler 文件夹内为各种爬虫模块:目录爬虫、API 爬虫、e 绅士爬虫,和对几个爬虫模块进行封装的上层模块

database 文件夹内为创建、写数据表的各模块(没有读)

error 文件夹中存放了一些自定义错误

objectvalue 文件夹中存放了一个实体类

test 文件夹中是一些测试特性用语句,与项目无关

main 文件为主程序

SQLErrorlog.txt 存放写入数据库时发生的错误,一般是字段长度的问题或者编码问题 log.txt 存放除 SQL 错误外的其他错误 lastpage&index.txt 存放上次爬取到的位置,重启爬虫时可以直接重启不需要再手动设置

如果谁真要拿去运行的话,运行顺序是这样。

  1. 先准备一个 EX 绅士的帐号,要求注册时间超过 2 周
  2. 照着网上的各种反熊猫的教程获取 EX 绅士的 cookie,并设置 config 的相关属性
  3. 手动运行 database/newdatabase 中的 newdatabase,创建数据库
  4. 运行 IPProxyPool 项目,由于 IPProxyPool 项目爬取 IP 需要一定的时间,请等待 IPProxyPool 运行一段时间后再运行爬虫
  5. 运行 main 模块

为了不给 E 绅士的服务器带来太大负担(毕竟我是白嫖的),请使用尽量保守的爬虫策略,。

后续

可能会做一个协程版本出来,然后做成长期运行的东西,用来获取 E 绅士最近三天收藏数最多的日文和中文本,毕竟 E 绅士的热门功能跟翔一样,一堆 western 的不要太瞎狗眼。
(这坑大概是弃了,把新本子的所有种子爬下来,然后做个蜜罐统计每个本子被询问的次数来追踪热门本的效果更好,维护起来也更简单)

另外准备对手上的数据做一下简单的数据分析(跟风搞一下大数据,然而 48W 条数据算什么大数据)(已完工,当然并那个不算什么大数据)

数据分析完毕后可能会共享出来,大家一起淦他娘的撸爆(已放,其实之前陆续有人找我要过,没公开放链接就是了)
数据已放出:数据地址:链接: http://pan.baidu.com/s/1boQaILL 密码: 8qsg 并没有更新后面的,所以仍然是截止 2 月 15 日

(他娘的什么时候 README 文档滚回到原来的版本去了??我放着个老版本的 README 写了一百年???)
阿布云高速代理IP,分布式动态代理IP,高质量IP代理,全国高匿代理ip,爬虫代理,私密代理IP,国内极速代理IP,优质代理IP
 https://www.abuyun.com
  转载:https://geekspider.org