
豆瓣电影、书籍、小组、相册、东西等爬虫集 writen by Python.
PS: 哎, 八个月后自己尝试设计了下爬虫框架, 感觉 doubanspiders 代码简直糟蹋了 Scrapy, 阿弥陀佛!
### 依赖服务
- MongoDB
### 依赖包
- pip install scrapy
- pip install pybloom
- pip install pymongo
### 运行豆瓣电影爬虫
- 进入 douban/movie 目录
- 执行 scrapy crawl movie
### 运行豆瓣相册爬虫
- 进入 douban/album 目录
- 执行 scrapy crawl album
- 抓取过于频繁,服务器返回429.这个时候需要切换代理IP了,推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.
文章 :https://geekspider.org