因为专业 · 所以简单

阿布云

你所需要的，不仅仅是一个好用的代理。

豆瓣电影、书籍、小组、相册、东西等爬虫

发表于 2018-03-16

豆瓣电影、书籍、小组、相册、东西等爬虫集 writen by Python.

PS: 哎, 八个月后自己尝试设计了下爬虫框架, 感觉 doubanspiders 代码简直糟蹋了 Scrapy, 阿弥陀佛!

### 依赖服务

MongoDB

### 依赖包

pip install scrapy
pip install pybloom
pip install pymongo

### 运行豆瓣电影爬虫

进入 douban/movie 目录
执行 scrapy crawl movie

### 运行豆瓣相册爬虫

进入 douban/album 目录
执行 scrapy crawl album

抓取过于频繁，服务器返回429.这个时候需要切换代理IP了，推荐使用阿布云代理,阿布云代理IP,提供高匿代理,爬虫代理.
文章 :https://geekspider.org

上一篇

新闻中心

下一篇