阿布云

你所需要的,不仅仅是一个好用的代理。

今日头条,网易,腾讯

阿布云 发表于

 

开源地址 :https://github.com/lzjqsdd/NewsSpider

包含网站:

  • 今日头条
  • 网易新闻
  • 腾讯新闻

主要功能

  • 新闻抓取
  • 索引构建
  • 前端搜索

整体结构

运行

一键启动

直接执行工程目录下的 start.sh,可以启动抓取,索引和检索。可以修改 tools/Global.py 中的 project_root 路径,默认所有处理的数据均在该目录下

同时运行所有爬虫

git clone https://github.com/lzjqsdd/NewsSpider.git <span class="pl-c1">cd</span> NewsSpider/news_spider scrapy crawlall

1

2

3

git clone https://github.com/lzjqsdd/NewsSpider.git

<span class="pl-c1">cd</span> NewsSpider/news_spider

scrapy crawlall

运行单个爬虫

scrapy crawl [toutiao<span class="pl-k">|</span>netease<span class="pl-k">|</span>tencent]

1

scrapy crawl [toutiao<span class="pl-k">|</span>netease<span class="pl-k">|</span>tencent]

数据及注意事项

  • 抓取的新闻为 utf-8 格式的,并不是乱码
  • 网易新闻 2015 年的内容格式和 2016 的不一样,可以抓取,需要修改 xpath 解析方式
  • 默认参数可以抓取到 13 万条左右的数据,
    • title.json(不含新闻内容)
    • news.json(含新闻内容),可以在 setting.py 中修改默认写入选项
    • news2db.py 可以将 json 文件写入sqlite3数据库
  • 所有的数据配置均可以在 tool/Global.py 中修改

TODO

  • 相似新闻推荐
  • 排序算法

Demo 展示

Demo

阿布云高速代理IP,分布式动态代理IP,高质量IP代理,全国高匿代理ip,爬虫代理,私密代理IP,国内极速代理IP,优质代理IP
https://www.abuyun.com
转载:https://geekspider.org/