阿布云

你所需要的,不仅仅是一个好用的代理。

教你怎么在豆瓣选书

阿布云 发表于

向阳乔木

首发于向阳乔木

关注专栏

写文章

你知道豆瓣上最多人想看的书是什么吗?教你一个更酷的选书方法(附高端教程和源码)

你知道豆瓣上最多人想看的书是什么吗?教你一个更酷的选书方法(附高端教程和源码)

乔向阳乔向阳

3 个月前

查理·芒格说:“我这辈子遇到的聪明人没有不每天阅读的。没有,一个都没有。”

世界上的聪明人都在努力读书,那我们也不能落后。

关于选书原则,建议阅读李笑来老师的这篇文章:选书的基本原则

还有什么选书的技巧?

豆瓣读书!

网上不少朋友都喜欢在豆瓣上看书评,标记想看的或看过的书。

豆瓣也会提供很多榜单,还会根据你的口味推荐一些书。

豆瓣网友们也制作了各种各样的豆列,比如 豆瓣读书评分9分以上榜单

但是,这还不够个性化,比如下面问题能知道答案吗?

豆瓣上哪本书看过的人最多?

豆瓣上最多人想看的书?

超过一万人打分,分数超过8.7的历史书有哪些?

关于”进化论“打分人数超过100,评分高的书有哪些?

为了解决类似问题,我需要一个豆瓣读书的本地数据库,这样就可以借助SQL语句随心所欲的查询了。

怎么弄呢?

使用爬虫程序抓取豆瓣读书的数据。

https://github.com/owner888/phpspider

再次推荐phpspider这套采集框架,作者在Demo里有豆瓣读书采集配置文件,直接运行就可以。

但为了更多格式化数据,需要自己扩展采集规则。

比如我需要采集一本书”想读“、”已读“、”在读“的人数,方便以后筛选排序使用。

虽然说豆瓣有308多万图书数据,但有不少英文、日文书、韩文等原版书,而且用户点评数据少。

为了提升抓取效率,我从Tag页面开始采集: 豆瓣图书标签

为了防止豆瓣屏蔽,推荐购买阿布云等第三方动态代理服务。

花了几天时间,一共采集了5万条左右记录,接近80M的纯文本数据,听起来漏了不少,但实际验证来看,不是特别冷门的都有涵盖。

通过数据库查询可以获悉:

最多人想读的书是:《每天懂一点好玩心理学》

最多人读过的书是:《追风筝的人》

最多人正在读的书是:《百年孤独》

超过一万人打分,分数超过8.7的历史相关书籍:

关于“进化论”打分人数超过100,评分较高的书有哪些?

有了强大的豆瓣读书数据支持,我的京东购物车已经饥渴难耐。

正所谓”买书如山倒,看书如抽丝“。

不扯淡,抽丝去了。

阿布云代理提供海量极速高匿名HTTPS代理IP,HTTP代理、HTTPS代理、SOCKS代理、动态代理、爬虫代理等专业动态代理IP服务,阿布云因为专业,所以简单