你所需要的,不仅仅是一个好用的代理。
首发于向阳乔木
关注专栏
你知道豆瓣上最多人想看的书是什么吗?教你一个更酷的选书方法(附高端教程和源码)
3 个月前
查理·芒格说:“我这辈子遇到的聪明人没有不每天阅读的。没有,一个都没有。”
世界上的聪明人都在努力读书,那我们也不能落后。
关于选书原则,建议阅读李笑来老师的这篇文章:选书的基本原则
还有什么选书的技巧?
豆瓣读书!
网上不少朋友都喜欢在豆瓣上看书评,标记想看的或看过的书。
豆瓣也会提供很多榜单,还会根据你的口味推荐一些书。
豆瓣网友们也制作了各种各样的豆列,比如 豆瓣读书评分9分以上榜单
但是,这还不够个性化,比如下面问题能知道答案吗?
豆瓣上哪本书看过的人最多?
豆瓣上最多人想看的书?
超过一万人打分,分数超过8.7的历史书有哪些?
关于”进化论“打分人数超过100,评分高的书有哪些?
为了解决类似问题,我需要一个豆瓣读书的本地数据库,这样就可以借助SQL语句随心所欲的查询了。
怎么弄呢?
使用爬虫程序抓取豆瓣读书的数据。
https://github.com/owner888/phpspider
再次推荐phpspider这套采集框架,作者在Demo里有豆瓣读书采集配置文件,直接运行就可以。
但为了更多格式化数据,需要自己扩展采集规则。
比如我需要采集一本书”想读“、”已读“、”在读“的人数,方便以后筛选排序使用。
虽然说豆瓣有308多万图书数据,但有不少英文、日文书、韩文等原版书,而且用户点评数据少。
为了提升抓取效率,我从Tag页面开始采集: 豆瓣图书标签
为了防止豆瓣屏蔽,推荐购买阿布云等第三方动态代理服务。
花了几天时间,一共采集了5万条左右记录,接近80M的纯文本数据,听起来漏了不少,但实际验证来看,不是特别冷门的都有涵盖。
通过数据库查询可以获悉:
最多人想读的书是:《每天懂一点好玩心理学》
最多人读过的书是:《追风筝的人》
最多人正在读的书是:《百年孤独》
超过一万人打分,分数超过8.7的历史相关书籍:
关于“进化论”打分人数超过100,评分较高的书有哪些?
有了强大的豆瓣读书数据支持,我的京东购物车已经饥渴难耐。
正所谓”买书如山倒,看书如抽丝“。
不扯淡,抽丝去了。
阿布云代理提供海量极速高匿名HTTPS代理IP,HTTP代理、HTTPS代理、SOCKS代理、动态代理、爬虫代理等专业动态代理IP服务,阿布云因为专业,所以简单