6

Python 小工具《豆瓣租房收集器》

 2 years ago
source link: https://feimind.xyz/2019/python-xiao-zhu-shou-dou-ban-zu-fang-shou-ji-qi-ecf05aee
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.
Aug 9, 2019

Python 小工具《豆瓣租房收集器》

【版本记录】

  • 2019-08-20 版本号0.0.4 :增加 “再来一次” 功能,如果没有搜索到合适的房源,可以直接重试,调整关键词,再来一次;

  • 2019-08-13 版本号0.0.3 :增加 “强力搜索” 特性,同一标题同时符合多关键词才会在结果中显示;

  • 2019-08-09 版本号0.0.2 :支持一次搜索多个关键词;

【需求背景】

来到上海,从未停止对中介的斗智斗勇,找到满意又便宜的房子简直是偶像剧才出现的桥段。豆瓣小组是跳过中介,节约中介费的主要手段,即使现今小组已经水化严重,但仍然是年轻人在选择平台时会考虑的方式,毕竟昂贵的中介费摆在那里。曾经出现的“豆瓣租房”小程序,让我眼前一亮。但很可惜,仅仅几个月就暂停服务。 就上海来看,豆瓣相关的租房小组就有几十个,发帖量也是惊人。如何在海量帖子里找到自己温暖的家,以及尽可能高效率得完成这项工作,是需要解决的问题。

【解决方案】

首先,我们解决信息筛选的问题。过滤多余信息,意味着花更少时间获得所需要的信息,愉悦身心又低碳环保; 其次,提升信息筛选的效率、质量。多关键词或许是个方法; 再次,如何让信息找我,这其实也是《即刻》的雏形。

在 Github 找到豆瓣爬虫的基础版本,我是在该版本的基础上进行修改和调整,使其支持多关键词搜索。

Gitlab 链接在此

运行该程序需要你的电脑安装 Python 及其相关组件,并将你想收集的豆瓣小组编号填入程序文件即可,运行过程中会要求输入关键词、搜索页面数量,其他的就交给💻完成吧。

效果如图

聪明的你或许已经发现,这款爬虫不仅仅可以用来收集租房信息。是的,只要是想获取特定小组的特定关键词帖子,都可以通过修改程序达到目的。这,就是 Python 等易入门程序语言的特点。

【迭代方向】

  • “强搜索”功能,如果我想搜索 “杨浦”、“一室户”同时出现的帖子,该怎么办?(已完成)
  • 小组主题 支持搜索(产品洁癖)
  • 进阶功能:定时轮询,结果推送

相关链接:参考 github 相关项目

Some rights reserved
Except where otherwise noted, content on this page is licensed under a Creative Commons Attribution-NonCommercial 4.0 International license
max

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK