/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
豆瓣租房小組爬蟲是一款能夠幫助中介或者找房源的用戶快速找到適合自己的房源的軟件,很多在豆瓣租房小組找房的用戶麵對琳琅滿目的房子不知該如何甄別,利用軟件能夠快速篩選出適合自己價位的房源,有需要的小夥伴歡迎來體驗。
1.首先對網頁F12進行節點分析
2.分析得到id為group-new-topic-bar下的tbody下的tr就是我們要的每一行租房信息
3.遍曆每一個tr節點,得到詳細信息的url,進入到該url裏獲取到帖子的詳細信息
4.防止爬取過於頻繁,可以在每次爬取詳情信息時sleep一會
版權聲明:本文為CSDN博主「好記古啊古」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
一、下載打開軟件,首先設置要找的房源的地址。
二、接下來設置理想價位和排除關鍵詞。
三、點擊爬取即可獲取房源信息,等待軟件獲取相關關鍵詞房源。
四、利用typora軟件打開爬取下來的MD文件即可看到房源信息。
此爬蟲用python開發,基於gevent、pymongo、requests、lxml、Flask。
流程也相對較簡單:
配置需要爬取的URL;
配置需要解析的信息元素,用XPATH完成;
配置代理;
配置監控周期、最大頁數、並發數等;
運行爬蟲,等待抓取,會自動根據配置定時爬取;
啟動web服務,在前台搜索、排序等;
如何設置豆瓣群組鏈接?
首先搜索某個地區租房,例如:北京租房
點進去要爬取的某個小組,例如第一個:北京租房
將頁麵拉到最下麵有個> 更多小組討論超鏈接,點進去
複製地址欄中地址(從/group開始複製到結尾),粘貼到軟件設置豆瓣群組鏈接
有時候粘貼進軟件會崩潰,不知道什麼原因,建議把軟件中原來的鏈接刪除再粘貼進去。
將start=後邊的數字50改成%d
如何設置排除關鍵字?
排除關鍵字是標題和內容隻要出現關鍵字就會排除掉該條租房信息。
例如默認是限女這個關鍵字,隻要租房信息中包含限女生入住,隻限女生等出現限女關鍵字的一律不爬。
多個關鍵字用|分隔,注意是英文的。
例如:限女|短租|整租,這三個關鍵字設置後,隻要標題和內容出現這三個關鍵字軟件就不會爬取。
關於識別標題中的價格
使用正則\b\d{4}\b識別標題中的價格信息,無法爬取少於1000元的信息。
關於爬取結果排序
先根據價格從小到大排序,價格相同根據發帖時間排序。