/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
Url采集(含站長擴展搜索)是一款關鍵詞url批量采集腳本,除開熱門的百度相關搜索詞采集,當然還有360搜索引擎以及搜狗搜索引擎,多線程關鍵詞采集URL,需要走代理,不然會出驗證。
先導入關鍵詞到key.txt文檔,在運行軟件
多線程搜索關鍵詞提取
Url采集是一個非常專業易用的關鍵詞url批量采集腳本,含站長擴展搜索,包括熱門的百度相關搜索詞、360搜索引擎、搜狗搜索引擎采集,提供多線程搜索關鍵詞提取,使用的時候隻需要先導入關鍵詞到key.txt文檔,在運行軟件,就可以批量采集關鍵詞url,非常簡單,網站優化必備小神器哦~
程序主要運用於安全滲透測試項目,以及批量評估各類CMS係統0DAY漏洞的影響程度,同時也是批量采集自己獲取感興趣的網站的一個小程序~~
測試環境為 Python 2.7.x 如果需要python3版本的,可以自行修改,或者我的博客留言
目前隻可以采集百度搜索引擎的結果。並且每頁默認顯示50條記錄。可自定義輸入要采集的頁數。
如果要采集關鍵詞為“hacker”的相關網站,采集百度結果的前3頁,則輸入如下:
please input keyword:hacker
Search Number of pages:3
1:Url采集工具獲取到的是百度搜索結果的真實URL地址
2:可以忽略不需要的常見網站,如忽略百度翻譯,等等所有百度相關結果,給數組添加baidu.com即可。程序已經默認忽略了很多條啦,如
filter_array1 = ['baidu.com','sina.com.cn','sohu.com','taobao.com','douban.com','163.com','tianya.cn','qq.com','1688.com']
filter_array2 = ['ganji.com','58.com','baixing.com']
filter_array3 = ['zhihu.com','weibo.com','iqiyi.com','kugou.com','51.com','youku.com','soku.com','acfun.cn','verycd.com']
filter_array4 = ['google.cn','youdao.com','iciba.com','cdict.net']
filter_array5 = ['pconline.com.cn','zcool.com.cn','csdn.net','lofter.com']
3:實時顯示采集到的網頁的【真實URL】以及【標題】。前麵的【ID】對應的是當前頁百度結果的第X條數據
4:自動保存結果到當前目錄的txt文件,文件名為搜索的 關鍵詞.txt 為了方便導入到其他工具,txt文件裏麵隻記錄了采集的網址。如果需要同時記錄標題,把代碼中的注釋刪除即可
5:自動去除重複記錄
6:統計總采集條數(143 found),有效的條數(91 checked),被過濾的條數(52 filter),以及被過濾的重複的URL條數(9 delete)
7:開源,任何人都可以下載使用。由於本人能力有限,如果有好的建議以及修改,也希望能一起完善
8:跨平台,並且無捆綁後門風險。以前網上有的百度URL采集軟件大部分為WINDOWS下的可執行文件,並且現在百度更新後無法正常采集。
9:程序會不斷更新