/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
web數據采集軟件(Octoparse)是一款專業且優秀的數據采集軟件,該軟件擁有先進的網頁抓取功能,無需編碼就能快速手機web數據,而且隻要單擊一下就能將網頁轉化為結構化電子表格,非常智能快捷!
視覺點和點擊界麵
WebHarvy是一個可視化的網頁提取工具。其實完全沒有必要編寫任何腳本或代碼用來提取數據。使用WebHarvy的內置瀏覽器瀏覽網頁。您可以選擇用鼠標點擊來提取數據。它是那麼容易!
智能識別模式
自動識別網頁中出現的數據模式。所以,如果你需要從一個網頁刮項目(姓名,地址,電子郵件,價格等)的列表,你不需要做任何額外的配置。如果數據重複,WebHarvy會自動刮。
導出捕獲的數據
可以保存從各種格式的網頁中提取的數據。 WebHarvy網站刮板的當前版本允許你導出的刮數據作為XML,CSV,JSON或TSV文件。您還可以刮下數據導出到一個SQL數據庫。
從多個頁麵提取
通常網頁顯示數據,如在多個頁麵中的產品目錄。 WebHarvy可以自動抓取並從多個網頁中提取數據。隻是指出了“鏈接到下一頁'和WebHarvy網站刮板將自動刮從所有頁麵的數據。
基於關鍵字的提取
基於關鍵字的提取可讓您捕捉從搜索結果頁麵輸入關鍵字的列表數據。您創建的配置將被自動重複所有給定輸入關鍵字,而挖掘的數據。可以指定任意數量的輸入關鍵字
通過代{過}{濾}理服務器提取
提取匿名和防止提取網絡軟件被封鎖的Web服務器,您必須通過代{過}{濾}理服務器訪問目標網站的選項。可以使用一個單一的代{過}{濾}理服務器地址或代{過}{濾}理服務器的地址列表。
提取分類
WebHarvy網站刮板允許您從一個鏈接列表,從而導致一個網站內的相似頁麵抽取數據。這使您可以使用一個單一的配置刮網站內的類別或小節。
使用正則表達式提取
WebHarvy可以應用正則表達式(正則表達式)在文本或網頁的HTML源代碼,並提取去匹配的部分。這種強大的技術為您提供了更多的靈活性,同時拚搶的數據。
先進的網頁抓取功能
你所需要的一切,以自動化你的網絡刮擦。
使用方便
用簡單的點和點擊刮取所有數據。
無需編碼。
處理所有網站
搜刮網站,無限滾動。
登錄、下拉、AJAX...
下載結果
以CSV、Excel、API的形式下載搜刮的數據。
或保存到數據庫中。
雲端服務
在八爪魚雲平台上24小時不間斷地搜刮和訪問數據。
刮痧
安排任務在任何特定時間刮。
每小時、每天、每周...
IP輪換
自動旋轉IP,防止IP
從被封鎖。
如何輸入關鍵字列表並抓取搜索結果?
使用Octoparse,您可以輕鬆地在搜索框中添加 要搜索的關鍵字列表,然後從搜索結果中捕獲數據 。無需一一手動輸入關鍵字進行搜索。
常規工作流包括兩個主要部分:
1)搜索關鍵字列表 。
2)提取搜索結果。
1、主要更新
-更好的體驗:全新的軟件設計,更穩定、更流暢的數據采集體驗。卡滯、慢的問題會得到改善。
-改進的網站兼容性:核心渲染瀏覽器已經從Firefox升級到Chrome,具有更好的兼容性。
-更快的提取速度:顯著提高了本地運行的速度。
-更加簡潔的UI交互:界麵更加簡潔,工作流邏輯更加清晰。
2、筆記
-您可以在設備上同時安裝8.1版和7版。
-支持Windows 7及更高版本(僅支持x64位係統)。如果您使用的是Windows XP或x32位係統,請下載7.3.0版。
-雲服務器仍在版本7之下。版本8.1中配置的某些任務可能無法在雲中正常運行。
3、刪除的功能
-向導模式(即將合並為“高級模式”)
4、即將推出的功能
-數據導出為JSON格式
-XPath工具