/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
八爪魚采集器是一款使用簡單、功能強大的網絡爬蟲工具,這個是一款可以讓你的信息采集可以變得很簡單的工具。八爪魚轉變了傳統對於網絡上的數據思維方法,它讓用戶在網上抓取資料編的更加簡單和容易了
滿足多種業務場景
適合產品、運營、銷售、數據分析、政府機關、電商從業者、學術研究等多種身份職業
輿情監控
全方位監測公開信息,搶先獲取輿論趨勢
市場分析
獲取用戶真實行為數據,全麵把握顧客真實需求
產品研發
強力支撐用戶調研,準確獲取用戶反饋和偏好
風險預測
高效信息采集和數據清洗,及時應對係統風險
簡易采集
簡易采集模式內置上百種主流網站數據源,如京東、天貓、大眾點評等熱門采集網站,隻需參照模板簡單設置參數,就可以快速獲取網站公開數據。
智能采集
八爪魚采集可根據不同網站,提供多種網頁采集策略與配套資源,可自定義配置,組合運用,自動化處理。從而幫助整個采集過程實現數據的完整性與穩定性。
雲采集
由5000多台雲服務器支撐的雲采集,7*24小時不間斷運行,可實現定時采集,無需人員值守,靈活契合業務場景,幫你提升采集效率,保障數據時效性。
API接口
通過八爪魚API,可以輕鬆獲取八爪魚任務信息和采集到的數據,靈活調度任務,比如遠程控製任務啟動與停止,高效實現數據采集與歸檔。基於強大的API體係,還可以無縫對接公司內部各類管理平台,實現各類業務自動化。
自定義采集
針對不同用戶的采集需求,八爪魚可提供自動生成爬蟲的自定義模式,可準確批量識別各種網頁元素,還有翻頁、下拉、ajax、頁麵滾動、條件判斷等多種功能,支持不同網頁結構的複雜網站采集,滿足多種采集應用場景。
便捷定時功能
簡單幾步點擊設置,即可實現采集任務的定時控製,不論是單次采集的定時設置,還是預設某一天或是每周每月的定時采集,都可以同時對多個任務自由進行設置,根據需要對選擇時間進行多重組合,靈活調配自己的采集任務。
全自動數據格式化
八爪魚內置了強大的數據格式化引擎,支持字符串替換、正則表達式替換或匹配、去除空格、添加前綴或後綴、日期時間格式化、HTML轉碼等多項功能,采集過程中全自動處理,無需人工幹預,即可得到所需格式數據。
多層級采集
很多主流新聞、電商類的網站,裏麵包含一級商品列表頁,也包含二級商品詳情頁,還有三級評論詳情頁麵;不論網站有多少層級,八爪魚都可以不限製層級的采集數據,滿足各類業務采集需求。
支持網站登錄後采集
八爪魚內置了采集登錄模塊,隻需配置目標網站的賬號密碼,即可用該模塊采集到登錄後的數據;同時八爪魚還具備采集Cookie自定義功能,首次登錄以後,可以自動記住cookie,免去多次輸入密碼的繁瑣,支持更多網站的采集。
先我們新建一個任務-->進入流程設計頁麵-->添加一個循環步驟到流程中-->選中循環步驟-->勾選上軟件右方的URL 列表勾選框-->打開URL列表文本框-->將準備好的URL列表填寫到文本框中
接下來往循環中拖入一個打開網頁的步驟-->選中打開網頁步驟-->勾選上使用當前循環裏的URL作為導航地址-->點擊保存。係統會在界麵下方的瀏覽器中打開循環中選中的URL對應的網頁
到這裏,循環打開網頁的流程就配置完成了,運行流程的時候,係統會逐個的打開循環中設置的URL。最後我們不需要配置一個采集數據的步驟,這裏就不在多講,大家可以參考從入門到精通係列1:采集單個網頁 這篇文章。下圖就是最終和流程
下麵是流程最終的運行結果
主要體驗改進
本地采集增加了對7版本采集任務的正則兼容
優化自定義配置中在全部字段中刪除字段後預覽數據的刷新機製
Bug修複
解決自定義配置中添加采集步驟菜單顯示位置不正確的問題
解決升級新版本後任務列表打不開的問題
解決自定義配置中拖動調整數據預覽中字段順序白屏的問題
解決自定義配置中刪除數據預覽中字段或數據行時提示操作框顯示錯誤的問題
解決采集模板中列表類型的參數無法配置的問題
解決本地采集中鼠標移動到元素上不生效的問題
解決定時采集中設置日期會出錯的問題