/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
選一款功能強大的網絡數據信息挖掘工具是很重要滴,相信火車采集器(LocoySpider)就是你最好的選擇了,本款網頁采集器有著靈活的配置,可以輕鬆抓取網頁圖片、文字和文件。火車采集器還支持遠程下載圖片文件、探測文件真實地址、放到連接采集、網站登陸後信息采集,火車采集器的功能太多了,需要的用戶下載來體驗吧。
穩定、高效
五年磨一劍,軟件不斷更新進步,采集速度快,性能穩定,占用資源少
通用性強
無論新聞、論壇、視頻、黃頁、圖片、下載類網站,隻要通過瀏覽器能看到的結構化的內容,通過指定匹配規則,都能采集到您所需要的內容
擴展性強、適用範圍廣
自定義web發布,自定義主流的數據庫的保存和發布,自定義本地php及.net外部編程接口處理數據,讓數據都能為你所用
結果替換,可以將采集的結果根據規則替換成你定義的內容
采集範圍限製,可以根據采集的深度和網址的標識來限製采集的範圍
規則自定義,通過采集規則的定義,可以搜索所有網站采集幾乎任何類型的信息
多任務,多線程,可以同時進行多個信息采集任務,每個任務可以使用多個線程
斷點續采,信息采集任務可以在停止後從斷點開始繼續采集,從此你用不再擔心你的采集任務意外中斷了
網站登錄,支持網站Cookie,支持網站可視化登錄,即使登錄時需要驗證碼的網站也能采集
計劃任務,通過這個功能可以讓你的采集任務定時、定量或者一直循環執行
預留編程接口,定義多個編程接口,用戶可以在事件中利用PHP,C#語言進行編程,擴充采集功能
過濾重複內容,軟件可根據用戶設置和實際情況對重複內容和重複網址自動刪除重複內容
特殊鏈接識別,運用此功能可以將用JavaScript動態生成的鏈接或其他更古怪的連接識別出來
文件下載,可以將采集到的二進製文件(諸如:圖片、音樂、軟件、文檔等等)下載到本地磁盤或者采集結果數據庫中
條件保存,可以根據某個條件來決定那些信息保存,那些信息過濾目標發布媒體包括:數據庫(access, sql server,my sql,oracle) ,靜態htm文件
所見即所得,任務采集過程所見即所得,過程中遍曆的鏈接信息、采集信息、錯誤信息等都會及時的反映在軟件界麵中
數據保存,數據邊采集邊自動保存到關係數據庫中,並且數據結構能夠自動適應,軟件可以根據采集規則自動創建數據庫,以及其中的表和字段,也可以通過導庫方式靈活的將數據保存到客戶已有的數據庫結構中
數據發布,可以通過自定義接口,將已采集的結果數據發布到任意的內容管理係統和指定數據庫中。現在已支持的
本地編輯,本地可視化編輯已采集的數據
支持所有網站編碼,完美支持采集所有編碼格式的網頁,程序還可以自動識別網頁編碼
采集測試,這是其它任何同類采集軟件所不能比的,程序支持直接查看采集結果並測試發布
管理方便,使用站點+任務方式管理采集節點,任務支持批量操作,再多的數據管理也很輕鬆
全自動,無人值守工作,配置好程序後,程序將依據您的設置自動運行,完全無需人工幹預
多種發布方式,支持目前所有主流和非主流的CMS,BBS等網站程序,通過係統的發布模塊能實現采集器和網站程序間的完美結合
增加任務規則異常報警功能
修複高dpi下采集器登錄界麵錯位的問題
修複中文分詞存在的問題
修複任務完成後不能關機的問題
修複文件下載中存在的一些問題
修複邊采集發布為excel 無內容的bug
修複二級代理 Session中url的組合錯誤
升級插件內核心,增加偽原創等插件
生成Word和Excel可選2007和2003格式
添加了批量關閉已完成任務窗口功能