/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
/中文/
傑靈采集器是一款多功能數據采集軟件。這款軟件功能強大,用戶可以通過它采集全網的數據內容,並進行編輯處理,然後再上傳至博客、BBS等軟件,帶給你更加便捷的內容抓取操作。
全部功能免費開放,免費提供開源發布接口
支持單頁抓取
支持指定URL網址 抓取內容
多線程抓取
多任務多線程快速抓取
批量采集
列表采集、內容采集、內容發布分步或合並批量采集
SQLite數據庫
廣泛使用的SQLite數據庫存貯,輕型高效
圖片附件下載保存
采集同時保存遠程圖片本地化
附件上傳
支持圖片附件自動上傳至網站
通用網站接口
discuz,wordpress,dedecms,帝國cms等開源程序
自動縮略圖
內容頁提取首頁圖片為縮略圖
ͼƬˮӡ
自定義logo或文字水印
正則表達式
支持正則提取或過濾內容
多級頁麵采集
支持無限級多級頁麵抓取
1:發布規則
模擬網站後台手工添加數據 所需要提交的POST參數規則集合,是存貯在本地的。
主要包括自已網站的接口網址,網站編碼,接口所需要的表單。如下圖所示
2:發布接口
發布接口是:發布接口是放在網站目錄下的php,asp等動態執行腳本文件(存貯在服務器上網站目錄下的)
以帝國CMS為例:接口文件名稱jieling.php放置/e/admin/目錄下即可
3:采集任務
在左側任務欄,添加任務,每個任務主要包含[采集內容設置]、[發布內容設置]。
1:支持手動單頁模式,指定URL采集內容。
2:自動過濾重複網址,支持自定義目標網址的過濾規則。
3:支持從列表中抓取信息到內容頁中。
4:支持從內容頁衍生的(無限)多級頁麵抓取(多級頁支持分頁)
5:支持圖片或任意附件本地化,圖片自動水印,自動提取縮略圖,發布文章自動http上傳。
6:支持多任務多線程同時采集不同目標網頁信息。
7:支持將采集內容發布到開源程序,目前已內置discuz,dedecms,wordpress,帝國cms。
8:內置發布規則編輯器,輕鬆管理自定義字段,可擴展發布至任意程序。
9:支持自定義COOKIE、UserAgent等Header頭信息。
10:采集內容支持網頁文字前後截取或正則表達式提取。
11:支持設置列表頁、內容頁、發布時候的時間間隔。等等,再高級的功能,估計又要過一陣子再寫了。
20190708
1、新增支持php插件,支持回調修改其他字段(詳見-->點擊)
2、新增支持javascript插件,支持回調修改其他字段(詳見-->點擊 )
3、新增數據庫報表支持多選
4、新增過濾篩選支持文本導入,全局關鍵詞過濾
5、新增列表區域提取 支持正則提取 如[\s\S]+提取全文
6、新增字段設置 內置大量常用規則,點擊圖標,快速選用即可
7、新增采集的時候可指定ssl版本號(設置1.1或1.2或留空)
8、新增EXCEL導入支持指定EXCEL起始行
9、新增數據查看器,sql語句曆史紀錄功能
10、新增網址包含 可用|(或)篩選網址
11、新增單篇發布,如404,500錯誤 ,將顯示錯誤文本
12、修複WIN2012以上版本遠程桌麵特殊情況導致無法保存任務的BUG
13、修複內容頁分頁內存溢出bug
14、修複列表采集超長時間延時無法快速停止的bug
15、修複//開頭的無協議鏈接,自動轉化為對應協議http(s)://