Apache Nutch官方版

文章頻道 軟件下載 安卓下載 蘋果下載

當前位置:首頁軟件下載網絡工具搜索引擎 → Apache Nutch官方版 (Java搜索引擎框架) v2.3 最新版
Apache Nutch官方版

Apache Nutch官方版(Java搜索引擎框架) v2.3 最新版

Apache Nutch官方版最新版下載評分:3.0
下載地址
  • 軟件介紹
  • 軟件截圖
  • 猜你喜歡
  • 同類推薦
  • 相關文章

想要輕鬆獲取世界一流的Web搜索引擎,那就千萬不要錯過Apache Nutch官方版!它是一款非常受歡迎的Java搜索引擎框架,能夠為廣大用戶提供全文搜索和Web爬蟲等超多功能,不僅可以建立自己內部網的搜索引擎,同時也可以針對整個網絡建立搜索引擎,對Apache Nutch官方版感興趣的朋友千萬不要錯過!

Apache Nutch官方版圖片

Apache Nutch官方版軟件特色:

每個月取幾十億網頁

為這些網頁維護一個索引

對索引文件進行每秒上千次的搜索

提供高質量的搜索結果

Apache Nutch官方版

Apache Nutch官方版功能特點:

支持將起始URL集合注入到Nutch係統之中

支持生成片段文件,其中包含了將要抓取的URL地址

根據URL地址在互聯網上抓取相應的內容

解析所抓取到的網頁,並分析其中的文本和數據

根據新抓取的網頁中的URL集合來更新起始URL集合,並再次進行抓取

同時,對抓取到的網頁內容建立索引,生成索引文件存放在係統之中

Apache Nutch官方版使用教程:

首先先運行軟件,選擇File -> Import Project ->選擇apache-nutch-1.9文件夾,確定後選擇Import project from external model(Eclipse)

一直點擊next到結束,成功將項目導入project中去

源碼導入工程後,並不能執行完整的爬取。Nutch將爬取的流程切分成很多階段,每個階段分別封裝在一個類的main函數中。在外麵通過Linux Shell調用這些main函數,來完整爬取的流程。下麵我們來運行Nutch中最簡單的流程:Inject。我們知道爬蟲在初始階段,是需要人工給出一個或多個url,作為起始點(廣度遍曆樹的樹根)。Inject的作用,就是把用戶寫在文件裏的種子(一行一個url,是TextInputFormat),插入到爬蟲的URL管理文件(crawldb,是SequenceFile)中。

接下來我們按照Nutch默認的配置,需要修改Nutch的配置文件,為插件文件夾指定一個絕對路徑,修改conf/nutch-default.xml文件內容,並且保存到工程中

接下來我們就可以開始對指定的網站的信息進行完整的爬取了

展開內容

軟件截圖

  • Apache Nutch官方版(Java搜索引擎框架) v2.3 最新版
  • Apache Nutch官方版(Java搜索引擎框架) v2.3 最新版

下載地址

  • PC版

同類推薦

相關文章

感謝速聯科技、八度網絡、九九數據、億恩科技、群英網絡讚助部分帶寬!

關於本站 | 聯係方式 | 版權聲明 | 下載幫助(?) | 網站地圖

Copyright 2002-2020 95262.com 【數碼資源網】 版權所有 粵ICP備2020128507號-1

本站所有軟件來自互聯網,版權歸原著所有。如有侵權,敬請來信告知 ,我們將及時撤銷。