2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p>  基于Nutch海關(guān)主題搜索引擎的研究與設(shè)計</p><p>  【內(nèi)容摘要】運用Nutch搜索引擎技術(shù)開源和完整網(wǎng)絡(luò)搜索的設(shè)計思想,構(gòu)建了基于Nutch的海關(guān)情報資源主題搜索引擎系統(tǒng)模型,分析研究了系統(tǒng)各功能子模塊的主要作用和功能整合方案,并提出了系統(tǒng)實施運行的相關(guān)技術(shù)路線;從而較好地解決了海關(guān)系統(tǒng)目前尚無專業(yè)化的主題搜索引擎的問題,實現(xiàn)了在統(tǒng)一的技術(shù)平臺進行海關(guān)情報和文獻資源的全文檢索,為

2、各級海關(guān)用戶提供了一個方便、快捷、準(zhǔn)確地獲取情報信息的有效工具。 </p><p>  【關(guān) 鍵 詞】Nutch 海關(guān) 主題型 搜索引擎 統(tǒng)一檢索 </p><p>  海關(guān)系統(tǒng)不斷加大科技和資金投入,陸續(xù)開通了各級海關(guān)門戶網(wǎng)站及海關(guān)統(tǒng)計咨詢網(wǎng)、中國通關(guān)網(wǎng)、電子口岸數(shù)據(jù)中心網(wǎng)等專業(yè)性站點。這些站點為宏觀經(jīng)濟和社會各界提供海量的資訊和詳盡的統(tǒng)計數(shù)據(jù)。同時,與外界物理隔絕的海關(guān)內(nèi)部業(yè)務(wù)網(wǎng)站也在

3、關(guān)際交流、學(xué)術(shù)研究、互助協(xié)作方面起到了積極作用。 </p><p>  無論從海關(guān)內(nèi)部的業(yè)務(wù)協(xié)作、科學(xué)研究的角度,還是從海關(guān)外部對海關(guān)資訊、統(tǒng)計數(shù)據(jù)的檢索需求角度考慮,都需要尋求一種有效的手段以便從海量信息中獲取有價值的信息。 </p><p>  目前,通用型搜索引擎的內(nèi)部排序算法和商業(yè)化的競價排名機制決定了搜索結(jié)果的準(zhǔn)確率不是很高,且涉及領(lǐng)域太廣,需要用戶的二次篩選。尤其在海關(guān)領(lǐng)域的查

4、詢上,更顯得不夠深入和專業(yè)化。因此,社會和海關(guān)內(nèi)部都迫切需要一個以海關(guān)為主題的專業(yè)化搜索引擎。 </p><p><b>  一、相關(guān)概念 </b></p><p><b>  1.搜索引擎 </b></p><p>  搜索引擎,簡而言之,是現(xiàn)代信息檢索技術(shù)在大規(guī)模文本集合上的實際應(yīng)用。從1993年誕生第一個搜索引擎&q

5、uot;Excite"至今,搜索引擎已經(jīng)進入到第四個發(fā)展階段,即面向主題的搜索引擎。所謂主題型搜索引擎,就是以構(gòu)筑某一專題領(lǐng)域或?qū)W科領(lǐng)域的網(wǎng)絡(luò)信息資源庫為目標(biāo),智能地在網(wǎng)絡(luò)上搜集符合設(shè)定專題或滿足學(xué)科需要的信息資源。一個搜索引擎在一個主題下的主題度越高,證明這個搜索引擎越貼近這個主題,用戶就越容易找到跟這個主題相關(guān)的資料。 </p><p><b>  2.Nutch </b>&l

6、t;/p><p>  Nutch是一個基于Lucene、開源的、Java 實現(xiàn)的完整網(wǎng)絡(luò)搜索引擎解決方案。Nutch基于Hadoop的分布式處理模型可以保證執(zhí)行效率;同時擁有類似Eclipse的插件機制,足以保證系統(tǒng)良好的適應(yīng)性,而且很容易集成到客戶的應(yīng)用之中。 </p><p>  3.采用Nutch構(gòu)建主題型搜索引擎的優(yōu)勢 </p><p><b>  (

7、1)透明度好 </b></p><p>  與商業(yè)化搜索引擎不同,Nutch是開放源代碼的,任何人都可以查看并修改其排序算法。因此 Nutch 對學(xué)術(shù)搜索和政府類站點的搜索來說,有著更好的透明性,比較適合專業(yè)化和學(xué)術(shù)研究的要求。 </p><p><b> ?。?)擴展性強 </b></p><p>  Nutch是非常靈活的,可以

8、按需定制并集成到相應(yīng)的應(yīng)用程序中。如借助Nutch 的插件機制,可將Nutch作為一個搜索個性化信息載體的搜索平臺。根據(jù)海關(guān)主題型搜索引擎的檢索需求,將其集成到海關(guān)主題型搜索引擎的主頁,即可實現(xiàn)為用戶提供具有針對性的搜索服務(wù)的目標(biāo)。 </p><p><b> ?。?)性價比高 </b></p><p>  使用Nutch本身并不需要支付任何費用,在以最小的成本運作的

9、前提下能夠做到: 每個月抓取幾十億網(wǎng)頁;為每一個抓取到的網(wǎng)頁維護一個索引;對索引文件進行每秒上千次的搜索;提供高質(zhì)量的搜索結(jié)果。 </p><p><b>  二、系統(tǒng)模型 </b></p><p>  面向海關(guān)主題的網(wǎng)絡(luò)爬蟲的設(shè)計思路是:以Nutch的crawl為基礎(chǔ),對crawl進行功能上的限定并明確其運行的范圍,即根據(jù)目標(biāo)用戶的需求,將面向海關(guān)主題的web信息提

10、取限定在已知的、正式上線的官方網(wǎng)站站點內(nèi),以此作為URL集合,實現(xiàn)對面向主題的信息的自動采集;獲得鏈接數(shù)據(jù)后,通過主題篩選和分析建立全文索引庫;用戶對索引庫進行檢索。系統(tǒng)大致可以分為三個層次: </p><p> ?。?)數(shù)據(jù)層:將URL集注入crawldb數(shù)據(jù)庫,根據(jù)crawl- </p><p>  db數(shù)據(jù)庫創(chuàng)建抓取列表,執(zhí)行“創(chuàng)建列表/抓取網(wǎng)頁/更新數(shù)據(jù)庫”的循環(huán)直到完成抓取。 &

11、lt;/p><p> ?。?)中間層:根據(jù)抓取的網(wǎng)頁所生成的片段內(nèi)容更新鏈接數(shù)據(jù)庫,再進一步建立全文索引 </p><p> ?。?)應(yīng)用層:用戶通過用戶接口進行查詢操作,通過Tomcat服務(wù)器將用戶查詢轉(zhuǎn)化為lucene查詢,最后返回結(jié)果。 </p><p>  三、功能模塊及實現(xiàn)路徑 </p><p><b>  1.抓取 <

12、/b></p><p> ?。?)建立初始URL集 </p><p>  初始URL集的建立有兩種方式:超鏈接和站長提交。本系統(tǒng)擬采用站長提交模式:即通過管理員建立以海關(guān)站點為主題的web地址集作為初始URL集,搜索引擎經(jīng)過核查之后,便將該類網(wǎng)站URL加入到crawldb數(shù)據(jù)庫中,進行抓取。 </p><p> ?。?)注入(inject) </p>

13、;<p>  inject操作調(diào)用的是Nutch的核心包之一crawl包中的類injector,其主要作用是:將URL集合進行格式化和過濾,設(shè)定URL狀態(tài)為:未抓?。║NFETCHED),并按照一定方法進行初始化分值;將URL進行合并,消除重復(fù)的URL入口。 </p><p>  (3)生成(generate) </p><p>  generate操作調(diào)用的是crawl包中

14、的類generator,主要作用是:從crawldb數(shù)據(jù)庫中將URL取出并進行過濾;對URL進行排序,通過域名、鏈接數(shù)并通過一種hash算法處理后進行降序排列;將排列列表寫入segment 。 </p><p> ?。?)抓?。╢etch) </p><p>  fetch操作調(diào)用的是fetcher包中的類fercher,其主要操作是按照segment文件夾下的抓取列表進行抓取作業(yè),在抓取

15、過程中,頁面的URL地址可能因為鏈接發(fā)生改變,從而需要更新URL地址,為了達到理想的信息獲取速度,一般采用多線程并行信息抓取的策略。 </p><p> ?。?)解析(parse) </p><p>  parse操作調(diào)用的是parse包中的類parsesegment,解析segment中由fetch得到的頁面,并進行整理,將頁面分成為parse-date和parse-text,在pars

16、e-date中保存的是頁面的題名、作者、日期、鏈接等內(nèi)容,在parse-text中保存的是頁面的文本內(nèi)容。   (6)更新數(shù)據(jù)庫(updatedb) </p><p>  updatedb操作調(diào)用的是crawl包中的類crawldb,其主要作用是根據(jù)segment目錄下fetch文件夾和parse文件夾中的內(nèi)容,對crawldb進行更新,增加新的URL,更換舊的URL。 </p><p>

17、;<b>  2.索引 </b></p><p><b> ?。?)索引模塊 </b></p><p>  Lucene是Jakarta Apache的開源項目,提供了非常簡單的索引建立方法。在建立文檔類型的對象時,文檔的域(Field)與數(shù)據(jù)庫的表或視圖的結(jié)構(gòu)對應(yīng),因此,可以根據(jù)元數(shù)據(jù)類別控制檢索權(quán)重,還能指定需要索引的域、需要分詞的域等。Lu

18、cene為文檔建立索引的過程,對文檔格式?jīng)]有要求,無論其格式為Html、MS word、Pdf、Excel、XML還是純粹的文本文件,只要能從這些文件中抽取出文本信息即可。為此,Nutch采用了插件機制(plugin),通過各種對應(yīng)的文檔解析器,將文檔轉(zhuǎn)換成純文字字符流。Lucene Analyzer負責(zé)過濾掉標(biāo)點符號和諸如"的、是、了"等無具體意義的字,將字符流轉(zhuǎn)換成各個關(guān)鍵字,對關(guān)鍵字按照“詞典文件(Term D

19、ictionary)、頻率文件(frequencies)、位置文件 (positions)”的結(jié)構(gòu)存入索引文件中。 </p><p><b>  (2)分詞算法 </b></p><p>  不同于英文文章中的空格可以自然區(qū)分每個詞的邊界,中文文章需要對句子加以切分,才能形成詞,這就是分詞算法。系統(tǒng)擬采用包含112967個不同詞的分詞詞典THDic,以逆向最大匹配法(

20、RMM)進行分詞操作。分詞詞典THDic的最大詞組的字數(shù)為17,則從文章或句子的末尾開始17個字為一組,與分詞詞典比對,若吻合則匹配成功,否則去掉第一個字后再次與分詞詞典比對,直至最后一個字。據(jù)統(tǒng)計,這種方法的錯誤率僅為1/245。 </p><p><b> ?。?)檢索 </b></p><p>  筆者通過逐一訪問國內(nèi)100所排名靠前的高校圖書館的網(wǎng)站,得到如下

21、統(tǒng)計數(shù)據(jù):在其主頁設(shè)置統(tǒng)一檢索窗口的占62%,而網(wǎng)站具備統(tǒng)一檢索功能的占83%??梢姡簩τ趽碛袨閿?shù)眾多、異構(gòu)的數(shù)字資源的高校圖書館,實現(xiàn)統(tǒng)一、便捷的一站式檢索方式是提升服務(wù)的必然趨勢。因此,必須設(shè)計制作出簡潔美觀、功能實用的統(tǒng)一檢索界面,通過頁面表單接受用戶的查詢請求,后臺的Tomcat服務(wù)器接受到檢索請求后,對用戶輸入的搜索關(guān)鍵詞進行切詞操作,將切分出的每個詞作為參數(shù)傳遞到Lucene索引文件庫,進行比對查找,如果命中則對搜索的結(jié)果進

22、行排序匯總,反饋給Tomcat服務(wù)器,最終輸出到Web頁面,如果沒有命中則顯示失敗信息。作為用戶方,呈現(xiàn)在頁面上的就是一個類似于百度或谷歌搜索的檢索輸入框,以及按相關(guān)度排序的檢索結(jié)果集。 </p><p>  本文以我國海關(guān)系統(tǒng)對于一個行業(yè)主題領(lǐng)域搜索引擎的迫切需求為出發(fā)點,介紹了搜索引擎、主題型搜索引擎及其相關(guān)技術(shù),著重對如何將目前較為成熟的專業(yè)型Nutch搜索引擎的設(shè)計思想和主要功能應(yīng)用于構(gòu)建個性化搜索引擎的

23、構(gòu)思進行了分析討論。通過分析Nutch的功能、結(jié)構(gòu)和優(yōu)勢,提出了完整的海關(guān)主題型搜索引擎的系統(tǒng)框架模型,進而研究了實現(xiàn)這一系統(tǒng)的各個功能模塊及其實現(xiàn)方法,初步解決了海關(guān)主題搜索引擎及海關(guān)內(nèi)網(wǎng)資源檢索系統(tǒng)的構(gòu)建問題。 </p><p><b>  參考文獻: </b></p><p>  [1]W.Bruce,Croft Search Engines Informati

24、on Retrieval in Practice [M],2009 New Jersey Addison-Wesley. </p><p>  [2]吳敏琦,丁岳偉,基于Nutch的XML網(wǎng)站全文搜索引擎實現(xiàn)[J].計算機工程,2008.34.(15)95-96 </p><p>  [3]嚴(yán)良達,基于Lucene搜索引擎的設(shè)計與實現(xiàn)[J].寧波職業(yè)技術(shù)學(xué)院學(xué)報,2009.13.(2)57

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論