2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、一、搜索類型一、搜索類型1.全文索引全文索引引擎是名副其實(shí)的搜索引擎,國外代表有Google,國內(nèi)知名的百度搜索。它們從互聯(lián)網(wǎng)提取各個(gè)網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起數(shù)據(jù)庫,并能檢索與用戶查詢條件相匹配的記錄,按一定的排列順序返回結(jié)果。根據(jù)搜索結(jié)果來源的不同,全文搜索引擎可分為兩類:一類擁有自己的網(wǎng)頁抓取、索引、檢索系統(tǒng)(Indexer),有獨(dú)立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機(jī)器人”(Robot)程序

2、(這三種稱法意義相同),能自建網(wǎng)頁數(shù)據(jù)庫,搜索結(jié)果直接從自身的數(shù)據(jù)庫中調(diào)用,上面提到的Google和百度就屬于此類;另一類則是租用其他搜索引擎的數(shù)據(jù)庫,并按自定的格式排列搜索結(jié)果,如Lycos搜索引擎。2.目錄索引目錄索引雖然有搜索功能,但嚴(yán)格意義上不能稱為真正的搜索引擎,只是按目錄分類的網(wǎng)站鏈接列表而已。用戶完全可以按照分類目錄找到所需要的信息,不依靠關(guān)鍵詞(Keywds)進(jìn)行查詢。目錄索引中最具代表性的莫過于大名鼎鼎的Yahoo、新

3、浪分類目錄搜索。3.元搜索引擎元搜索引擎(METASearchEngine)接受用戶查詢請求后,同時(shí)在多個(gè)搜索引擎上搜索,并將結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的是搜星搜索引擎。在搜索結(jié)果排列方面,有的直接按來源排列搜索結(jié)果,如Dogpile;有的則按自定的規(guī)則將結(jié)果重新排列組合,如Vivisimo?!鞍俟然ⅰ眀aigoohoo由于某家新聞媒體的報(bào)道,最近聲

4、名大振,高舉著“山寨”大旗,讓國人開始了解什么是山寨搜索引擎,名字極富創(chuàng)意??上в捎谒阉鹘Y(jié)果被并排擠在一起,似乎沒有什么實(shí)際使用價(jià)值。4.其他非主流搜索引擎形式:垂直搜索引擎、集合式~、門戶~、免費(fèi)鏈接列表~二、搜索原理二、搜索原理1.抓取網(wǎng)頁每個(gè)獨(dú)立的搜索引擎都有自己的網(wǎng)頁抓取程序(spider)。Spider順著網(wǎng)頁中的超鏈接,連續(xù)地抓取網(wǎng)頁。被抓取的網(wǎng)頁被稱之為網(wǎng)頁快照。由于互聯(lián)網(wǎng)中超鏈接的應(yīng)用很普遍,理論上,從一定范圍的網(wǎng)頁出發(fā)

5、,就能搜集到絕大多數(shù)的網(wǎng)頁。2.處理網(wǎng)頁搜索引擎抓到網(wǎng)頁后,還要做大量的預(yù)處理工作,才能提供檢索服務(wù)。其中,最重要的就是提取關(guān)鍵詞,建立索引文件。其他還包括去除重復(fù)網(wǎng)頁、分詞(中文)、判斷網(wǎng)頁類型、分析超鏈接、計(jì)算網(wǎng)頁的重要度豐富度等。3.提供檢索服務(wù)用戶輸入關(guān)鍵詞進(jìn)行檢索,搜索引擎從索引數(shù)據(jù)庫中找到匹配該關(guān)鍵詞的網(wǎng)頁;為了用戶便于判斷,除了網(wǎng)頁標(biāo)題和URL外,還會提供一段來自網(wǎng)頁的摘要以及其他信息。全文搜索引擎原理:在搜索引擎分類部分

6、我們提到過全文搜索引擎從網(wǎng)站提取信息建立網(wǎng)頁數(shù)據(jù)庫的概念。搜索引擎的自動信息搜集功能分兩種。一種是定期搜索,即每隔一段時(shí)間(比如Google一般是28天),搜索引擎主動派出“蜘蛛”程序,對一定IP地址范圍內(nèi)的互聯(lián)網(wǎng)站進(jìn)行檢索,一旦發(fā)現(xiàn)新的網(wǎng)站,它會自動提取網(wǎng)站的信息和網(wǎng)址加入自己的數(shù)據(jù)庫。另一種是提交網(wǎng)站搜索,即網(wǎng)站擁有者主動向搜索引擎提交網(wǎng)址,它在一定時(shí)間內(nèi)(2天到數(shù)月不等)定向向你的網(wǎng)站派出“蜘蛛”程序,掃描你的網(wǎng)站并將有關(guān)信息存入

7、數(shù)一個(gè)完全投資項(xiàng)目,他們還發(fā)布了一個(gè)供webmasters在自己網(wǎng)站上使用的搜索軟件版本,后來被叫做ExcitefWebServers。注:Excite后來曾以概念搜索聞名,2002年5月,被Infospace收購的Excite停止自己的搜索引擎,改用元搜索引擎Dogpile發(fā)展(3)1994年4月,斯坦福大學(xué)的兩名博士生,美籍華人楊致遠(yuǎn)和DavidFilo共同創(chuàng)辦了Yahoo!。隨著訪問量和收錄鏈接數(shù)的增長,Yahoo目錄開始支持簡單

8、的數(shù)據(jù)庫搜索。因?yàn)閅ahoo!的數(shù)據(jù)是手工輸入的,所以不能真正被歸為搜索引擎,事實(shí)上只是一個(gè)可搜索的目錄。Yahoo!中收錄的網(wǎng)站,因?yàn)槎几接泻喗樾畔?,所以搜索效率明顯提高。注:Yahoo以后陸續(xù)有Altavista、Inktomi、Google提供搜索引擎服務(wù)Yahoo!--幾乎成為20世紀(jì)90年代的因特網(wǎng)的代名詞。發(fā)展(4)1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(MetaSearchEngine)。用戶只需提交一次搜索

9、請求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個(gè)預(yù)先選定的獨(dú)立搜索引擎,并將從各獨(dú)立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個(gè)元搜索引擎,是Washington大學(xué)碩士生EricSelberg和enEtzioni的Metacrawler。元搜索引擎概念上非常好聽,但搜索效果始終不理想,所以沒有哪個(gè)元搜索引擎有過強(qiáng)勢地位。發(fā)展(5)智能檢索的產(chǎn)生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進(jìn)一步還可在知識層面或者說概念

10、層面上輔助查詢,通過主題詞典、上下位詞典、相關(guān)同級詞典檢索處理形成一個(gè)知識體系或概念網(wǎng)絡(luò),給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果。例:(1)查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來;(2)可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇;(3)還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國”的區(qū)分

11、,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。發(fā)展(7)網(wǎng)格技術(shù)(greatglobalgrid):由于沒有統(tǒng)一的信息組織標(biāo)準(zhǔn)對網(wǎng)絡(luò)信息資源進(jìn)行加工處理,難以對無序的網(wǎng)絡(luò)信息資源進(jìn)行檢索、交接和共享乃至深層次的開發(fā)利用,形成信息孤島。網(wǎng)格技術(shù)就是要消除信息孤島實(shí)現(xiàn)互聯(lián)網(wǎng)上所有資源的全面連通。公司介紹1998年10月之前,Google只是斯坦福大學(xué)(StanfdU

12、niversity)的一個(gè)小項(xiàng)目BackRub。1995年博士生LarryPage開始學(xué)習(xí)搜索引擎設(shè)計(jì),于1997年9月15日注冊了域名,1997年底,在SergeyBrin和ScottHassan、AlanSteremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認(rèn)作自己的生日。Google以網(wǎng)頁級別(Pagerank)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論