版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、搜索引擎概述搜索引擎概述第一部分:搜索引擎發(fā)展史第二部分:搜索引擎原理第三部分:常用中英文搜索引擎指南第一部分:搜索引擎發(fā)展史第一部分:搜索引擎發(fā)展史1990年以前,沒有任何人能搜索互聯(lián)網(wǎng)。所有搜索引擎的祖先,是1990年由Montreal的McGillUniversity學(xué)生AlanEmtage、PeterDeutsch、BillWheelan發(fā)明的Archie(ArchieFAQ)。雖然當(dāng)時WldWideWeb還未出現(xiàn),但網(wǎng)絡(luò)中文件
2、傳輸還是相當(dāng)頻繁的,由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此AlanEmtage等想到了開發(fā)一個可以用文件名查找文件的系統(tǒng),于是便有了Archie。Archie是第一個自動索引互聯(lián)網(wǎng)上匿名FTP網(wǎng)站文件的程序,但它還不是真正的搜索引擎。Archie是一個可搜索的FTP文件名列表,用戶必須輸入精確的文件名搜索,然后Archie會告訴用戶哪一個FTP地址可以下載該文件。由于Archie深受歡迎,受其啟發(fā),Nevad
3、aSystemComputingServices大學(xué)于1993年開發(fā)了一個Gopher(GopherFAQ)搜索工具Veronica(VeronicaFAQ)。Jughead是后來另一個Gopher搜索工具。Robot(機器人)一詞對編程者有特殊的意義。ComputerRobot是指某個能以人類無法達(dá)到的速度不斷重復(fù)執(zhí)行某項任務(wù)的自動程序。由于專門用于檢索信息的Robot程序象蜘蛛(spider)一樣在網(wǎng)絡(luò)間爬來爬去,因此,搜索引擎的R
4、obot程序被稱為spider(SpiderFAQ)程序。世界上第一個Spider程序,是MITMatthewGray的WldwideWebWerer,用于追蹤互聯(lián)網(wǎng)發(fā)展規(guī)模。剛開始它只用來統(tǒng)計互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為也能夠捕獲網(wǎng)址(URL)。與Werer相對應(yīng),1993年10月MartijnKoster創(chuàng)建了ALIWEB(MartijnKosterAnnoucestheAvailabilityofAliweb),它相當(dāng)于Ar
5、chie的HTTP版本。ALIWEB不使用網(wǎng)絡(luò)搜尋Robot,如果網(wǎng)站主管們希望自己的網(wǎng)頁被ALIWEB收錄,需要自己提交每一個網(wǎng)頁的簡介索引信息,類似于后來大家熟知的Yahoo。University的MichaelMauldin將JohnLeavitt的spider程序接入到其索引程序中,創(chuàng)建了Lycos。1994年7月20日,數(shù)據(jù)量為54000的Lycos正式發(fā)布。除了相關(guān)性排序外,Lycos還提供了前綴匹配和字符相近限制,Lyco
6、s第一個在搜索結(jié)果中使用了網(wǎng)頁自動摘要,而最大的優(yōu)勢還是它遠(yuǎn)勝過其它搜索引擎的數(shù)據(jù)量:1994年8月--394000documents;1995年1月--1.5milliondocuments;1996年11月--over60milliondocuments。(注:1999年4月,Lycos停止自己的Spider,改由Fast提供搜索引擎服務(wù))Infoseek(SteveKirschAnnouncesFreeDemosOftheInfo
7、seekSearchEngine)是另一個重要的搜索引擎,雖然公司聲稱1994年1月已創(chuàng)立,但直到年底它的搜索引擎才與公眾見面。起初,Infoseek只是一個不起眼的搜索引擎,它沿襲Yahoo!和Lycos的概念,并沒有什么獨特的革新。但是它的發(fā)展史和后來受到的眾口稱贊證明,起初是否第一個登臺并不總是很重要。Infoseek的友善用戶界面、大量附加服務(wù)(suchasUPStrackingNewsadirectythelike)使它聲望日
8、隆。而1995年12月與scape的戰(zhàn)略性協(xié)議,使它成為一個強勢搜索引擎:當(dāng)用戶點擊scape瀏覽器上的搜索按鈕時,彈出Infoseek的搜索服務(wù),而此前由Yahoo!提供該服務(wù)。(注:Infoseek后來曾以相關(guān)性聞名,2001年2月,Infoseek停止了自己的搜索引擎,開始改用Overture的搜索結(jié)果)1995年,一種新的搜索引擎形式出現(xiàn)了——元搜索引擎(AMetaSearchEngineRoundup)。用戶只需提交一次搜索請
9、求,由元搜索引擎負(fù)責(zé)轉(zhuǎn)換處理后提交給多個預(yù)先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結(jié)果,集中起來處理后再返回給用戶。第一個元搜索引擎,是Washington大學(xué)碩士生EricSelberg和enEtzioni的Metacrawler。(注:元搜索引擎概念上好聽,但搜索效果始終不理想,所以沒有哪個元搜索引擎有過強勢地位。)DEC的AltaVista(2001年夏季起部分網(wǎng)友需通過proxy訪問,無proxy可用qbseac
10、h單選altavista搜索,只能顯示第一頁搜索結(jié)果)是一個遲到者,1995年12月才登場亮相(AltaVistaPublicBetaPressRelease)。但是,大量的創(chuàng)新功能使它迅速到達(dá)當(dāng)時搜索引擎的頂峰。Altavista最突出的優(yōu)勢是它的速度(搜索引擎9238:比較搞笑,設(shè)計altavista的目的,據(jù)說只是為了展示DECAlpha芯片的強大運算能力)。而Altavista的另一些新功能,則永遠(yuǎn)改變了搜索引擎的定義。Alta
11、Vista是第一個支持自然語言搜索的搜索引擎,AltaVista是第一個實現(xiàn)高級搜索語法的搜索引擎(如NOT等)。用戶可以用AltaVista搜索Newsgroups(新聞組)的內(nèi)容并從互聯(lián)網(wǎng)上獲得文章,還可以搜索圖片名稱中的文字、搜索Titles、搜索Javaapplets、搜索ActiveXobjects。AltaVista也聲稱是第一個支持用戶自己向網(wǎng)頁索引庫提交或刪除URL的搜索引擎,并能在24小時內(nèi)上線。AltaVista最有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論