2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一、什么叫搜索引擎?在Inter上有上百億可用的公共Web頁面,即使是最狂熱的沖浪者也不會訪問到所有的頁面,而只能看到其中的一小部分,更不會在這浩瀚的Web海洋中發(fā)現(xiàn)你那即使精彩卻渺小的一隅。當(dāng)然你可以為你的存在做廣告,可以用大大的字把你的URL刻在你的身體上,然后裸體穿過白宮草坪,但你得保證媒體正好在那里,并注視到了這一切。與其這樣做,不如好好去理解搜索引擎是如何工作的?又怎樣選擇和使用“keywds“(關(guān)鍵詞)等等。本文的目的就是讓

2、眾多的頁面設(shè)計(jì)者在了解搜索引擎的基礎(chǔ)上,尋求如何使自己的頁面在搜索引擎索返回的列表中獲得好的排列層次的方法?!八阉饕妗斑@個術(shù)語一般統(tǒng)指真正意義上的搜索引擎(也就是全文檢索搜索引擎)和目錄(即目錄式分類搜索引擎),其實(shí)他們是不一樣的,其區(qū)別主要在于返回的搜索結(jié)果列表是如何編排的。1、目錄目錄(比如Yahoo!)返回的列表是由人工來編排的。這類引擎提供了一份人工按類別編排的網(wǎng)站目錄,各類下邊排列著屬于這一類別的網(wǎng)站的站名和網(wǎng)址鏈接,再記錄

3、一些摘要信息,對該網(wǎng)站進(jìn)行概述性介紹(摘要可能是你提交過去的,也可以是引擎站點(diǎn)的編輯為你的站點(diǎn)所做的評價)。人們搜索時就按相應(yīng)類別的目錄查詢下去。這類引擎往往還伴有網(wǎng)站查詢功能,也稱之為網(wǎng)站檢索,即提供一個文字輸入框和一個按鈕。我們可以在文字框中輸入要查找的字、詞或短語,再點(diǎn)擊按鈕,便會在目錄中查找相關(guān)的站名、網(wǎng)址和內(nèi)容提要,將查到的內(nèi)容列表送過來。目前國內(nèi)Sohoo、常青藤等都是這種搜索方式。2、搜索引擎搜索引擎(如HotBot)是自

4、動創(chuàng)建列表的。搜索引擎看起來與目錄的網(wǎng)站查詢非常相似,也提供一個文字輸入框和按鈕,使用方法也相同,而且有些也提供分類目錄,但兩者卻有本質(zhì)上的區(qū)別。目錄的資料庫中,搜集保存的是各網(wǎng)站的站名、網(wǎng)址和內(nèi)容提要;搜索引擎的資料庫中,搜集保存的則是各網(wǎng)站的每一個網(wǎng)頁的全部內(nèi)容,范圍要大得多。搜索引擎是以全文檢索的方式工作的。全文檢索查到的結(jié)果不是站名、網(wǎng)址和內(nèi)容提要,而是與你輸入的關(guān)鍵詞相關(guān)的一個個網(wǎng)頁的地址和一小段文字。在這段文字中,可能沒有你

5、輸入的那個關(guān)鍵詞,它只是某一網(wǎng)頁的第一段話,甚至是一段無法看懂的標(biāo)記,但在這個網(wǎng)頁中,一定有你所輸入的那個關(guān)鍵詞,或者相關(guān)的詞匯。打個比方說,網(wǎng)站查詢可以查到網(wǎng)上有哪些報紙,如《文匯報》、《大公報》,而全文檢索則可以查到網(wǎng)上這些報紙的每一篇文章中的詞匯。一個搜索引擎由搜索器、索引器、檢索器和用戶接口等四個部分組成。1.搜索器搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集

6、各種類型的新信息,同時因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:●從一個起始URL集合開始,順著這些URL中的超鏈(Hyperlink),以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如Yahoo!)。●將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負(fù)責(zé)一個子空間的窮盡

7、搜索。搜索器搜集的信息類型多種多樣,包括HTML、XML、Newsgroup文章、FTP文件、字處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。2.索引器索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。索引項(xiàng)有客觀索引項(xiàng)和內(nèi)容索引項(xiàng)兩種:客觀項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈

8、接流行度(LinkPopularity)等等;內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng))兩種。單索引項(xiàng)對于英文來講是英語單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格);對于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。在搜索引擎中,一般要給單索引項(xiàng)賦與一個權(quán)值,以表示該索引項(xiàng)對文檔的區(qū)分度,同時用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論