信息存儲與檢2_第1頁
已閱讀1頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、《信息存儲與檢索信息存儲與檢索》課程實(shí)驗(yàn)報(bào)告課程實(shí)驗(yàn)報(bào)告開課實(shí)驗(yàn)室:開課實(shí)驗(yàn)室:2011年11月5日學(xué)院年級、專業(yè)、班姓名成績課程名稱實(shí)驗(yàn)項(xiàng)目名稱網(wǎng)絡(luò)搜索引擎指導(dǎo)教師教師評語教師簽名:年月日一、實(shí)驗(yàn)?zāi)康囊?、?shí)驗(yàn)?zāi)康恼莆站W(wǎng)絡(luò)檢索的主要工具(特別是Google)的基本使用方法、技巧和步驟,采集并了解網(wǎng)絡(luò)搜索引擎的工作原理,采集并了解Google公司的發(fā)展歷史、技術(shù)進(jìn)展與企業(yè)經(jīng)營戰(zhàn)略和企業(yè)文化。二、實(shí)驗(yàn)步驟二、實(shí)驗(yàn)步驟1了解網(wǎng)絡(luò)檢索的主要工具

2、2掌握其(特別是Google與Baidu)基本使用方法、技巧和步驟。3自己熟悉應(yīng)用搜索引擎查找所需信息4總結(jié)網(wǎng)絡(luò)搜索引擎的工作原理、結(jié)構(gòu)與流程。5利用搜索引擎收集整理并寫出本虛擬企業(yè)所處行業(yè)的發(fā)展?fàn)顩r的評述6了解谷歌、百度公司的發(fā)展歷史、技術(shù)進(jìn)展與企業(yè)經(jīng)營戰(zhàn)略和企業(yè)文化了解谷歌、百度公司的發(fā)展歷史、技術(shù)進(jìn)展與企業(yè)經(jīng)營戰(zhàn)略和企業(yè)文化7談?wù)劸W(wǎng)絡(luò)搜索引擎未來的發(fā)展趨勢談?wù)劸W(wǎng)絡(luò)搜索引擎未來的發(fā)展趨勢三、實(shí)驗(yàn)結(jié)果及分析三、實(shí)驗(yàn)結(jié)果及分析隨著互聯(lián)網(wǎng)

3、的迅速發(fā)展,網(wǎng)上信息夜以驚人的速度增長,為了快速地檢索網(wǎng)上信息,隨著互聯(lián)網(wǎng)的迅速發(fā)展,網(wǎng)上信息夜以驚人的速度增長,為了快速地檢索網(wǎng)上信息,人馬開發(fā)了一種信息檢索工具,即搜索引擎。搜索引擎實(shí)際上就是對人馬開發(fā)了一種信息檢索工具,即搜索引擎。搜索引擎實(shí)際上就是對wwwwww站點(diǎn)資源和其他站點(diǎn)資源和其他網(wǎng)絡(luò)資源進(jìn)行標(biāo)引并提供檢索服務(wù)的服務(wù)器或網(wǎng)站,是一個(gè)基于互聯(lián)網(wǎng)的信息搜集、組織網(wǎng)絡(luò)資源進(jìn)行標(biāo)引并提供檢索服務(wù)的服務(wù)器或網(wǎng)站,是一個(gè)基于互聯(lián)網(wǎng)的

4、信息搜集、組織和用戶查詢的平臺。和用戶查詢的平臺。搜索引擎的基本功能就是它的檢索功能。隨著信息技術(shù)的發(fā)展,搜索引擎又具備了一搜索引擎的基本功能就是它的檢索功能。隨著信息技術(shù)的發(fā)展,搜索引擎又具備了一些高級檢索功能,如加權(quán)檢索、自然語言檢索、多語種檢索、區(qū)分大小寫的檢索。相關(guān)信些高級檢索功能,如加權(quán)檢索、自然語言檢索、多語種檢索、區(qū)分大小寫的檢索。相關(guān)信息反饋、模糊檢索和概念檢索等。息反饋、模糊檢索和概念檢索等。搜索引擎是一個(gè)集多種技術(shù)于

5、一體的綜合性網(wǎng)絡(luò)應(yīng)用系統(tǒng),包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技搜索引擎是一個(gè)集多種技術(shù)于一體的綜合性網(wǎng)絡(luò)應(yīng)用系統(tǒng),包括網(wǎng)絡(luò)技術(shù)、數(shù)據(jù)庫技術(shù)、自動標(biāo)引技術(shù)、檢索技術(shù)、自動分類技術(shù)、機(jī)器學(xué)習(xí)人工智能技術(shù)等。雖然它們術(shù)、自動標(biāo)引技術(shù)、檢索技術(shù)、自動分類技術(shù)、機(jī)器學(xué)習(xí)人工智能技術(shù)等。雖然它們表現(xiàn)為不同的形勢,但基本上有收集器、索引器、檢索器和用戶接口表現(xiàn)為不同的形勢,但基本上有收集器、索引器、檢索器和用戶接口4部分組成。部分組成。的結(jié)果進(jìn)行排序,返回相應(yīng)的網(wǎng)

6、頁給用戶;的結(jié)果進(jìn)行排序,返回相應(yīng)的網(wǎng)頁給用戶;4)查詢器的作用是接納用戶查詢,顯示查詢結(jié)果,提供個(gè)性化查詢項(xiàng)。)查詢器的作用是接納用戶查詢,顯示查詢結(jié)果,提供個(gè)性化查詢項(xiàng)。索引器的好壞直接影響搜索引擎的質(zhì)量,索引器從搜索器獲取的資源中抽取信息,并索引器的好壞直接影響搜索引擎的質(zhì)量,索引器從搜索器獲取的資源中抽取信息,并建立利于檢索的索引表。目前搜索引擎中最流行也最有效的索引方式是倒排文件,先建立利于檢索的索引表。目前搜索引擎中最流行也

7、最有效的索引方式是倒排文件,先將切詞形成的順排文件組織成索引數(shù)據(jù),然后再進(jìn)行倒排處理。將切詞形成的順排文件組織成索引數(shù)據(jù),然后再進(jìn)行倒排處理。1.1.搜索器搜索器搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,搜索器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息。它常常是一個(gè)計(jì)算機(jī)程序,日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同時(shí)因?yàn)榛ヂ?lián)日夜不停地運(yùn)行。它要盡可能多、盡可能快地搜集各種類型的新信息,同

8、時(shí)因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死連接和無效連接。目前有兩種搜集信息的策略:連接。目前有兩種搜集信息的策略:從一個(gè)起始從一個(gè)起始URLURL集合開始,順著這些集合開始,順著這些URLURL中的超鏈(中的超鏈(HyperlinkHyperlink),以寬度優(yōu)先、深,以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些

9、起始度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息。這些起始URLURL可以是任意的可以是任意的URLURL,但,但常常是一些非常流行、包含很多鏈接的站點(diǎn)(如常常是一些非常流行、包含很多鏈接的站點(diǎn)(如YahooYahoo?。。?。將WebWeb空間按照域名、空間按照域名、IPIP地址或國家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡地址或國家域名劃分,每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的窮盡搜索。搜索。搜索器搜集的信息類型多種多樣,包括搜索器搜集的信息類

10、型多種多樣,包括HTMLHTML、XMLXML、NewsgroupNewsgroup文章、文章、FTPFTP文件、字文件、字處理文檔、多媒體信息。處理文檔、多媒體信息。搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索器的實(shí)現(xiàn)常常用分布式、并行計(jì)算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。商業(yè)搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。搜索引擎的信息發(fā)現(xiàn)可以達(dá)到每天幾百萬網(wǎng)頁。GoogleGoogle的蜘蛛程序的蜘蛛程序

11、SpiderSpider對網(wǎng)頁數(shù)據(jù)的抓取是通過讀取網(wǎng)頁文本內(nèi)容,并順著頁面中對網(wǎng)頁數(shù)據(jù)的抓取是通過讀取網(wǎng)頁文本內(nèi)容,并順著頁面中的鏈接層層深入,從而獲得對全站內(nèi)容的抓取。有一些網(wǎng)頁制作技術(shù)如框架結(jié)構(gòu)的鏈接層層深入,從而獲得對全站內(nèi)容的抓取。有一些網(wǎng)頁制作技術(shù)如框架結(jié)構(gòu)(frameframe:幀):幀)、FlashFlash等生成的網(wǎng)頁內(nèi)容是蜘蛛程序比較排斥、不愿意抓取的,因此內(nèi)等生成的網(wǎng)頁內(nèi)容是蜘蛛程序比較排斥、不愿意抓取的,因此內(nèi)嵌于

12、其中的文字或鏈接往往被蜘蛛忽略了,從而影響到對全站重要數(shù)據(jù)的抓取。要想嵌于其中的文字或鏈接往往被蜘蛛忽略了,從而影響到對全站重要數(shù)據(jù)的抓取。要想知道某個(gè)網(wǎng)頁的內(nèi)容能否被知道某個(gè)網(wǎng)頁的內(nèi)容能否被GoogleGoogle蜘蛛正常抓取到,可以借用蜘蛛蜘蛛正常抓取到,可以借用蜘蛛SpiderSpider模擬程序,模擬程序,它羅列出一頁中能夠讀到的所有文本,以及能夠進(jìn)入的所有鏈接,以幫助診斷重要網(wǎng)它羅列出一頁中能夠讀到的所有文本,以及能夠進(jìn)入的所

13、有鏈接,以幫助診斷重要網(wǎng)頁內(nèi)容是否可見。頁內(nèi)容是否可見。網(wǎng)絡(luò)營銷網(wǎng)絡(luò)營銷指南將指南將搜索引擎搜索引擎蜘蛛模擬器視作重要的蜘蛛模擬器視作重要的搜索引擎搜索引擎優(yōu)化檢測優(yōu)化檢測工具之一。工具之一。搜索器在工作過程中主要需考慮以下幾個(gè)問題:搜索器在工作過程中主要需考慮以下幾個(gè)問題:(1)Web(1)Web信息的選擇信息的選擇在大多數(shù)情況下,搜索器不可能搜集所有在大多數(shù)情況下,搜索器不可能搜集所有WebWeb信息,只能選擇下載其中一部分。這樣,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論