2023年全國(guó)碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩135頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、XML作為互聯(lián)網(wǎng)上信息描述和數(shù)據(jù)交換事實(shí)上的標(biāo)準(zhǔn),已經(jīng)被業(yè)界廣泛采用。隨著Web上大量XML文檔的涌現(xiàn),如何對(duì)XML文檔進(jìn)行有效的檢索成為了一個(gè)具有實(shí)際應(yīng)用價(jià)值的重要研究課題。由于XML文檔是一種半結(jié)構(gòu)化的數(shù)據(jù),具有明顯的結(jié)構(gòu)標(biāo)記,可表達(dá)一定的語義信息。因此,可以利用XML文檔所含有的結(jié)構(gòu)信息,改進(jìn)傳統(tǒng)的基于關(guān)鍵詞的信息檢索,從而提供更加全面準(zhǔn)確的檢索結(jié)果。但是,由于XML文檔結(jié)構(gòu)的復(fù)雜性、異構(gòu)性以及可擴(kuò)展性,使得如何在信息檢索的過程中

2、有效利用XML文檔的結(jié)構(gòu)信息成為了XML信息檢索所面臨的首個(gè)挑戰(zhàn)。
   源于數(shù)據(jù)庫的XML查詢語言可以表達(dá)復(fù)雜的信息需求,但是要形成有效的結(jié)構(gòu)化查詢對(duì)于最終用戶來說是非常困難的事情。因?yàn)橛脩艨赡懿⒉皇煜の臋n結(jié)構(gòu),所以很難提出準(zhǔn)確的“內(nèi)容+結(jié)構(gòu)”的結(jié)構(gòu)化查詢。基于關(guān)鍵詞的XML信息檢索依然面臨著用戶需求表達(dá)模糊的問題。XML信息檢索實(shí)際上也是一個(gè)交互式的檢索過程,相關(guān)反饋、檢索結(jié)果聚類等交互式信息檢索技術(shù)在XML信息檢索中依然存

3、在,而且有其獨(dú)特的特點(diǎn)。例如,如何利用關(guān)鍵詞檢索的簡(jiǎn)單性迅速返回查詢結(jié)果,然后根據(jù)用戶的相關(guān)反饋等信息,系統(tǒng)自動(dòng)形成或幫助用戶形成內(nèi)容+結(jié)構(gòu)查詢,以清晰地表達(dá)用戶信息需求;如何根據(jù)XML文檔的內(nèi)容和結(jié)構(gòu)特征聚類XML信息檢索結(jié)果,以幫助用戶迅速找到滿足其需求的信息。因此,如何利用交互式信息檢索技術(shù)改進(jìn)XML信息檢索的準(zhǔn)確性是XML信息檢索所面臨的又一個(gè)挑戰(zhàn)。
   本文從XML信息檢索所面臨的這兩個(gè)挑戰(zhàn)入手展開研究,以XML文檔

4、交互式信息檢索技術(shù)作為研究課題,主要研究?jī)蓚€(gè)問題:第一個(gè)問題是如何有效地結(jié)合結(jié)構(gòu)信息和內(nèi)容信息實(shí)現(xiàn)XML信息檢索,主要包括XML節(jié)點(diǎn)編碼、索引、檢索模型和查詢處理算法;第二個(gè)問題是如何進(jìn)一步解決XML信息檢索中同樣存在著的用戶信息需求表達(dá)模糊的問題,即研究相關(guān)反饋、檢索結(jié)果聚類等交互式XML信息檢索的一些關(guān)鍵技術(shù)。本文所做的主要工作和貢獻(xiàn)包括以下幾個(gè)部分:
   1) XML節(jié)點(diǎn)編碼模式及索引結(jié)構(gòu)的研究。提出了一種新穎有效的節(jié)點(diǎn)

5、編碼模式,詳細(xì)論述了該節(jié)點(diǎn)編碼模式的定義和性質(zhì)。在這個(gè)新的節(jié)點(diǎn)編碼模式的基礎(chǔ)上,構(gòu)建了一種有效地集成結(jié)構(gòu)索引和文本內(nèi)容索引的混合索引結(jié)構(gòu)HID。該混合索引結(jié)構(gòu)HID能夠有效地支持XML信息檢索,包括關(guān)鍵詞檢索和結(jié)構(gòu)化查詢。對(duì)比實(shí)驗(yàn)結(jié)果表明本文所提出的新的混合索引結(jié)構(gòu)HID在索引構(gòu)建時(shí)間和空間消耗上具有較佳的性能。
   2) XML信息檢索模型及查詢處理算法的研究。提出了一種用于XML信息檢索的模糊結(jié)構(gòu)向量空間模型。通過將文本內(nèi)

6、容特征詞的概念擴(kuò)展為結(jié)構(gòu)化特征詞,對(duì)向量空間模型進(jìn)行擴(kuò)展,使其能夠包含結(jié)構(gòu)信息的匹配和度量;同時(shí)將特征詞在文檔中出現(xiàn)的概念由一個(gè)精確的集合隸屬關(guān)系,擴(kuò)展為一個(gè)模糊集合隸屬度的概念,以實(shí)現(xiàn)內(nèi)容和結(jié)構(gòu)信息的整體匹配,而且能夠區(qū)別結(jié)構(gòu)的匹配程度,建模不同程度的匹配為不同程度的重要性。該檢索模型可統(tǒng)一建模關(guān)鍵詞查詢、標(biāo)記關(guān)鍵詞查詢和路徑關(guān)鍵詞查詢。最后給出了有效實(shí)現(xiàn)檢索模型相應(yīng)的查詢處理算法,并實(shí)現(xiàn)了一個(gè)XML信息檢索原型系統(tǒng)。對(duì)比實(shí)驗(yàn)結(jié)果表明

7、本文所構(gòu)建的XML信息檢索原型系統(tǒng)具有較高的檢索準(zhǔn)確率和較快的查詢響應(yīng)時(shí)間。
   3) XML信息檢索相關(guān)反饋技術(shù)研究。提出了一種新的結(jié)合內(nèi)容和結(jié)構(gòu)的XML信息檢索結(jié)構(gòu)化相關(guān)反饋方法,能夠有效地結(jié)合內(nèi)容和結(jié)構(gòu)特征等多種證據(jù)源,實(shí)現(xiàn)將初始的關(guān)鍵詞查詢擴(kuò)展為內(nèi)容+結(jié)構(gòu)的結(jié)構(gòu)化查詢。該結(jié)構(gòu)化相關(guān)反饋方法通過內(nèi)容查詢?cè)~擴(kuò)展、查詢?cè)~路徑擴(kuò)展和檢索元素粒度相關(guān)反饋三種算法擴(kuò)展初始的關(guān)鍵詞查詢。內(nèi)容查詢?cè)~的擴(kuò)展和重新權(quán)重綜合考慮了出現(xiàn)特征詞

8、的相關(guān)公共元素的數(shù)目、特征詞在相關(guān)元素中的重要性、特征詞鄰接距離和結(jié)構(gòu)語義等多種證據(jù)。實(shí)驗(yàn)結(jié)果表明本文所提出的結(jié)構(gòu)化查詢相關(guān)反饋方法可以有效地改進(jìn)XML信息檢索的準(zhǔn)確率。
   4) XML信息檢索結(jié)果聚類技術(shù)研究。針對(duì)XML文檔的特點(diǎn),提出了一種新的結(jié)合內(nèi)容和結(jié)構(gòu)特征的XML文檔特征建模方法,能夠有效地度量XML信息檢索結(jié)果文檔片斷間的相似性。將XML信息檢索結(jié)果聚類問題建模為k-中心聚類問題,通過改進(jìn)解決k-中心聚類問題的貪

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論