預(yù)測數(shù)據(jù)空間檢索使用概率的隱藏的信息.pdf_第1頁
已閱讀1頁,還剩131頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、由于并非所有的相關(guān)數(shù)據(jù)能有效地融入單一數(shù)據(jù)模型,因此現(xiàn)在絕大多數(shù)的數(shù)據(jù)組織依賴于海量的多種數(shù)據(jù)源。數(shù)據(jù)空間定義為一個(gè)虛擬的空間,它管理多種數(shù)據(jù)源且并不考慮數(shù)據(jù)結(jié)構(gòu)及物理位置,因此數(shù)據(jù)源是異構(gòu)的。由于管理多種數(shù)據(jù)模型的數(shù)據(jù)源的需求越來越多,因此對智能管理系統(tǒng)的需求逐漸增多。這種智能管理系統(tǒng)可以提供對異構(gòu)和分布式數(shù)據(jù)源的訪問。并且可以將其看作是一個(gè)單一的信息源用于搜索及查詢。
  由于數(shù)據(jù)空間中存在的海量數(shù)據(jù)源,迅速準(zhǔn)確地從數(shù)據(jù)源中查

2、詢到用戶的請求是一個(gè)非常大的挑戰(zhàn)。并且,現(xiàn)有的許多查詢系統(tǒng)專注于對數(shù)據(jù)源信息的研究,而對于用戶的查詢請求方面,即對于用戶查詢意圖及相關(guān)度的研究則較少涉及。比如,現(xiàn)有的圖像檢索系統(tǒng)仍舊只局限于基于關(guān)鍵詞的查詢,而這種查詢方式的局限性在于,關(guān)鍵詞本身不能很好地描述圖像信息的全部屬性。一個(gè)精確匹配查詢不能很好地運(yùn)用于這樣的查詢系統(tǒng)。比如英語查詢詞“l(fā)ung cancer”在法語、中文或者德語中的發(fā)音及拼寫是各不相同的??偠灾?,數(shù)據(jù)空間檢測處

3、理需要一個(gè)并行的優(yōu)化策略,以期能夠有效地處理一組異構(gòu)數(shù)據(jù)源信息。
  本文主要研究基于用戶相關(guān)度概率策略的數(shù)據(jù)空間完備信息查詢系統(tǒng)的設(shè)計(jì)。本文的主要研究點(diǎn)如下:
  首先,我們提出了一種基于XML信息的圖像檢索系統(tǒng)(XIRS),該系統(tǒng)可以在單一數(shù)據(jù)源中檢索圖像。用戶可以使用一幅樣例圖像或者關(guān)鍵詞作為查詢請求,而兩幅圖像的相似性可以利用圖像對應(yīng)的兩個(gè)XML節(jié)點(diǎn)相似性來度量。此外,我們進(jìn)一步將XIRS系統(tǒng)擴(kuò)展成XIRD系統(tǒng),該系

4、統(tǒng)可以利用一組異構(gòu)數(shù)據(jù)源信息來實(shí)現(xiàn)圖像檢索。
  其次,由于基于預(yù)測數(shù)據(jù)源信息的檢索過程可能隱含著檢索結(jié)果信息,我們構(gòu)建了一種信息隱藏模型(IHM),該模型融合了用戶感知文檔間相似性的信息。IHM模型使用一組分割后的查誨語句和一組異構(gòu)數(shù)據(jù)源信息,并據(jù)此計(jì)算出最相似路徑用于數(shù)據(jù)查詢。這里我們提出了三種不同的學(xué)習(xí)策略,即用戶潛在的查誨習(xí)慣(UHH),用戶潛在背景(UHB)以及用戶潛在關(guān)鍵詞語義信息(UHS).上述三種學(xué)習(xí)策略可以更好地

5、表達(dá)用戶的主觀查詢意圖,并據(jù)此改進(jìn)檢索性能。
  再次,我們提出了一種優(yōu)化算法以改進(jìn)概率處理過程的性能,該優(yōu)化算法命名為一種使用預(yù)測模型的兩階段信息檢索算法(2PROM)。2PROM算法采用兩步驟來優(yōu)化數(shù)據(jù)空間檢索過程。第一步構(gòu)建一個(gè)管道通路來尋找最優(yōu)的檢索策略。而在第二步中,將檢索策略和預(yù)測模型相融合以確定出最有效的查詢通路執(zhí)行查詢操作。
  最后,為了進(jìn)一步論證本文所提算法的有效性,我們將所提算法運(yùn)用到一個(gè)實(shí)際系統(tǒng)中,即

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論