2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩227頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)義萬(wàn)維網(wǎng)通過賦予信息明確的結(jié)構(gòu)和語(yǔ)義,使得機(jī)器不僅可以顯示這些信息,更能夠理解、處理和整合它們。近年來(lái),隨著鏈接開放數(shù)據(jù)和DBpedia等項(xiàng)目的全面展開,語(yǔ)義Web數(shù)據(jù)源的數(shù)量激增,大量以R D F為數(shù)據(jù)模型的圖結(jié)構(gòu)語(yǔ)義數(shù)據(jù)被發(fā)布?;ヂ?lián)網(wǎng)正從僅包含網(wǎng)頁(yè)和網(wǎng)頁(yè)之間超鏈接的文檔萬(wàn)維網(wǎng)轉(zhuǎn)變成包含大量描述各種實(shí)體和實(shí)體之間豐富關(guān)系的數(shù)據(jù)萬(wàn)維網(wǎng)。在這種背景下,以谷歌為代表的各大搜索引擎公司紛紛以此為基礎(chǔ)構(gòu)建知識(shí)圖譜來(lái)改善搜索質(zhì)量,從而拉開了語(yǔ)義

2、搜索的序幕。
  與傳統(tǒng)的文檔檢索不同,語(yǔ)義搜索需要處理粒度更細(xì)的結(jié)構(gòu)化語(yǔ)義數(shù)據(jù),因此也面臨著更大的前所未有的挑戰(zhàn)。原有成熟的針對(duì)非結(jié)構(gòu)化的Web文檔的存儲(chǔ)與索引技術(shù)對(duì)RDF數(shù)據(jù)不再適用。現(xiàn)有的排序算法也不能直接應(yīng)用到面向?qū)嶓w和關(guān)聯(lián)的語(yǔ)義搜索中。SPARQL查詢支持和面向異構(gòu)語(yǔ)義數(shù)據(jù)源的數(shù)據(jù)整合是全新的問題。此外,支持用戶熟悉的核心詞查詢對(duì)于語(yǔ)義搜索推廣的至關(guān)重要。
  本文旨在全面系統(tǒng)地解決了面向大規(guī)模RDF數(shù)據(jù)的語(yǔ)義搜索

3、所面臨的挑戰(zhàn):支持大規(guī)模圖數(shù)據(jù)存儲(chǔ)與索引,支持包含核心詞的圖結(jié)構(gòu)查詢,支持以實(shí)體為中心的結(jié)構(gòu)化排序,支持面向多數(shù)據(jù)源的異構(gòu)數(shù)據(jù)融合,和支持友好的用戶交互等。論文各章的主要內(nèi)容和貢獻(xiàn)如下列出:
  第一章為緒論,介紹了研宄背景,總結(jié)了語(yǔ)義搜索的國(guó)內(nèi)外研宄現(xiàn)狀并詳細(xì)描述了面向大規(guī)模RDF的語(yǔ)義搜索所面臨的主要挑戰(zhàn)。
  第二章首次使用信息檢索的方法來(lái)搜索數(shù)據(jù)萬(wàn)維網(wǎng)。通過利用和擴(kuò)展倒排索引來(lái)支持高效的單變量樹型混合式查詢處理。在此

4、基礎(chǔ)上,我提出了一種基于關(guān)系的排序算法來(lái)返回相關(guān)的實(shí)體,使用分面瀏覽來(lái)允許用戶交互性地構(gòu)造混合式查詢,以及基于塊的索引來(lái)支持增量式索引更新。
  第三章擴(kuò)展了第二章的結(jié)構(gòu)化查詢能力,提出了一個(gè)高效的RDF查詢引擎來(lái)執(zhí)行更一般的SPARQL查詢。此外,我通過收集特定的RDF統(tǒng)計(jì)信息來(lái)估計(jì)查詢計(jì)劃的執(zhí)行代價(jià),并設(shè)計(jì)了一個(gè)全新的查詢優(yōu)化算法來(lái)確定最優(yōu)的聯(lián)結(jié)順序,將SPARQL查詢圖轉(zhuǎn)換為最優(yōu)的查詢計(jì)劃。
  第四章討論了基于RDF

5、圖模式的高效查詢處理。本章介紹了兩種模式選擇策略,一種通過啟發(fā)式規(guī)則來(lái)選擇RDF頻繁子圖,另一種使用查詢歷史來(lái)選擇用戶偏好的子圖結(jié)構(gòu)。在前兩章的基礎(chǔ)上,我進(jìn)一步提出基于圖模式的高效索引,通過模式樹來(lái)表示查詢計(jì)劃,并將SPARQL查詢轉(zhuǎn)換為子模式覆蓋問題來(lái)解決。
  第五章提出了一個(gè)二階段整合的解決方案來(lái)解決面向大規(guī)模RDF圖數(shù)據(jù)的語(yǔ)義搜索中的實(shí)體匹配問題。通過分塊來(lái)快速篩選候選實(shí)體對(duì)以解決可擴(kuò)展性方面的問題。接著,利用實(shí)體的局部結(jié)

6、構(gòu)特性在每個(gè)分塊內(nèi)部進(jìn)行聚類,取得最終的匹配結(jié)果。本項(xiàng)工作也是首次嘗試通過利用開放鏈接數(shù)據(jù)中現(xiàn)有的三元組在大規(guī)模場(chǎng)景下進(jìn)行廣泛的實(shí)體匹配效果評(píng)估。
  第六章研宄了一種新穎且友好的核心詞搜索交互方式,即在大規(guī)模圖數(shù)據(jù)(特別是RDF數(shù)據(jù))上如何進(jìn)行高效的核心詞查詢翻譯。我提出了一個(gè)新穎的前k子圖搜索算法,將核心詞查詢轉(zhuǎn)化為結(jié)構(gòu)化查詢,而不是直接計(jì)算查詢結(jié)果。
  第七章介紹了一個(gè)支持按需支付數(shù)據(jù)整合的數(shù)據(jù)萬(wàn)維網(wǎng)搜索基礎(chǔ)架構(gòu)。本

7、章將查詢翻譯擴(kuò)展到在異構(gòu)的萬(wàn)維網(wǎng)數(shù)據(jù)源上,即將用戶核心詞翻譯為一個(gè)跨越多個(gè)數(shù)據(jù)源的語(yǔ)義結(jié)構(gòu)化查詢。此外,我詳細(xì)介紹了數(shù)據(jù)萬(wàn)維網(wǎng)上進(jìn)行分布式查詢處理的技術(shù),特別是映射聯(lián)結(jié)。它利用第五章提到的大規(guī)模實(shí)體匹配方法來(lái)預(yù)先計(jì)算數(shù)據(jù)層映射,并對(duì)從異構(gòu)數(shù)據(jù)源中獲得的結(jié)果進(jìn)行高效合并。
  第八章將語(yǔ)義搜索應(yīng)用場(chǎng)景擴(kuò)展到同時(shí)包含圖結(jié)構(gòu)數(shù)據(jù)、網(wǎng)頁(yè)以及相應(yīng)語(yǔ)義標(biāo)注的混合網(wǎng)絡(luò)環(huán)境中。通過整合信息檢索和數(shù)據(jù)庫(kù)技術(shù)來(lái)構(gòu)建一個(gè)可以擴(kuò)展到大量文檔、圖結(jié)構(gòu)數(shù)據(jù)和

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論