2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩58頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、本文的目標(biāo)在于利用維基百科作為語義知識源,構(gòu)建一個(gè)漁業(yè)知識相關(guān)的語義知識庫,文中針對漁業(yè)知識的特點(diǎn),著重對語義相似度計(jì)算方法和實(shí)體歧義消解方法的分析與研究,并對語義相似度計(jì)算方法提出了改進(jìn),提出了自己的實(shí)體消歧算法。本文抽取維基百科頁面的信息框(infobox)知識,并以三元組的形式進(jìn)行表示。
  許多不同的語義相似度計(jì)算方法應(yīng)用于自然語言處理領(lǐng)域,知識獲取領(lǐng)域和信息檢索領(lǐng)域。目前,很多研究者致力于已經(jīng)存在的方法支持多本體的相似度

2、計(jì)算,以提高相似度的關(guān)聯(lián)值,本文中使用了基于特征的相似度計(jì)算方法,整個(gè)過程支持多本體方法,并使用了啟發(fā)式函數(shù)。通過漁業(yè)知識數(shù)據(jù)的采集,對實(shí)體相似度計(jì)算進(jìn)行了實(shí)驗(yàn)。經(jīng)典的基于本體的語義相似度主要分為以下三種:基于路徑的方法,基于特征的方法,基于信息內(nèi)容的方法。基于路徑的方法是最簡單的一種方法,通過is-a鏈接計(jì)算本體節(jié)點(diǎn)間的最短路徑,但所有的路徑必須統(tǒng)一相等的長度?;谔卣鞯南嗨贫扔?jì)算方法克服了基于路徑相似度計(jì)算方法的缺點(diǎn),基于特征的相似

3、度計(jì)算方法中,本體中的分類鏈接不需要統(tǒng)一為相等的長度,但是要考慮本體特征集合的重疊程度。基于特征的語義相似度方法可以用于交叉本體,而基于路徑的相似度計(jì)算方法不能。本文的語義相似度的優(yōu)點(diǎn)在于,相比于Tversky的方法,本文的基于特征的相似度計(jì)算方法不使用權(quán)重參數(shù)去衡量語義特征,提高了方法的通用性。
  對于知識庫的更新來說,知識庫新實(shí)體的內(nèi)容獲取是比較重要的一件事情。輸入新的知識到知識庫之前,需要實(shí)體鏈接,以保證新知識的實(shí)體能夠鏈

4、接到知識庫的實(shí)體。整個(gè)過程中,實(shí)體消歧是一個(gè)比較有挑戰(zhàn)性的任務(wù)。命名實(shí)體消歧有很多算法。本文中,命名實(shí)體消歧的處理可以通過不同的語義關(guān)系,相似度方法分析相關(guān)文本?;谔岢龅姆椒?gòu)建了漁業(yè)知識庫。本文的實(shí)體消歧算法主要側(cè)重點(diǎn)有兩點(diǎn):第一,從維基百科,百度百科,互動(dòng)百科收集大量的同義詞集,以支持用戶不同的搜索習(xí)慣;第二,對于存在無法消歧的實(shí)體,提出了二次消歧算法,以解決有的實(shí)體無法消歧的問題。
  對于漁業(yè)知識庫的表示、構(gòu)建、挖掘以及

5、在搜索中的應(yīng)用。目前存在的主要問題有:1)目前知識庫還處于初期階段;2)人工干預(yù)很重要;3)結(jié)構(gòu)化數(shù)據(jù)在知識庫的構(gòu)建中起到?jīng)Q定性作用;4)各大搜索引擎公司為了保證知識庫的質(zhì)量多半采用成熟的算法;5)知識卡片的給出相對比較謹(jǐn)慎;6)更復(fù)雜的自然語言查詢將嶄露頭角(如命名實(shí)體歧義消解算法)。
  此外,知識庫的構(gòu)建是多學(xué)科的結(jié)合,需要自然語言理解,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘等多方面知識的融合。有很多開放性問題需要學(xué)術(shù)界和業(yè)界一起解決。我們有理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論