基于特征的本體詞語相似度算法研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、詞語相似度計算不僅是自然語言處理中的一個重要基礎(chǔ)性研究課題,它也被廣泛應(yīng)用于知識管理、信息檢索、生物醫(yī)學(xué)、認知科學(xué)和心理學(xué)等領(lǐng)域。隨著信息時代的到來,人們更迫切需要解決詞語相似度計算的問題。鑒于本體中豐富的語義關(guān)系和便于計算的結(jié)構(gòu),越來越多研究學(xué)者開始對基于本體的詞語相似度算法進行研究,因此本文針對本體,提出了一種概念特征與分類學(xué)參數(shù)的映射模型,并在以往基于特征的計算詞語相似度的基本算法模型的基礎(chǔ)上提出了本文基于特征計算詞語相似度的基本

2、算法公式。以該映射模型和本文基于特征計算詞語相似度的基本算法公式為基礎(chǔ),針對《知網(wǎng)》和WordNet兩個知識本體分別提出了幾種基于特征的詞語相似度算法模型去解決以往算法中出現(xiàn)的一些尚未解決的問題并提高其算法精度。
  對《知網(wǎng)》提出了一種基于特征的快速計算詞語相似度的算法模型。為使《知網(wǎng)》可以直接利用上下位關(guān)系計算詞語相似度,省去計算義項相似度前需要計算義原相似度的過程,進而簡化計算詞語相似度的過程,本文根據(jù)《知網(wǎng)》義項語義表達式

3、(DEF)中各義原的關(guān)系,在以往義原樹的基礎(chǔ)上構(gòu)建了一棵義項樹。首先,將《知網(wǎng)》義項DEF中帶有關(guān)系約束的第一獨立義原定義成抽象概念,從而將義項語義表達式轉(zhuǎn)換成一個多層次的抽象概念組。然后根據(jù)義項定義中的抽象概念將義項掛到《知網(wǎng)》現(xiàn)有的義原樹中,形成一棵包含義原、抽象概念與義項的義項樹。通過本文提出的概念特征與分類學(xué)參數(shù)的映射模型將概念特征映射為義項樹中概念間的深度和路徑,并以本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本

4、公式,在此基礎(chǔ)上對公式進行改進,并利用兩個概念對應(yīng)義項DEF中的義原對概念特征進行補償,通過參數(shù)調(diào)節(jié)義項定義中各義原對特征的貢獻大小。另外考慮到深度和路徑對計算詞語相似度的貢獻并不相同,通過映射模型將概念特征映射為義項樹中概念間的深度和路徑,并采用本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上將公式變換成公共特征和不相同特征均帶參數(shù)的公式,提出了一種基于加權(quán)特征的詞語相似度計算模型。實驗證明,針對《知網(wǎng)》提

5、出的兩種計算模型,MC30詞對計算的相似度值與人工判定值相比,分別取得了0.85和0.86的皮爾森相關(guān)系數(shù),該結(jié)果達到了目前優(yōu)秀詞語相似度算法的水平。另外本文測試了以往相關(guān)論文中使用的測試詞對,實驗結(jié)果表明,本文的兩個算法模型計算效果都較之前的要好。
  對WordNet提出了一種基于特征的多源信息的融合模型計算詞語相似度。通過本文提出的概念特征與分類學(xué)參數(shù)的映射模型將概念特征映射為概念間路徑和深度以及信息內(nèi)容這些分類學(xué)參數(shù),以概

6、念間最近公共上位的深度為概念間共有特征,概念間最短路徑為概念間不相同特征,并以本文基于特征計算詞語相似度的基本算法公式作為本算法模型的基本公式,在此基礎(chǔ)上對公式進行改進,并利用密度補償概念間特征差異,改善了前人優(yōu)秀算法計算的相似度呈現(xiàn)的非線性偏高問題,并引入編碼差異性克服了信息源單一造成的計算結(jié)果區(qū)分度不高的缺陷并微調(diào)概念間特征差異問題。最后,通過引入正弦計算的邊權(quán)重和調(diào)節(jié)參數(shù)合理的考慮了路徑、深度和獨立編碼對計算詞語相似度的貢獻程度。

7、實驗證明,對于RG65、MC30、SimLex999中的666對名詞、 SimLex999中的222對動詞、YP130詞對,采用相同參數(shù)本文計算的相似度值與人工判定值計算可以分別取得0.88、0.88、0.61、0.52、0.80的皮爾森相關(guān)系數(shù),不使用相同參數(shù)最好可以分別取得0.88、0.89、0.61、0.55、0.81的皮爾森相關(guān)系數(shù),該結(jié)果均達到了目前優(yōu)秀詞語相似度算法的水平。為證明算法通用性,本文將該算法移植到和WordNet

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論