基于語義加權(quán)的中文文本相似度計算研究.pdf_第1頁
已閱讀1頁,還剩71頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、自從進(jìn)入互聯(lián)網(wǎng)時代,人們的生活已然離不開互聯(lián)網(wǎng)和通信技術(shù),繁雜的網(wǎng)絡(luò)社會人群使信息呈幾何級爆炸型增長。人們需要信息,但必須是經(jīng)過處理后有用的信息,中文文本信息作為信息的重要組成部分,其處理的效果及效率必然受到大家的廣泛關(guān)注。文本相似度是文本信息處理的一個基礎(chǔ)環(huán)節(jié),其計算結(jié)果直接影響后續(xù)的文本挖掘的效果。本文從應(yīng)用最廣泛的向量空間文本表示模型著手,就向量空間中常用的文本相似度計算方法,即余弦相似度展開研究。利用余弦距離度量文本相似度時,只

2、是對文本中具有相同的詞語進(jìn)行計算,不考慮詞語間的相關(guān)關(guān)系。而中文文本中蘊(yùn)含著豐富的語義信息,詞語之間也有著較強(qiáng)的語義關(guān)聯(lián),充分利用文本中的語義信息,提高文本相似度量效果是必然之勢。
  為解決余弦相似度中忽略詞語語義信息的問題,本文對余弦相似度計算中所用到的文本表示模型、特征權(quán)重的計算和余弦相似度公式進(jìn)行了考察,分析了特征權(quán)重算法和余弦相似度公式的缺陷,提出了特征權(quán)重改進(jìn)算法和語義加權(quán)文本相似度計算方法,這也是本文的創(chuàng)新點(diǎn)。具體的

3、工作可以從以下兩點(diǎn)說明:
 ?。?)詞語之間的語義關(guān)聯(lián)主要包括語義相關(guān)度和語義相似度。從概念上分析,語義相關(guān)度是包含語義相似度的,相關(guān)度表達(dá)的是兩個詞語在語義上具有的某種相互依賴、相互影響的特性,這對單一文本的復(fù)雜網(wǎng)絡(luò)模型具有一定的指導(dǎo)意義。利用維基百科豐富的語義知識,計算詞語之間的語義相關(guān)度,構(gòu)建文本復(fù)雜網(wǎng)絡(luò)模型。根據(jù)復(fù)雜網(wǎng)絡(luò)的結(jié)構(gòu)特征指標(biāo),構(gòu)建特征項的評估函數(shù)CF,提出基于復(fù)雜網(wǎng)絡(luò)的CF-IDF算法以改進(jìn)文本相似度中特征權(quán)重的

4、計算。
 ?。?)語義相似度是語義相關(guān)度的一種特例,是指兩個詞語在不同的上下文中可以互相替換使用而不改變文本的句法語義結(jié)構(gòu)的程度。從詞語相似度的角度看,兩個文本之間即使沒有相同的詞語,但如果相似詞語越多,也可以認(rèn)定這兩個文本具有一定的相似性,這正好彌補(bǔ)余弦相似度的不足。因此,本文利用知網(wǎng)計算詞匯語義相似度,同時考慮到特征權(quán)重對文本相似度計算的影響,結(jié)合CF-IDF算法,在余弦相似度基礎(chǔ)上提出一種語義加權(quán)的文本相似度計算方法。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論