基于word2vec的中文文本相似度研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩70頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在如今網(wǎng)絡得到普及的時代,特別是Web3.0的應用,越來越多的信息被編碼成數(shù)字信息存儲在網(wǎng)絡上,包括各種論文和文獻的存儲。為了更好地對數(shù)據(jù)進行分類和查找,我們需要對不同的數(shù)據(jù)進行合理的存儲和索引。
  為了對數(shù)據(jù)進行分類,我們需要對文本進行相似度比較。在眾多的文本相似度判別方法中,最準確的方法是通過人工去對比兩個文檔之間的相似度,但是考慮到目前文本數(shù)量巨大,而且其增長速度隨網(wǎng)絡存儲的應用呈現(xiàn)爆炸式增長,人工的檢查方式已經(jīng)變得不太現(xiàn)

2、實。為此,開發(fā)一種在計算和識別速度上具有明顯優(yōu)勢,并符合人為制定的相似標準,做到正確地、迅速到、健壯地判定文本相似度。文本相似度是許多應用的基礎,如文本聚類、搜索引擎和論文查重的基礎,所以文本相似度計算的準確性直接影響到這樣應用的運行效果。如果能提高文本相似度的準確度,這樣就能從互聯(lián)網(wǎng)上搜索到更多更有用的信息,就可以把大量的文章更好地分門別類,使機器表現(xiàn)得更加接近人類的表達方式。為了能更接近這一目標,人們也在不斷改進文本相似度計算的方法

3、,希望能得到更加令人滿意的結果。在過去,通用的文本相似度算法都是基于向量空間模型來展開,而且這種方法在應用之初表現(xiàn)效果不錯,但是隨著信息量的增長,這種方法的缺點也越來越明顯。
  傳統(tǒng)算法中有兩大缺點。第一,無法識別意思相似或者相關的詞語;第二,文本中詞語的權重不合理,即文本中的核心關鍵詞的重要程度與其他非關鍵詞重要程度一樣,而這是不合理的。所以如果能處理好著兩大難題,文本相似度計算準確率也必將提高。本文將在傳統(tǒng)算法的基礎上對文本

4、相似度算法進行改進。
  隨著近幾年不斷的努力,許多研究人員也提出了許多改進的算法,其中不乏表現(xiàn)效果不俗的文章,在眾多文章中,就有本文著重要提到的Word2vec。Word2vec的核心是詞向量,即每個詞語都有一個相對應向量,在計算兩個詞語的相似度時其實就是計算兩個向量的余弦值。引入詞向量后,可以識別兩個字型不同但意思相似或相關的詞語。而為了對文本中的詞語重要程度分配不同的權值,本文引入了詞頻表,通過詞頻表就可以標記出一個文本中詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論