基于論壇語料的未登錄詞自動識別新方法.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-09 格式：pdf 頁數：45 大?。?.30MB 人氣指數：12 舉報 版權申訴

已閱讀1頁，還剩44頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、未登錄詞識別一直是中文分詞研究領域的瓶頸。為解決中文分詞中未登錄詞識別效率低的問題，提出基于論壇語料對中文未登錄詞進行識別的新方法：首先利用網絡蜘蛛下載論壇網頁；然后對該語料庫進行周期性的更新以隨時保持語料的新鮮度，以構建一個具備高時效性的語料庫；接下來對語料庫進行分詞，具體是先將Mutual Information函數和DuplicatedCombination Frequency函數線性疊加構造出新統計量MD(由Mutual Inf

2、ormation函數和Duplicated Combination Frequency函數的首字母結合而成)，再用MD函數對語料庫進行分詞產生候選詞表；最后通過對比候選詞表與原始詞表發(fā)現未登錄詞，并將識別出的未登陸詞擴充到原始核心詞庫中，以便在下一次分詞過程中可以一次性識別出該未登錄詞。
　　中文分詞與一般英文分詞不同，中文的語言構成和使用習慣使得中文分詞比英文分詞困難很多。在該領域先后產生三種傳統的中文分詞算法：基于字符串查

3、找的機械匹配算法；基于理解的算法和基于統計的算法。三種算法對于未登錄詞的識別都存在不同程度的問題：機械匹配算法從根本上就無法實現未登錄詞的識別；理解算法由于算法復雜、實現難度大，實際開發(fā)和應用并不廣泛；統計算法在一定程度上可以解決部分未登錄詞，一度成為比較流行的算法，但是現有的統計算法仍然出現較多誤判和無法判定的情況。
　　總的說來，基于統計的算法是一個實際應用中相對可行的一種方法，因此本文提出一種改進的統計算法對未登錄詞進行

4、識別。具體策略如下：第一，本文首次將網絡論壇－天涯論壇，引入未登錄詞識別研究中，利用網絡蜘蛛下載論壇網頁。第二，通過預處理網頁構建語料庫，并對該語料庫進行周期性的更新以獲取具備較強時效性的語料。第三，將MutualInformation函數和Duplicated Combination Frequency函數線性結合構造出新統計量MD，運用該MD函數對語料庫進行分詞產生候選詞表。第四，通過對函數的反復訓練，選定較優(yōu)的閾值，對比候選詞表與

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于論壇語料的未登錄詞自動識別新方法.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于論壇語料的未登錄詞自動識別新方法.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載