面向應(yīng)用的詞語處理技術(shù).pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-12 格式：pdf 頁數(shù)：123 大小：3.63MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩122頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、詞語處理技術(shù)是基于詞一級中文信息處理應(yīng)用的重要基礎(chǔ)，也是中文信息處理技術(shù)的瓶頸。詞語處理首先需要解決的是詞語切分問題。目前自動分詞系統(tǒng)性能，在歧義切分處理方面已經(jīng)達(dá)到了較高水平，但未登錄詞識別性能仍有待進(jìn)一步提高；同時，隨著可獲得的語料庫規(guī)模不斷擴(kuò)大和統(tǒng)計方法的興起，詞匯級統(tǒng)計語言模型方法在語音識別、語音合成、機(jī)器翻譯等領(lǐng)域得到了廣泛應(yīng)用，其中以n元文法最具有代表性。如何有效的緩解統(tǒng)計方法所固有的數(shù)據(jù)稀疏問題，提高詞語線性鄰接關(guān)系(n-

2、gram)的統(tǒng)計精度是詞語處理技術(shù)所面臨的另一個難點。本論文依上述兩個問題依次展開，首先在原有自動分詞系統(tǒng)的基礎(chǔ)上，根據(jù)人的認(rèn)知規(guī)律，提出了基于可信度的人名識別方法，同時提出和實現(xiàn)了一個基于多特征集成的新詞語發(fā)現(xiàn)方法；研究了基于線性鄰接特征的詞語上下文分布相似性計算方法及其數(shù)據(jù)平滑處理策略，并介紹了該策略在計算機(jī)輔助校對系統(tǒng)中的應(yīng)用。論文的主要內(nèi)容和創(chuàng)新成果體現(xiàn)在以下幾個方面： (1)面向應(yīng)用的歧義切分技術(shù)。歧義切分技

3、術(shù)是中文自動分詞系統(tǒng)的關(guān)鍵技術(shù)之一。特別是在現(xiàn)代漢語通用分詞系統(tǒng)(GPWS)中，允許用戶動態(tài)創(chuàng)建詞庫、允許多個用戶詞庫同時參與切分，這給歧義切分技術(shù)提出了更高的實用性要求。本文從大規(guī)模的真實語料庫中，考察了歧義(特別是交集型歧義)的分布情況和特征；提出了一種“正向最大匹配+回退一字”的交集型歧義字段發(fā)現(xiàn)算法，并且針對于不同類型的交集型歧義字段進(jìn)行了統(tǒng)計分析；綜合敘述了GPWS中“規(guī)則+例外”的3級實用消歧策略，包括元分詞規(guī)則、不同類型歧

4、義字段的處理規(guī)則，以及基于實例的歧義字段標(biāo)注方法和動態(tài)校正算法；本文對1億字《人民日報》語料(約234MB)中的交集型歧義字段進(jìn)行了窮盡式的抽取，并隨機(jī)的對上述策略進(jìn)行了開放性測試，正確率達(dá)99％； (2)基于分辨模型的人名識別可信度方法。專名識別技術(shù)是影響中文自動分詞精度的一個重要方面，也是自動分詞技術(shù)的難點之一。本文在有關(guān)專名的語言事實基礎(chǔ)上，論證了專名識別中分辨模型優(yōu)于生成模型；并基于分辨模型的原理，說明人名用字特征的屬性

5、值的應(yīng)是詞表匹配后的落單字的頻率，而不是文本中的原始字頻；提出了一整套的人名識別用字特征，提出了基于分辨模型的人名識別可信度計算公式，該公式與分詞排歧方法合在一起，形成了實用高效的分詞技術(shù)；同時給出了一個基于自舉學(xué)習(xí)(Bootstrapping)的模型訓(xùn)練方法，克服了人工標(biāo)注語料庫規(guī)模的限制。從我們對《人民日報》1998年1月、2000年12月(共約379萬字)語料的測試結(jié)果來看，基于可信度的人名識別方法比傳統(tǒng)的概率估值方法識別效果有一

6、定的提高； (3)多特征集成的新詞發(fā)現(xiàn)方法。目前大多數(shù)分詞系統(tǒng)僅僅針對于新聞?wù)Z料進(jìn)行訓(xùn)練和測試，因而對于新聞?wù)Z料的處理性能表現(xiàn)突出，但在其它特定專業(yè)領(lǐng)域、小說等白話文中的切分性能卻大幅下降。大量存在專業(yè)術(shù)語、縮略語，以及作者生造的詞語等等，給目前的分詞系統(tǒng)帶來了很大的困難，極大的影響了自動分詞系統(tǒng)的性能和可移植性。本文提出和實現(xiàn)了一種基于多特征集成的新詞發(fā)現(xiàn)方法，綜合考慮被處理文本中重復(fù)字串的上下文統(tǒng)計特征(上下文熵)、內(nèi)部耦合

7、特征(似然比)、背景語料庫對比特征(相關(guān)頻率比值)，以及自動分詞系統(tǒng)輔助的邊界確認(rèn)信息等等；提出一種多特征集成和模型自適應(yīng)訓(xùn)練方法，自動從被抽取文本中選擇模型的訓(xùn)練例(包括正例和負(fù)例)，訓(xùn)練相應(yīng)的SVM分類器，把多個統(tǒng)計特征統(tǒng)一到一個模型框架下，對候選新詞語進(jìn)行二值分類，克服了傳統(tǒng)統(tǒng)計方法中，必須借助于人工標(biāo)記語料庫訓(xùn)練，以決定多特征之間的權(quán)重系數(shù)和閾值問題，同時也避免了人工標(biāo)記語料庫與被抽取文本之間的差異所帶來的訓(xùn)練誤差；新詞抽取過程

8、在字串PAT-Array數(shù)據(jù)結(jié)構(gòu)上進(jìn)行，實驗表明，該方法新詞發(fā)現(xiàn)速度快、省存儲，可以作為自動分詞系統(tǒng)的有益補充； (4)基于上下文分布的詞語相似性計算方法和數(shù)據(jù)平滑處理策略。統(tǒng)計方法在自然語言處理的多種應(yīng)用中取得了令人矚目的成果，但數(shù)據(jù)稀疏問題限制了應(yīng)用系統(tǒng)性能的提高。把統(tǒng)計單位由詞提升到詞類有助于緩解數(shù)據(jù)稀疏問題，但是傳統(tǒng)的詞類體系并不能反映詞語在線性鄰接(n-gram)特征上的相似關(guān)系，而且這種相似關(guān)系不能用作分類原則，因為

9、它不滿足傳遞性；傳統(tǒng)的基于回退(back-off)和線性插值方法在一定程度上緩解了數(shù)據(jù)的稀疏，但它的本質(zhì)是降低階數(shù)，并未從根本上解決問題，反而加重了低概率事件被忽略的副作用。本文提出了一種解決方案：對于每個詞，根據(jù)其在大規(guī)模語料庫中的上下文分布特征，建立以該詞為核心的相似詞集合，用相似詞的ngram估計核心詞的ngram。本文介紹了相似詞集合的確定方法，給出了基于相似詞集合的低概率事件的估計方法；考察和分析了漢語詞語中的“同形異質(zhì)”問題

10、，以及漢語詞語鄰接關(guān)系的特點(如：漢語韻律問題等)，提出了對單字詞和多字詞區(qū)別對待的觀點，即：單字詞只與單字詞相似，多字詞只與多字詞相似，同時只對多字詞和低頻單字詞進(jìn)行相似詞語替換；針對于統(tǒng)計方法中所關(guān)注的詞語線性連接特征和應(yīng)用目標(biāo)需求，使用詞語在大規(guī)模語料庫中左右緊鄰的bigram分布作為詞語的屬性特征，并以此基礎(chǔ)度量詞語之間的相似性；改進(jìn)了原有IRad距離計算公式，引入了詞語分布同一性系數(shù)，克服了在IRad距離計算公式中，具有強(qiáng)勢接

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

面向應(yīng)用的詞語處理技術(shù).pdf

文檔簡介

溫馨提示

最新文檔

評論

面向應(yīng)用的詞語處理技術(shù).pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載