2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、詞語處理技術(shù)是基于詞一級中文信息處理應(yīng)用的重要基礎(chǔ),也是中文信息處理技術(shù)的瓶頸。詞語處理首先需要解決的是詞語切分問題。目前自動分詞系統(tǒng)性能,在歧義切分處理方面已經(jīng)達(dá)到了較高水平,但未登錄詞識別性能仍有待進(jìn)一步提高;同時,隨著可獲得的語料庫規(guī)模不斷擴(kuò)大和統(tǒng)計方法的興起,詞匯級統(tǒng)計語言模型方法在語音識別、語音合成、機(jī)器翻譯等領(lǐng)域得到了廣泛應(yīng)用,其中以n元文法最具有代表性。如何有效的緩解統(tǒng)計方法所固有的數(shù)據(jù)稀疏問題,提高詞語線性鄰接關(guān)系(n-

2、gram)的統(tǒng)計精度是詞語處理技術(shù)所面臨的另一個難點。 本論文依上述兩個問題依次展開,首先在原有自動分詞系統(tǒng)的基礎(chǔ)上,根據(jù)人的認(rèn)知規(guī)律,提出了基于可信度的人名識別方法,同時提出和實現(xiàn)了一個基于多特征集成的新詞語發(fā)現(xiàn)方法;研究了基于線性鄰接特征的詞語上下文分布相似性計算方法及其數(shù)據(jù)平滑處理策略,并介紹了該策略在計算機(jī)輔助校對系統(tǒng)中的應(yīng)用。論文的主要內(nèi)容和創(chuàng)新成果體現(xiàn)在以下幾個方面: (1)面向應(yīng)用的歧義切分技術(shù)。歧義切分技

3、術(shù)是中文自動分詞系統(tǒng)的關(guān)鍵技術(shù)之一。特別是在現(xiàn)代漢語通用分詞系統(tǒng)(GPWS)中,允許用戶動態(tài)創(chuàng)建詞庫、允許多個用戶詞庫同時參與切分,這給歧義切分技術(shù)提出了更高的實用性要求。本文從大規(guī)模的真實語料庫中,考察了歧義(特別是交集型歧義)的分布情況和特征;提出了一種“正向最大匹配+回退一字”的交集型歧義字段發(fā)現(xiàn)算法,并且針對于不同類型的交集型歧義字段進(jìn)行了統(tǒng)計分析;綜合敘述了GPWS中“規(guī)則+例外”的3級實用消歧策略,包括元分詞規(guī)則、不同類型歧

4、義字段的處理規(guī)則,以及基于實例的歧義字段標(biāo)注方法和動態(tài)校正算法;本文對1億字《人民日報》語料(約234MB)中的交集型歧義字段進(jìn)行了窮盡式的抽取,并隨機(jī)的對上述策略進(jìn)行了開放性測試,正確率達(dá)99%; (2)基于分辨模型的人名識別可信度方法。專名識別技術(shù)是影響中文自動分詞精度的一個重要方面,也是自動分詞技術(shù)的難點之一。本文在有關(guān)專名的語言事實基礎(chǔ)上,論證了專名識別中分辨模型優(yōu)于生成模型;并基于分辨模型的原理,說明人名用字特征的屬性

5、值的應(yīng)是詞表匹配后的落單字的頻率,而不是文本中的原始字頻;提出了一整套的人名識別用字特征,提出了基于分辨模型的人名識別可信度計算公式,該公式與分詞排歧方法合在一起,形成了實用高效的分詞技術(shù);同時給出了一個基于自舉學(xué)習(xí)(Bootstrapping)的模型訓(xùn)練方法,克服了人工標(biāo)注語料庫規(guī)模的限制。從我們對《人民日報》1998年1月、2000年12月(共約379萬字)語料的測試結(jié)果來看,基于可信度的人名識別方法比傳統(tǒng)的概率估值方法識別效果有一

6、定的提高; (3)多特征集成的新詞發(fā)現(xiàn)方法。目前大多數(shù)分詞系統(tǒng)僅僅針對于新聞?wù)Z料進(jìn)行訓(xùn)練和測試,因而對于新聞?wù)Z料的處理性能表現(xiàn)突出,但在其它特定專業(yè)領(lǐng)域、小說等白話文中的切分性能卻大幅下降。大量存在專業(yè)術(shù)語、縮略語,以及作者生造的詞語等等,給目前的分詞系統(tǒng)帶來了很大的困難,極大的影響了自動分詞系統(tǒng)的性能和可移植性。本文提出和實現(xiàn)了一種基于多特征集成的新詞發(fā)現(xiàn)方法,綜合考慮被處理文本中重復(fù)字串的上下文統(tǒng)計特征(上下文熵)、內(nèi)部耦合

7、特征(似然比)、背景語料庫對比特征(相關(guān)頻率比值),以及自動分詞系統(tǒng)輔助的邊界確認(rèn)信息等等;提出一種多特征集成和模型自適應(yīng)訓(xùn)練方法,自動從被抽取文本中選擇模型的訓(xùn)練例(包括正例和負(fù)例),訓(xùn)練相應(yīng)的SVM分類器,把多個統(tǒng)計特征統(tǒng)一到一個模型框架下,對候選新詞語進(jìn)行二值分類,克服了傳統(tǒng)統(tǒng)計方法中,必須借助于人工標(biāo)記語料庫訓(xùn)練,以決定多特征之間的權(quán)重系數(shù)和閾值問題,同時也避免了人工標(biāo)記語料庫與被抽取文本之間的差異所帶來的訓(xùn)練誤差;新詞抽取過程

8、在字串PAT-Array數(shù)據(jù)結(jié)構(gòu)上進(jìn)行,實驗表明,該方法新詞發(fā)現(xiàn)速度快、省存儲,可以作為自動分詞系統(tǒng)的有益補充; (4)基于上下文分布的詞語相似性計算方法和數(shù)據(jù)平滑處理策略。統(tǒng)計方法在自然語言處理的多種應(yīng)用中取得了令人矚目的成果,但數(shù)據(jù)稀疏問題限制了應(yīng)用系統(tǒng)性能的提高。把統(tǒng)計單位由詞提升到詞類有助于緩解數(shù)據(jù)稀疏問題,但是傳統(tǒng)的詞類體系并不能反映詞語在線性鄰接(n-gram)特征上的相似關(guān)系,而且這種相似關(guān)系不能用作分類原則,因為

9、它不滿足傳遞性;傳統(tǒng)的基于回退(back-off)和線性插值方法在一定程度上緩解了數(shù)據(jù)的稀疏,但它的本質(zhì)是降低階數(shù),并未從根本上解決問題,反而加重了低概率事件被忽略的副作用。本文提出了一種解決方案:對于每個詞,根據(jù)其在大規(guī)模語料庫中的上下文分布特征,建立以該詞為核心的相似詞集合,用相似詞的ngram估計核心詞的ngram。本文介紹了相似詞集合的確定方法,給出了基于相似詞集合的低概率事件的估計方法;考察和分析了漢語詞語中的“同形異質(zhì)”問題

10、,以及漢語詞語鄰接關(guān)系的特點(如:漢語韻律問題等),提出了對單字詞和多字詞區(qū)別對待的觀點,即:單字詞只與單字詞相似,多字詞只與多字詞相似,同時只對多字詞和低頻單字詞進(jìn)行相似詞語替換;針對于統(tǒng)計方法中所關(guān)注的詞語線性連接特征和應(yīng)用目標(biāo)需求,使用詞語在大規(guī)模語料庫中左右緊鄰的bigram分布作為詞語的屬性特征,并以此基礎(chǔ)度量詞語之間的相似性;改進(jìn)了原有IRad距離計算公式,引入了詞語分布同一性系數(shù),克服了在IRad距離計算公式中,具有強(qiáng)勢接

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論