統(tǒng)計(jì)中文詞法分析及其強(qiáng)化學(xué)習(xí)機(jī)制的研究.pdf_第1頁
已閱讀1頁,還剩133頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、詞法分析是自然語言處理技術(shù)的基礎(chǔ),其性能將直接影響句法分析及其后續(xù)應(yīng)用系統(tǒng)的性能。本文研究的漢語詞法分析主要包括自動(dòng)分詞、詞性標(biāo)注和中文命名實(shí)體識別三個(gè)方面。詞法分析作為基礎(chǔ)處理步驟,先期的錯(cuò)誤會(huì)沿處理鏈條擴(kuò)散,并最終影響信息檢索、問答系統(tǒng)、機(jī)器翻譯等面向最終用戶的應(yīng)用系統(tǒng)的質(zhì)量。同時(shí),詞法分析中的三個(gè)子任務(wù)作為其它一些相關(guān)語言處理的典型代表,對其所用的技術(shù)也可有助于處理其它相似任務(wù)中,如音字轉(zhuǎn)換、組塊分析以及生物信息處理等,所以對它的

2、研究具有極其重要的意義。
  影響詞法分析性能提高的主要因素包括歧義問題、數(shù)據(jù)稀疏問題以及獨(dú)立同分布條件。本文利用統(tǒng)計(jì)方法致力于改善詞法分析的性能。從模型角度來看,本文在有監(jiān)督方法上主要探討了N-gram模型、最大熵模型、條件隨機(jī)域模型和支持向量機(jī)模型;無監(jiān)督方法上探討了詞向量空間模型;強(qiáng)化學(xué)習(xí)機(jī)制上,研究人工免疫理論以及面向自治計(jì)算理論。從特征抽取角度,建立了粗糙集挖掘復(fù)雜特征的方法,利用觸發(fā)對方法抽取命名實(shí)體的特征等。并利用以

3、上研究成果對漢語詞法分析進(jìn)行了深入研究。主要研究內(nèi)容包括以下幾個(gè)方面:
  第一,基于條件隨機(jī)域模型建立中文詞性標(biāo)注模型。隱馬爾科夫模型(HMM)是產(chǎn)生式模型,不易融入豐富的特征,相比之下,最大熵馬爾科夫模型(MEMM)是條件概率模型允許特征非獨(dú)立,并允許增加各種顆粒度的特征,但它對每個(gè)狀態(tài)均定義一個(gè)指數(shù)模型來計(jì)算在給定當(dāng)前狀態(tài)時(shí)下一狀態(tài)的條件概率,因而存在標(biāo)注偏置問題。本文引入條件隨機(jī)域模型(CRF)處理中文詞性標(biāo)注任務(wù),它僅使

4、用一個(gè)指數(shù)模型來計(jì)算在給定觀察值序列條件下整個(gè)標(biāo)號序列的條件概率,可有效克服標(biāo)注偏置問題。在此基礎(chǔ)上,引入觸發(fā)對特征進(jìn)一步改善標(biāo)注的性能。此外,又探索中文組塊特征在詞性標(biāo)注任務(wù)中的作用,接著考察了支持向量機(jī)模型在序列標(biāo)記問題中的高效處理方法,并將其用于處理音字轉(zhuǎn)換任務(wù)。最后研究了采用多分類器組合方法處理中文詞性標(biāo)注問題。
  第二,基于最大熵模型進(jìn)行中文命名實(shí)體識別研究。最大熵模型(ME)是條件概率模型,易于融入豐富的特征。近些年

5、的評測已經(jīng)表明其在命名實(shí)體識別任務(wù)上具有較好的性能,據(jù)此,本文研究了最大熵命名實(shí)體識別模型中的特征抽取方法,以及聯(lián)合詞向量空間模型與同義詞詞典進(jìn)行特征擴(kuò)展的方法。然后在此基礎(chǔ)上,針對中文的特點(diǎn),進(jìn)一步提出了雙層混合模型的中文命名實(shí)體識別方法。此外,常見的命名實(shí)體識別算法都是以句子為單位,在整個(gè)語句范圍內(nèi)抽取上下文特征。對此,在借鑒無監(jiān)督學(xué)習(xí)方法的基礎(chǔ)上,我們提出領(lǐng)域擴(kuò)展學(xué)習(xí)的策略,能夠有效地利用段落及篇章特征來提高實(shí)體識別的性能。

6、>  第三,引入粗糙集理論提取復(fù)雜特征。傳統(tǒng)的基于模板的特征抽取方法難以獲取復(fù)雜特征,為了能夠有效地利用上下文特征,本文引入擴(kuò)展的粗糙集理論抽取復(fù)雜特征。因考慮到該方法只是按照粗規(guī)則精度區(qū)分規(guī)則的重要程度,在聯(lián)合其它特征采集方法時(shí)并未按總體性能為其分配權(quán)重,我們將粗規(guī)則特征融入最大熵模型中,通過最大熵模型為粗規(guī)則特征分配權(quán)重使得模型的整體性能最優(yōu)。此外,針對自然語言中決策屬性值存在分布不均勻的問題,我們又引入可變精度粗糙集理論來進(jìn)一步改

7、善消歧性能。
  第四,研究詞法分析中強(qiáng)化學(xué)習(xí)機(jī)制的理論和方法。基于語料庫的有監(jiān)督方法通常面臨著數(shù)據(jù)稀疏問題與獨(dú)立同分布條件假設(shè)。由于語料庫中的數(shù)據(jù)分布一般符合Zipf定律,所以數(shù)據(jù)稀疏問題難以通過增大語料庫獲得解決,而在實(shí)際應(yīng)用時(shí),其數(shù)據(jù)與訓(xùn)練數(shù)據(jù)往往由于屬于不同的應(yīng)用領(lǐng)域,因而又不易滿足獨(dú)立同分布的假設(shè)。許多任務(wù)處理中,上述兩個(gè)困難成為現(xiàn)有有監(jiān)督方法性能進(jìn)一步提高的障礙。在現(xiàn)有有監(jiān)督方法的性能幾乎接近其上限的情況下,本文面向詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論