基于n-最短路徑方法的中文詞語(yǔ)粗分模型

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-11 格式：doc 頁(yè)數(shù)：11 大?。?17.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩10頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于層疊隱馬模型的漢語(yǔ)詞法分析?劉群13張華平12俞鴻魁1程學(xué)旗11中國(guó)科學(xué)院計(jì)算技術(shù)研究所北京1000802中國(guó)科學(xué)院研究生院北京1000393北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所北京100871Email:liuqunzhanghpyuhongkuicxq@ict.摘要:本文提出了一種基于層疊隱馬模型的漢語(yǔ)詞法分析方法，旨在將漢語(yǔ)分詞、詞性標(biāo)注、切分排歧和未登錄詞識(shí)別集成到一個(gè)完整的理論框架中。在分詞方面，采取的是基于類的隱馬模型，在這層隱馬模

2、型中，未登錄詞和詞典中收錄的普通詞一樣處理。未登錄詞識(shí)別引入了角色HMM：Viterbi算法標(biāo)注出全局最優(yōu)的角色序列，然后在角色序列的基礎(chǔ)上，識(shí)別出未登錄詞，并計(jì)算出真實(shí)的可信度。在切分排歧方面，作者提出了一種基于N最短路徑的策略，即：在早期階段召回N個(gè)最佳結(jié)果作為候選集，目的是覆蓋盡可能多的歧義字段，最終的結(jié)果會(huì)在未登錄詞識(shí)別和詞性標(biāo)注之后，從N個(gè)最有潛力的候選結(jié)果中選優(yōu)得到。不同層面的實(shí)驗(yàn)表明，層疊隱馬模型的各個(gè)層面對(duì)漢語(yǔ)詞法分析都

3、發(fā)揮了積極的作用。作者實(shí)現(xiàn)了基于層疊隱馬模型的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS，該系統(tǒng)在2002年的973專家組評(píng)測(cè)中獲得第一名，在2003年漢語(yǔ)特別興趣研究組(theACLSpecialInterestGrouponChineseLanguageProcessingSIGHAN)組織的第一屆國(guó)際漢語(yǔ)分詞大賽中綜合得分獲得兩項(xiàng)第一名、一項(xiàng)第二名。這表明：ICTCLAS是目前最好的漢語(yǔ)詞法分析系統(tǒng)之一，層疊隱馬模型能夠解決好漢語(yǔ)詞法問(wèn)題。關(guān)

4、鍵詞:漢語(yǔ)詞法分析分詞詞性標(biāo)注未登錄詞識(shí)別層疊隱馬模型ICTCLAS中圖法分類號(hào):TP391.2文獻(xiàn)標(biāo)識(shí)碼:AChineseLexicalAnalysisUsingCadedHiddenMarkovModelLIUQun13ZHANGHuaPing12YUHongkui1CHENGXueQi11InstituteofComputingTechnologyTheChineseAcademyofSciencesBeijing100080CH

5、INA2GraduateSchooloftheChineseAcademyofSciencesBeijing100039CHINA3Inst.ofComputationalLinguisticsPekingUniversityBeijing100871CHINAEmail:liuqunzhanghpyuhongkuicxq@ict.Abstract:ThispaperpresentsanapproachfChineselexicalan

6、alysisusingCadedhiddenMarkovmodel(CHMM)whichaimstoincpateChinesewdsegmentationPartOfSpeechtaggingdisambiguationunknownwdsrecognitionintoanintegratedtheeticalframe.AclassbasedHMMisappliedinwdsegmentationinthismodelunknown

7、wdsaretreatedinthesamewayascommonwdslistedinthelexicon.UnknownwdsarerecognizedwithreliabilityonrolessequencetaggedusingViterbialgithminrolesHMM.Asfdisambiguationtheauthsbringfthannshtestpathstrategythatintheearlystageres

8、ervesthetopNsegmentationresultsascidatescoversmeambiguity.Variousexperimentsshowthat本文得到國(guó)家重點(diǎn)基礎(chǔ)研究項(xiàng)目(G19980305074；G1998030510)和計(jì)算所領(lǐng)域前沿青年基金項(xiàng)目2002618023資助因此使用的模型和方法都沒(méi)有貫徹到底，缺乏統(tǒng)一的處理算法，對(duì)切分結(jié)果也缺乏統(tǒng)一的評(píng)估體系。最終導(dǎo)致分詞的準(zhǔn)確率在開(kāi)放測(cè)試的條件下并不像宣稱的那

9、樣理想，處理含有未登錄詞、歧義字段的真實(shí)文本時(shí)，效果更是不盡人意。本文提出了一種基于層疊隱馬模型的方法，旨在將漢語(yǔ)分詞、切分排歧、未登錄詞識(shí)別、詞性標(biāo)注等詞法分析任務(wù)融合到一個(gè)相對(duì)統(tǒng)一的理論模型中。首先，在預(yù)處理的階段，采取N最短路徑粗分方法，快速的得到能覆蓋歧義的最佳N個(gè)粗切分結(jié)果；隨后，在粗分結(jié)果集上，采用底層隱馬模型識(shí)別出普通無(wú)嵌套的人名、地名，并依次采取高層隱馬模型識(shí)別出嵌套了人名、地名的復(fù)雜地名和機(jī)構(gòu)名；然后將識(shí)別出的未登錄詞

10、以科學(xué)計(jì)算出來(lái)的概率加入到基于類的切分隱馬模型中，未登錄詞與歧義均不作為特例，與普通詞一起參與各種候選結(jié)果的競(jìng)爭(zhēng)。最后在全局最優(yōu)的分詞結(jié)果上進(jìn)行詞性的隱馬標(biāo)注。該方法已經(jīng)應(yīng)用到了中科院計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS中，取得了較好的分詞和標(biāo)注效果。ICTCLAS在973專家組機(jī)器翻譯第二階段的評(píng)測(cè)和2003年5月SIGHAN舉辦的第一屆漢語(yǔ)分詞大賽中，取得了不俗的成績(jī)，是目前最好的漢語(yǔ)詞法分析系統(tǒng)之一。本文第二節(jié)將概述層疊隱馬模型和

11、漢語(yǔ)詞法分析的總體框架，隨后介紹基于類的切分隱馬模型；然后分別敘述基于角色隱馬模型的未登錄詞識(shí)別方法，以及切分排岐的N最短路徑粗切分策略，最后給出各種條件下的對(duì)比測(cè)試結(jié)果，以及國(guó)家973開(kāi)放評(píng)測(cè)和國(guó)際分詞大賽的測(cè)試結(jié)果，并給出簡(jiǎn)單分析。2層疊隱馬模型和漢語(yǔ)詞法分析2.1層疊隱馬模型概述隱馬模型(HiddenMarkovModelHMM)[26]是經(jīng)典的描述隨機(jī)過(guò)程的統(tǒng)計(jì)方法，在自然語(yǔ)言處理中得到了廣泛的應(yīng)用。然而，相對(duì)于復(fù)雜的自然語(yǔ)言現(xiàn)

12、象來(lái)說(shuō)，傳統(tǒng)的HMM仍然略顯簡(jiǎn)單，為此，我們需要采用多個(gè)層次的隱馬模型對(duì)漢語(yǔ)詞法分析中遇到的不同情況進(jìn)行分別處理。文獻(xiàn)[27]提出的層次隱馬模型(HierarchicalHiddenMarkovModel，簡(jiǎn)稱HHMM)的思想。在HHMM中，有多個(gè)狀態(tài)層和一個(gè)輸出層。每一個(gè)上一層狀態(tài)都對(duì)應(yīng)于若干個(gè)下一層的子狀態(tài)，而每個(gè)狀態(tài)的子狀態(tài)的分布都是不同的，由一個(gè)隸屬于該狀態(tài)的初始子狀態(tài)概率矩陣和子狀態(tài)轉(zhuǎn)移概率矩陣所決定。最底層狀態(tài)通過(guò)一個(gè)輸出概

13、率矩陣輸出到觀察值。HHMM實(shí)際上是一種不同于HMM的更復(fù)雜的數(shù)學(xué)模型，并且具有比HMM更強(qiáng)的表達(dá)能力，不過(guò)使用起來(lái)時(shí)空開(kāi)銷也比較大。HHMM的解碼問(wèn)題求解的時(shí)間復(fù)雜度是O(NT3)，而HMM的解碼問(wèn)題求解的時(shí)間復(fù)雜度只有O(NT)，與句子長(zhǎng)度成線性關(guān)系，速度非?？臁１疚牟捎玫囊彩且环N多層隱馬爾可夫模型，稱為層疊隱馬爾可夫模型（CadedHiddenMarkovModel，簡(jiǎn)稱CHMM）。不同于HHMM的是，CHMM實(shí)際上是若干個(gè)層次的

14、簡(jiǎn)單HMM的組合，各層隱馬爾可夫模型之間以下幾種方式互相關(guān)聯(lián)，形成一種緊密的耦合關(guān)系：各層HMM之間共享一個(gè)切分詞圖作為公共數(shù)據(jù)結(jié)構(gòu)；每一層隱馬爾可夫模型都采用NBest策略，將產(chǎn)生的最好的若干個(gè)結(jié)果送到詞圖中供更高層次的模型使用；低層的HMM在向高層的HMM提供數(shù)據(jù)的同時(shí)，也為這些數(shù)據(jù)的參數(shù)估計(jì)提供支持。整個(gè)系統(tǒng)的時(shí)間復(fù)雜度與HMM相同，仍然是O(NT)。所有各層隱馬模型都采用《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料庫(kù)，通過(guò)對(duì)該語(yǔ)料庫(kù)進(jìn)行不

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于n-最短路徑方法的中文詞語(yǔ)粗分模型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于n-最短路徑方法的中文詞語(yǔ)粗分模型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載