基于n-最短路徑方法的中文詞語(yǔ)粗分模型_第1頁(yè)
已閱讀1頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于層疊隱馬模型的漢語(yǔ)詞法分析?劉群13張華平12俞鴻魁1程學(xué)旗11中國(guó)科學(xué)院計(jì)算技術(shù)研究所北京1000802中國(guó)科學(xué)院研究生院北京1000393北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所北京100871Email:liuqunzhanghpyuhongkuicxq@ict.摘要:本文提出了一種基于層疊隱馬模型的漢語(yǔ)詞法分析方法,旨在將漢語(yǔ)分詞、詞性標(biāo)注、切分排歧和未登錄詞識(shí)別集成到一個(gè)完整的理論框架中。在分詞方面,采取的是基于類的隱馬模型,在這層隱馬模

2、型中,未登錄詞和詞典中收錄的普通詞一樣處理。未登錄詞識(shí)別引入了角色HMM:Viterbi算法標(biāo)注出全局最優(yōu)的角色序列,然后在角色序列的基礎(chǔ)上,識(shí)別出未登錄詞,并計(jì)算出真實(shí)的可信度。在切分排歧方面,作者提出了一種基于N最短路徑的策略,即:在早期階段召回N個(gè)最佳結(jié)果作為候選集,目的是覆蓋盡可能多的歧義字段,最終的結(jié)果會(huì)在未登錄詞識(shí)別和詞性標(biāo)注之后,從N個(gè)最有潛力的候選結(jié)果中選優(yōu)得到。不同層面的實(shí)驗(yàn)表明,層疊隱馬模型的各個(gè)層面對(duì)漢語(yǔ)詞法分析都

3、發(fā)揮了積極的作用。作者實(shí)現(xiàn)了基于層疊隱馬模型的漢語(yǔ)詞法分析系統(tǒng)ICTCLAS,該系統(tǒng)在2002年的973專家組評(píng)測(cè)中獲得第一名,在2003年漢語(yǔ)特別興趣研究組(theACLSpecialInterestGrouponChineseLanguageProcessingSIGHAN)組織的第一屆國(guó)際漢語(yǔ)分詞大賽中綜合得分獲得兩項(xiàng)第一名、一項(xiàng)第二名。這表明:ICTCLAS是目前最好的漢語(yǔ)詞法分析系統(tǒng)之一,層疊隱馬模型能夠解決好漢語(yǔ)詞法問(wèn)題。關(guān)

4、鍵詞:漢語(yǔ)詞法分析分詞詞性標(biāo)注未登錄詞識(shí)別層疊隱馬模型ICTCLAS中圖法分類號(hào):TP391.2文獻(xiàn)標(biāo)識(shí)碼:AChineseLexicalAnalysisUsingCadedHiddenMarkovModelLIUQun13ZHANGHuaPing12YUHongkui1CHENGXueQi11InstituteofComputingTechnologyTheChineseAcademyofSciencesBeijing100080CH

5、INA2GraduateSchooloftheChineseAcademyofSciencesBeijing100039CHINA3Inst.ofComputationalLinguisticsPekingUniversityBeijing100871CHINAEmail:liuqunzhanghpyuhongkuicxq@ict.Abstract:ThispaperpresentsanapproachfChineselexicalan

6、alysisusingCadedhiddenMarkovmodel(CHMM)whichaimstoincpateChinesewdsegmentationPartOfSpeechtaggingdisambiguationunknownwdsrecognitionintoanintegratedtheeticalframe.AclassbasedHMMisappliedinwdsegmentationinthismodelunknown

7、wdsaretreatedinthesamewayascommonwdslistedinthelexicon.UnknownwdsarerecognizedwithreliabilityonrolessequencetaggedusingViterbialgithminrolesHMM.Asfdisambiguationtheauthsbringfthannshtestpathstrategythatintheearlystageres

8、ervesthetopNsegmentationresultsascidatescoversmeambiguity.Variousexperimentsshowthat本文得到國(guó)家重點(diǎn)基礎(chǔ)研究項(xiàng)目(G19980305074;G1998030510)和計(jì)算所領(lǐng)域前沿青年基金項(xiàng)目2002618023資助因此使用的模型和方法都沒(méi)有貫徹到底,缺乏統(tǒng)一的處理算法,對(duì)切分結(jié)果也缺乏統(tǒng)一的評(píng)估體系。最終導(dǎo)致分詞的準(zhǔn)確率在開(kāi)放測(cè)試的條件下并不像宣稱的那

9、樣理想,處理含有未登錄詞、歧義字段的真實(shí)文本時(shí),效果更是不盡人意。本文提出了一種基于層疊隱馬模型的方法,旨在將漢語(yǔ)分詞、切分排歧、未登錄詞識(shí)別、詞性標(biāo)注等詞法分析任務(wù)融合到一個(gè)相對(duì)統(tǒng)一的理論模型中。首先,在預(yù)處理的階段,采取N最短路徑粗分方法,快速的得到能覆蓋歧義的最佳N個(gè)粗切分結(jié)果;隨后,在粗分結(jié)果集上,采用底層隱馬模型識(shí)別出普通無(wú)嵌套的人名、地名,并依次采取高層隱馬模型識(shí)別出嵌套了人名、地名的復(fù)雜地名和機(jī)構(gòu)名;然后將識(shí)別出的未登錄詞

10、以科學(xué)計(jì)算出來(lái)的概率加入到基于類的切分隱馬模型中,未登錄詞與歧義均不作為特例,與普通詞一起參與各種候選結(jié)果的競(jìng)爭(zhēng)。最后在全局最優(yōu)的分詞結(jié)果上進(jìn)行詞性的隱馬標(biāo)注。該方法已經(jīng)應(yīng)用到了中科院計(jì)算所漢語(yǔ)詞法分析系統(tǒng)ICTCLAS中,取得了較好的分詞和標(biāo)注效果。ICTCLAS在973專家組機(jī)器翻譯第二階段的評(píng)測(cè)和2003年5月SIGHAN舉辦的第一屆漢語(yǔ)分詞大賽中,取得了不俗的成績(jī),是目前最好的漢語(yǔ)詞法分析系統(tǒng)之一。本文第二節(jié)將概述層疊隱馬模型和

11、漢語(yǔ)詞法分析的總體框架,隨后介紹基于類的切分隱馬模型;然后分別敘述基于角色隱馬模型的未登錄詞識(shí)別方法,以及切分排岐的N最短路徑粗切分策略,最后給出各種條件下的對(duì)比測(cè)試結(jié)果,以及國(guó)家973開(kāi)放評(píng)測(cè)和國(guó)際分詞大賽的測(cè)試結(jié)果,并給出簡(jiǎn)單分析。2層疊隱馬模型和漢語(yǔ)詞法分析2.1層疊隱馬模型概述隱馬模型(HiddenMarkovModelHMM)[26]是經(jīng)典的描述隨機(jī)過(guò)程的統(tǒng)計(jì)方法,在自然語(yǔ)言處理中得到了廣泛的應(yīng)用。然而,相對(duì)于復(fù)雜的自然語(yǔ)言現(xiàn)

12、象來(lái)說(shuō),傳統(tǒng)的HMM仍然略顯簡(jiǎn)單,為此,我們需要采用多個(gè)層次的隱馬模型對(duì)漢語(yǔ)詞法分析中遇到的不同情況進(jìn)行分別處理。文獻(xiàn)[27]提出的層次隱馬模型(HierarchicalHiddenMarkovModel,簡(jiǎn)稱HHMM)的思想。在HHMM中,有多個(gè)狀態(tài)層和一個(gè)輸出層。每一個(gè)上一層狀態(tài)都對(duì)應(yīng)于若干個(gè)下一層的子狀態(tài),而每個(gè)狀態(tài)的子狀態(tài)的分布都是不同的,由一個(gè)隸屬于該狀態(tài)的初始子狀態(tài)概率矩陣和子狀態(tài)轉(zhuǎn)移概率矩陣所決定。最底層狀態(tài)通過(guò)一個(gè)輸出概

13、率矩陣輸出到觀察值。HHMM實(shí)際上是一種不同于HMM的更復(fù)雜的數(shù)學(xué)模型,并且具有比HMM更強(qiáng)的表達(dá)能力,不過(guò)使用起來(lái)時(shí)空開(kāi)銷也比較大。HHMM的解碼問(wèn)題求解的時(shí)間復(fù)雜度是O(NT3),而HMM的解碼問(wèn)題求解的時(shí)間復(fù)雜度只有O(NT),與句子長(zhǎng)度成線性關(guān)系,速度非??臁1疚牟捎玫囊彩且环N多層隱馬爾可夫模型,稱為層疊隱馬爾可夫模型(CadedHiddenMarkovModel,簡(jiǎn)稱CHMM)。不同于HHMM的是,CHMM實(shí)際上是若干個(gè)層次的

14、簡(jiǎn)單HMM的組合,各層隱馬爾可夫模型之間以下幾種方式互相關(guān)聯(lián),形成一種緊密的耦合關(guān)系:各層HMM之間共享一個(gè)切分詞圖作為公共數(shù)據(jù)結(jié)構(gòu);每一層隱馬爾可夫模型都采用NBest策略,將產(chǎn)生的最好的若干個(gè)結(jié)果送到詞圖中供更高層次的模型使用;低層的HMM在向高層的HMM提供數(shù)據(jù)的同時(shí),也為這些數(shù)據(jù)的參數(shù)估計(jì)提供支持。整個(gè)系統(tǒng)的時(shí)間復(fù)雜度與HMM相同,仍然是O(NT)。所有各層隱馬模型都采用《人民日?qǐng)?bào)》標(biāo)注語(yǔ)料庫(kù)作為訓(xùn)練語(yǔ)料庫(kù),通過(guò)對(duì)該語(yǔ)料庫(kù)進(jìn)行不

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論