基于隱馬模型的中國(guó)人名自動(dòng)識(shí)別研究_第1頁(yè)
已閱讀1頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1AutomaticAutomaticRecognitionRecognitionofofChineseChineseUnknownUnknownWdsWdsUsingUsingHMMHMM基于角色標(biāo)基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別研究注的中國(guó)人名自動(dòng)識(shí)別研究張華平.劉群(LiuQun)Liuqun@ict.中國(guó)科學(xué)院計(jì)算技術(shù)研究所軟件實(shí)驗(yàn)室北京100080摘要:摘要:中國(guó)人名的識(shí)別是中文未登錄詞識(shí)別的重點(diǎn)和難點(diǎn),目前的解決方案自身存在一

2、些本質(zhì)的缺陷,實(shí)際效果還難以滿足實(shí)際需求。本文提出了一種基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別方法。即:利用從語(yǔ)料庫(kù)中自動(dòng)抽取的角色信息,采取Viterbi算法對(duì)切詞結(jié)果進(jìn)行角色標(biāo)注,在角色序列的基礎(chǔ)上,進(jìn)行模式最大匹配,最終實(shí)現(xiàn)中國(guó)人名的識(shí)別。通過(guò)對(duì)16M字節(jié)真實(shí)語(yǔ)料庫(kù)的封閉與開(kāi)放測(cè)試,該方法取得了接近98%的召回率,準(zhǔn)確率也得到了實(shí)際提高。實(shí)驗(yàn)數(shù)據(jù)證明:該方法是行之有效、能夠成功解決中國(guó)人名的自動(dòng)識(shí)別問(wèn)題。關(guān)鍵詞:關(guān)鍵詞:未登錄詞識(shí)別;中國(guó)

3、人名;角色標(biāo)注1.1.引言引言詞語(yǔ)分析是中文自然語(yǔ)言處理的前提和基礎(chǔ),中文詞語(yǔ)分析的研究已經(jīng)取得較大的進(jìn)展,但在處理含有未登錄詞的文本時(shí),其結(jié)果一般難以滿足實(shí)際的需求。未登錄詞的錯(cuò)誤識(shí)別,不僅僅使自身無(wú)法正確識(shí)別召回,而且往往與前后的其他字詞交叉組合,嚴(yán)重地影響其他詞的正確識(shí)別,從而直接的降低了詞語(yǔ)分析乃至整個(gè)句子分析的正確率。未登錄詞的自動(dòng)識(shí)別已經(jīng)成為了中文詞語(yǔ)分析質(zhì)量的實(shí)際瓶頸。中國(guó)人名在未登錄詞占有較大比重,也是未登錄詞識(shí)別的主要

4、難點(diǎn)。根據(jù)我們對(duì)人民日?qǐng)?bào)1998年1月的語(yǔ)料庫(kù)(共計(jì)2305896字)進(jìn)行的統(tǒng)計(jì),每100字中含未登錄詞1.192個(gè)(不計(jì)數(shù)詞、時(shí)間詞),其中48.6%的是中國(guó)人名。而中國(guó)人名的召回率僅為68.77%[1],其切分錯(cuò)誤高達(dá)50%以上,對(duì)所有分詞錯(cuò)誤進(jìn)行統(tǒng)計(jì),姓名錯(cuò)誤占了將近90%[2]。因此中國(guó)人名的自動(dòng)識(shí)別是未登錄識(shí)別問(wèn)題的重點(diǎn)和關(guān)鍵,中國(guó)人名識(shí)別問(wèn)題的解決也會(huì)改善漢語(yǔ)詞語(yǔ)分析、句法分析乃至中文信息處理的最終質(zhì)量。1.11.1中國(guó)人名

5、自動(dòng)識(shí)別的困難中國(guó)人名自動(dòng)識(shí)別的困難中國(guó)人名數(shù)量眾多,規(guī)律各異,有很大的隨意性。其主要的困難在于:1中國(guó)人名構(gòu)成的多樣性;2人名內(nèi)部相互成詞;3人名與其上下文組合成詞;4歧義理解。1中國(guó)人名構(gòu)成的多樣性:(1)姓名:張華平、張浩、西門(mén)吹雪、諸葛亮;(2)有名無(wú)姓:“春花點(diǎn)點(diǎn)頭”;“杰,你好嗎?”(3)有姓無(wú)名:“劉稱趙已離開(kāi)江西”;(4)姓前后綴劉總、張老、小李、邱某;(5)港臺(tái)已婚婦女:范徐麗泰、彭張青。2人名內(nèi)部相互成詞,指的是姓與

6、名、名與名之間本身就是一個(gè)已經(jīng)被收錄的詞。如:[王國(guó)]維、[高峰]、[汪洋]、張[朝陽(yáng)]。根據(jù)我們對(duì)80000條中國(guó)人名的統(tǒng)計(jì),內(nèi)部成詞的比例高達(dá)8.49%。3人名與其上下文組合成詞的情況包括人名的首部(姓或名的首字)與人名的上文成詞和人名的尾部(姓或名的首字)與人名的下文成詞。例如:“這里[有關(guān)]天培的壯烈”;32、基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別方法、基于角色標(biāo)注的中國(guó)人名自動(dòng)識(shí)別方法2.12.1中國(guó)人名的構(gòu)成角色中國(guó)人名的構(gòu)成角色中

7、國(guó)人名的內(nèi)部構(gòu)成與上下文比較集中,而且有一定的規(guī)律性。在83077條人名庫(kù)中,姓氏用字僅有820個(gè),其中王、張、李三大姓,就占了20%;20631個(gè)單名中,單名用字為1489個(gè)雙名的首字與末用字?jǐn)?shù)均不到2000個(gè)。人名的上下文種類也很有限。上文一般是稱呼、職銜以及一些連詞、動(dòng)詞,如:“總統(tǒng)”、“主任”、“打”、“向”等。下文大多是像“說(shuō)”、“表示”、“主席”之類的詞。我們將人名的內(nèi)部組成、上下文等與人名識(shí)別相關(guān)的成分稱為中國(guó)人名的構(gòu)成角

8、色(為行文方便,以下簡(jiǎn)稱角色)。我們利用角色表(見(jiàn)表1)對(duì)“館內(nèi)陳列周恩來(lái)和鄧穎超生前使用過(guò)的物品?!边M(jìn)行角色標(biāo)注,其結(jié)果為:“館A內(nèi)A陳列K周B恩C來(lái)D和M鄧B穎C超生V前A使用A過(guò)A的A物品A。A”編碼編碼代碼代碼意義意義例子例子BPf姓氏張華平先生CPm雙名的首字張華平先生DPt雙名的末字張華平先生EPs單名張浩說(shuō):“我是一個(gè)好人”FPpf前綴老劉、小李GPlf后綴王總、劉老、肖氏、吳媽、葉帥KPp人名的上文又來(lái)到于洪洋的家。LP

9、n人名的下文新華社記者黃文攝MPpn兩個(gè)中國(guó)人名之間的成分編劇邵鈞林和稽道青說(shuō)UPpf人名的上文和姓成詞這里有關(guān)天培的壯烈VPnw人名的末字和下文成詞龔學(xué)平等領(lǐng)導(dǎo)鄧穎超生前XPfm姓與雙名的首字成詞王國(guó)維、YPfs姓與單名成詞高峰、汪洋ZPmt雙名本身成詞張朝陽(yáng)APo以上之外其他的角色表1中國(guó)人名的構(gòu)成角色表2.22.2角色自動(dòng)標(biāo)注與中國(guó)人名識(shí)別角色自動(dòng)標(biāo)注與中國(guó)人名識(shí)別既然含中國(guó)人名的句子包含姓、名、上下文等構(gòu)成角色,那么換一個(gè)角度說(shuō)

10、:我們就可以通過(guò)對(duì)構(gòu)成角色進(jìn)行標(biāo)注通過(guò)對(duì)角色序列簡(jiǎn)單的模式匹配來(lái)實(shí)現(xiàn)中國(guó)人名的識(shí)別。而中國(guó)人名構(gòu)成角色的標(biāo)注實(shí)質(zhì)是一個(gè)簡(jiǎn)單的詞性標(biāo)注過(guò)程。我們采用的是Viterbi算法[9]進(jìn)行角色自動(dòng)標(biāo)注。即:從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注作為最終標(biāo)注結(jié)果。其理論及推導(dǎo)如下:我們假定W是分詞后的Token序列(即未登錄詞識(shí)別前的分詞結(jié)果),T是W某個(gè)可能的角色標(biāo)注序列.其中T#為最終標(biāo)注結(jié)果,即概率最大的角色序列。則有:W=(w1w2…w

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論