版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第七章 詞匯分析(一) —— 找出字符串中的“詞”,詹衛(wèi)東http://ccl.pku.edu.cn/doubtfire/,2,提綱,1 從字符串到詞串 2 英語詞匯處理 2.1 Tokenization 2.2 Lemmatization 3 漢語詞匯處理 3.1 分詞算法 3.2 漢語自動分詞的困難 3.3 對分詞質量的評價 4 小結,3,1 從字符串到詞串,,,漢字的簡繁轉換 後
2、面,皇后 —— 后 松樹,鬆開 —— 松 文本校對( 改錯別字) 拋妻別字 —— 拋妻別子 (字音編碼輸入) 于預 —— 干預 (字形編碼輸入) 基于字的檢索和基于詞的檢索 檢索“人為” ,可能輸出的結果: 人為因素、人為什么活著、以人為本、……,詞匯分析是許多NLP應用系統(tǒng)的基礎。,,從字符串到詞串,是一個降低不確定性的過程,4,從字符串到詞串(續(xù)),張店區(qū)大學
3、生不看重大城市的戶口本張店區(qū) 大學生 不 看 重大 城市 的 戶口本張店區(qū) 大學生 不 看重 大 城市 的 戶口本你認為學生會聽老師的嗎你 認為 學生會 聽 老師 的 嗎你 認為 學生 會 聽 老師 的 嗎我家門前的小河很難過 ……,從字符串到詞串,存在著不確定性,,5,從字符串到詞串(續(xù)),,Dog’s - Let’
4、sad hoc - and so on - New York strong – stronger – strongest buy – bought eat – ate - eatentry - tried – tries treat – treatment,在“字符串”這個層次上,“eat”跟“ate”是相同字母的不同順序形式,在“詞串”這個層次上,“eat”跟“ate”是同一個詞的不同表現(xiàn)形式,6,
5、2 英語的詞匯處理,Tokenization:把字符串變?yōu)樵~串I’m a student -> I ’m a studentLemmatization:對詞進行內部結構和形式分析 took -> take + ed (past tense),7,2.1 Tokenization,1)數(shù)字:123,456.781 90.7% 3/8 11/20/2000 2)縮略(包含不同的情況):
6、a. 字母-點號-字母-點號組成的序列,比如:U.S. i.e. 等等;b. 字母開頭,最后以點號結束,比如:A. b. Mr. eds. prof. ;3)包含非字母字符,比如:AT&T Micro$oft4)帶杠的詞串,比如:three-years-old,one-third,so-called5)帶瞥號的詞串,比如:I'm can't dog's let
7、9;s6)帶空格的詞串,比如:"and so on","ad hoc",,Note 1: 不同語言書寫數(shù)字的習慣可能有較大差別,比如法語文本中這個數(shù)字就寫成:123 456,78,8,a. 識別分數(shù),日期的正則表達式:[ 0-9 ] + (/ [ 0-9 ] + ) + e.g. 12/21 5/13/2002b. 識別百分數(shù)的正則表達式:[ \+
8、 | \ -] ? [ 0-9]+ . ? [ 0-9 ] * % e.g. - 5.9% 91%c. 識別十進制數(shù)字的正則表達式:( [ 0-9 ] + , ? ) + (. [ 0-9 ] + | [ 0-9 ] + ) * e.g. 12,345,數(shù)字的識別(正則表達式/regular expression),有關正則表達式的更多知識,可參看 杜淑敏 等編著《編譯程序設計原理》,北京大學出版社199
9、0年版,pp51-55,,+表示出現(xiàn)1到無窮次, \ 表示轉義,?表示不出現(xiàn)或只出現(xiàn)1次,*表示出現(xiàn)0到無窮次, [ ] 表示單個字符,( )表示任意個字符,9,數(shù)字的識別(有限狀態(tài)轉移網絡),digit = 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9,10,,(1)對一個待分析的字符串(S),從左到右進行掃描,讀入當前字符(char)到候選詞數(shù)組(W[ i ]),并將指針(pointer)前移,i=i+
10、1;(2)看char是否為詞分隔符(事先可以預定義空格以及一般標點均為詞分隔符);(3)如果char是詞分隔符,并且W不是空格,將W中從起始位置到i-1位置的字符作為一個詞匯單位輸出,同時將S中的W部分刪去,然后清空W,轉入(1),如果char是詞分隔符,且W是空格,將S中的W部分刪去,清空W,轉入(1);(4)如果不是詞分隔符,看指針是否已經指到字符流尾部;(5)如果指針已經指到字符流尾部,將當前W從起始位置到i-1位置的字符
11、作為一個詞匯單位輸出,結束。(6)如果不是字符流尾部,轉入(1);,Tokenization算法的一般過程,11,Tokenization示例,S,,Pointer,Char = “.”,字符流尾部標記,i=2, W=“Mr.” 輸出: Mr, 這時S的格局為:,……,最后輸出:Mr Wu was ill,要得到“Mr.”,需要構造一個詞典,收錄這一類詞,真實文本中還有http://icl.pku.edu.cn/
12、 , doubtfire@263.net之類的串需要識別!!!,12,,2.2 Lemmatization,英語構詞模式:{前綴}+ {詞根} + {后綴} + [詞尾],詞干,13,構詞示例,boys(復數(shù)詞尾)happiness(名詞后綴)impossible(前綴)strongest(形容詞最高級詞尾)housewarmings(復合詞+復數(shù)詞尾),14,構詞分析需要的知識庫,,詞典(Dict) 前綴表(Prefi
13、xList) 后綴表(SuffixList) 有關屈折詞尾變形的規(guī)則(Rules) 比如可以構造下面這樣的規(guī)則: s -> // 詞尾字符"s"替換為空 ies -> i // 詞尾字符串"ies"替換為i i -> y // 替換詞尾"i"為"
14、;y",boys ? boytries ? try,15,Lemmatization算法的一般過程,(1)初始化:待分析的詞形=W,d=W的字符數(shù),i=1,設輸出串R="";(2)到Dict中查找W,如果找到,R=W,轉入(8);(3)如果i (d/2),執(zhí)行(4)到(7)步,否則轉入(8);(4)從W中取出i個尾字字符,W成為兩部分W1 + W2(W2為取出的尾字符串);(5)到Suff
15、ixList中查找W2,如果查到,調用規(guī)則,對W1進行處理,得到W1';(6)到Dict中查找W1',如果找到,R=W1' + " " + W2,轉入(8);(7)如果沒有找到,i=i+1,轉入(3);(8)輸出R,結束;,,16,Lemmatization示例,待分析的詞形 W=“boys” , d= 4, i=1, R=“”W不在詞典中,從W中取出1個尾字符, “boy” + “
16、s”W2=“s”,W1’=“boy”輸出:“boy” + “s”,17,Lemmatization容易碰到的問題,不規(guī)則詞形變化:child - children歧義問題:1)是詞綴 還是 詞根中的字符,有時不易判斷 比如:分析副詞詞尾“l(fā)y”的規(guī)則:(1)將串尾字符“y”去掉;(2)如果剩下的字符串以“l(fā)l”結尾,將“l(fā)l”變?yōu)椤發(fā)e”wholly ? whol ? whole fully ? ful
17、? fuleonly,inform,…… 2)不同的詞根原形,相同的詞形變化 best <- good / well?,18,Lemmatization要做到何種程度,詞干層。如:impossibilities?impossibility+ies詞根層。如:impossibilities?im+poss+ibil+it+ies分析程度取決于自然語言處理系統(tǒng)的深度: 不解決未定義詞,分析到詞干層
18、 解決未定義詞,要分析到詞根層。,19,3 漢語詞匯處理,從字符串中識別出詞 (word segmentation) “分”詞 —— “合”詞分詞的基本方法最大匹配法 (Maximum Match based approach)概率方法 (Probability approach to Word Segmentation),關于分詞的形式化定義,參看馬晏1991,基于評價的漢語自動分詞系統(tǒng)的研究與實現(xiàn),載黃昌寧、夏瑩編《語言
19、信息處理專論》,清華大學出版社1996年版,20,3.1 最大匹配法,,,21,最大匹配法分詞示例,設定最大詞長MaxLen = 5 S2= " ",分詞詞表,S1="計算語言學課程是三個課時",22,最大匹配法分詞示例(續(xù)),(1)S2="";S1不為空,從S1左邊取出候選子串W="計算語言學";(2)查詞表,“計算語言學”在詞表中,將W加入到S2中,
20、S2=“計算語言學/ ”, 并將W從S1中去掉,此時S1="課程是三個課時";(3)S1不為空,于是從S1左邊取出候選子串W="課程是三個";(4)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是三";(5)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="課程是";(6)查詞表,W不在詞表中,將W最右邊一個字去掉,
21、得到W="課程"(7)查詞表,W在詞表中,將W加入到S2中,S2=“計算語言學/ 課程/ ”,并 將W從S1中去掉,此時S1="是三個課時";,23,最大匹配法分詞示例(續(xù)),(8)S1不為空,于是從S1左邊取出候選子串W="是三個課時";(9)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="是三個課";(10)查詞表,W不在
22、詞表中,將W最右邊一個字去掉,得到W="是三個";(11)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="是三"(12)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“是”,這時 W是單字,將W加入到S2中,S2=“計算語言學/ 課程/ 是/ ”,并將 W從S1中去掉,此時S1="三個課時";(13)S1不為空,從S1左邊取出候選子串
23、W="三個課時";(14)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="三個課";(15)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="三個";(16)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“三”,這時 W是單字,將W加入到S2中,S2=“計算語言學/ 課程/ 是/ 三/ ”,并 將W從S1中去掉,此時S1=&quo
24、t;個課時";,,,24,(17)S1不為空,從S1左邊取出候選子串W="個課時";(18)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W="個課";(19)查詞表,W不在詞表中,將W最右邊一個字去掉,得到W=“個”, 這時W是單字,將W加入到S2中,S2=“計算語言學/ 課程/ 是/ 三/ 個/ ",并將W從S1中去掉,此時S1=&qu
25、ot;課時";(20)S1不為空,從S1左邊取出候選子串W="課時";(21)查詞表,W在詞表中,將W加入到S2中,S2=“計算語言學/ 課程/ 是/ 三/ 個/ 課時/ ",并將W從S1中去掉,此時S1=""。(22)S1為空,輸出S2作為分詞結果,分詞過程結束。,最大匹配法分詞示例(續(xù)),25,,,最大匹配法分詞的問題,最大詞長的確定 (1)
26、詞長過短,長詞就會被切錯(“中華人民共和國”) (2)詞長過長,效率就比較低掩蓋了分詞歧義A.“有意見分歧” (正向最大匹配和逆向最大匹配結果不同) 有意/ 見/ 分歧/ 有/ 意見/ 分歧/B.“結合成分子時” (正向最大匹配和逆向最大匹配結果相同) 結合/ 成分/ 子時/,26,分詞歧義的類型,交集型歧義 如果AB和BC都是詞典中的詞,那
27、么如果待切分字串中包含“ABC”這個子串,就必然會造成兩種可能的切分:“AB/ C/ ” 和 “A/ BC/ ”。這種類型的歧義就是交集型歧義。比如“網球場”就可能造成交集型歧義(網球/ 場/ : 網/ 球場/)。組合型歧義 如果AB和A、B都是詞典中的詞,那么如果待切分字串中包含"AB"這個子串,就必然會造成兩種可能的切分:"AB/ " 和"A/ B/ &qu
28、ot;。這種類型的歧義就是組合型歧義。比如"個人"就可能造成組合型歧義( (我) 個人/ : (三) 個/ 人/ )。,27,,分詞歧義的類型(續(xù)),鏈長:交集型歧義字段中含有交集字段的個數(shù), 稱為鏈長。鏈長為1: 和尚未鏈長為2: 結合成分鏈長為3: 為人民工作鏈長為4: 中國產品質量鏈長為6: 努力學習語法規(guī)則……混合型歧義: 這樣的人才能經受住考驗,雙向最大匹配
29、法可以發(fā)現(xiàn)鏈長為奇數(shù)的交集型歧義,但無法發(fā)現(xiàn)鏈長為偶數(shù)的交集型歧義,,28,,,,最大匹配法解決分詞歧義的能力,,IF W = "個人", WLeft = 數(shù)詞 THEN W = "個/ 人/" ENDIF,能發(fā)現(xiàn)部分交集型歧義 無法發(fā)現(xiàn)組合型歧義,對最大匹配法進行擴展:增加歧義詞表,規(guī)則等知識庫,,,,,29,,最大匹配法解決分詞歧義的能力(續(xù)),對于某些交集型歧義,可以通過增加
30、回溯機制來改進最大匹配法的分詞結果。例如:“學歷史知識” 順向掃描的結果是:“學歷/ 史/ 知識/”,通過查詞典知道“史”不在詞典中,于是進行回溯,將“學歷”的尾字“歷”取出與后面的“史”組成“歷史”,再查詞典,看“學”,“歷史”是否在詞典中,如果在,就將分詞結果調整為:“學/ 歷史/ 知識/”,30,最大概率法分詞,基本思想是:(1)一個待切分的漢字串可能包含多種分詞結果(2)將其中概率最大的那個作為該
31、字串的分詞結果,路徑1: 0-1-3-5路徑2: 0-2-3-5,該走哪條路呢?,31,最大概率法分詞,S: 有意見分歧W1: 有/ 意見/ 分歧/W2: 有意/ 見/ 分歧/,Max(P(W1|S), P(W2|S)) ?,,,獨立性假設,一元語法,,,32,最大概率法分詞,P(W1) = P(有) * P(意見) * P(分歧) = 1.8 × 10-9P(W2) = P(有意)
32、* P(見) * P(分歧) = 1×10-11P(W1) > P(W2),33,提高計算效率,,,,到達候選詞wi時的累計概率,公式1,如何盡快找到概率最大的詞串(路徑)?,34,,,提高計算效率(續(xù)),左鄰詞假定對字串從左到右進行掃描,可以得到 , , … , , , … 等若干候選詞,如果 的尾字跟 的首字鄰接,就稱
33、 為 的左鄰詞。比如上面例中,候選詞“有”就是候選詞“意見”的左鄰詞,“意見”和“見”都是“分歧”的左鄰詞。字串最左邊的詞沒有左鄰詞。最佳左鄰詞如果某個候選詞 有若干個左鄰詞 , , … 等等,其中累計概率最大的候選詞稱為 的最佳左鄰詞。比如候選詞“意見”只有一個左鄰詞“有”,因此,“有”同時也就是“意見”的最佳左鄰詞;候選詞“分歧”有兩個左鄰詞“意見”和“見”,其中“意見”的累計概率
34、大于“見”累計概率,因此“意見”是“分歧”的最佳左鄰詞,,,,,,,35,最大概率分詞算法,對一個待分詞的字串 S,按照從左到右的順序取出全部候選詞w1, w2 , … ,wi, … , wn ;到詞典中查出每個候選詞 的概率值P(wi) ,并記錄每個候選詞的全部左鄰詞;按照公式1計算每個候選詞的累計概率,同時比較得到每個候選詞的最佳左鄰詞;如果當前詞wn是字串S的尾詞,且累計概率P' (wn)最大,則wn 就是S的終點詞
35、;從wn開始,按照從右到左順序,依次將每個詞的最佳左鄰詞輸出,即為S的分詞結果。,36,最大概率分詞算法示例,(1)對“有意見分歧”,從左到右進行一遍掃描,得到全部候選詞: “有”,“有意”,“意見”,“見”,“分歧”;(2)對每個候選詞,記錄下它的概率值,并將累計概率賦初值為0;(3)順次計算各個候選詞的累計概率值,同時記錄每個候選詞的 最佳左鄰詞:P'(有)=P(有),P'(有意) = P(
36、有意),P‘(意見)=P’(有) × P(意見),(“意見”的最佳左鄰詞為“有”)P‘(見)=P’(有意) × P(見),(“見”的最佳左鄰詞為“有意”)P'(意見)>P'(見) (4)“分歧”是尾詞,“意見”是“分歧”的最佳左鄰詞,分詞過程結束, 輸出結果:有/ 意見/ 分歧/,37,,,最大概率法分詞的問題,并不能解決所有的交集型歧義問題“這事的確定不下來”W1=
37、 這/ 事/ 的確/ 定/ 不/ 下來/W2= 這/ 事/ 的/ 確定/ 不/ 下來/無法解決組合型歧義問題“做完作業(yè)才能看電視”W1= 做/ 完/ 作業(yè)/ 才能/ 看/ 電視/W2= 做/ 完/ 作業(yè)/ 才/ 能/ 看/ 電視/,P(W1)<P(W2),P(W1)>P(W2),38,漢語切分的數(shù)據(jù)結構-詞圖,根據(jù)這個數(shù)據(jù)結構,我們可
38、以把詞法分析中的幾種操作轉化為:給詞圖上添加邊(查詞典,處理重疊詞、離合詞、前后綴和未定義詞);尋找一條起點S到終點E的最優(yōu)路徑(切分排歧);給路徑上的邊加上標記(詞性標注);,結合,合成,成分,,,,,,,,,,,,合,成,分,子,時,結,S,E,子時,分子,,,,,,,,,,39,“結合成分子時”的全部分詞路徑示意,$,40,最短路徑分詞方法,基本思想:在詞圖上選擇一條詞數(shù)最少的路徑優(yōu)點:好于單向的最大匹配方法最大匹配:
39、獨立自主 和平 等 互利 的 原則 (6)最短路徑:獨立自主 和 平等互利 的 原則 (5)缺點:同樣無法解決大部分交叉歧義結合 成分 子時 他 說 的 確實 在理 (都是最短路徑)他 說 的確 實在 理他 說 的確 實 在理,41,半詞法分詞,大多數(shù)單字在語境里如果能組成合適的詞就不傾向于單獨使用。半詞:如果一個字不單獨作為詞使用,就是半詞。半詞既包含了成詞語素,也包含了不成詞語素,后者肯定是半詞,比如“民”
40、,前者則要看它作為語素的使用頻度高,還是作為單字詞的使用頻度高,比如“見” 。整詞:如果一個字更傾向于自己成詞而不傾向于和別的字組成詞,這類“單字詞”就稱之為“整詞”。這類詞就是一般說的單字高頻成詞語素,比如“人、說、我”等。基本思路:充分利用半詞和整詞的差別,盡量選擇沒有半詞落單的分詞方案。,42,半詞法分詞(續(xù)1),在詞圖中引入罰分機制罰分規(guī)則:1 每個詞對應的邊罰1分。2 每個半詞對應的邊加罰1分。3 一個分詞方案的評
41、分為它所對應的路徑上所有 邊的罰分之和。4 罰分越低,越可能是正確的分詞,43,半詞法分詞(續(xù)2),他 說 的 確實 在理 (1+1+1+1+1 = 5分) 他 說 的確 實 在理 (1+1+1+2+1 = 6分)他 說 的確 實在 理 (1+1+1+1+2 = 6分),注意:仍然無法解決 “結合成分子時”,44,3.2 漢語自動分詞的困難,分詞規(guī)范 分詞歧義 未登錄詞識別,劉源 等(1994)《信息處理用現(xiàn)代
42、漢語分詞規(guī)范及自動分詞方法》,清華大學出版社、廣西科學技術出版社,1994年版。黃居仁、陳克健 等(1997)《信息處理用中文分詞規(guī)范設計理念及規(guī)范內容》,載《語言文字應用》1997年第1期。,“聯(lián)合國教科文組織”是1個詞嗎?,《信息處理用漢語分詞規(guī)范》 GB/T13715-92,中國標準出版社,1993《資訊處理用中文分詞規(guī)范》 臺灣中研院《人民日報》語料庫詞語切分規(guī)范 北大計算語言所,45,,,漢語真實文本中的分
43、詞歧義情況,交集型歧義字段在語料中的分布情況(劉開瑛2000, p65),,語料規(guī)模:500萬字新聞語料,46,漢語真實文本中的分詞歧義情況(續(xù)),真歧義確實能在真實語料中發(fā)現(xiàn)多種切分形式比如“應用于”、“地面積”偽歧義雖然有多種切分可能性,但在真實語料中往往取其中一種切分形式比如“挨批評”、“市政府”,47,漢語真實文本中的分詞歧義情況(續(xù)),材料一:孫茂松 等 1999一個1億字真實漢語語料庫中抽取出的前4,61
44、9個高頻交集型歧義切分覆蓋了該語料庫中全部交集型歧義切分的59.20%,其中4279個屬偽歧義(占92.63%,如“和軟件”、“ 充分發(fā)揮”、“情不自禁地”),覆蓋率高達53.35%。材料二:劉開瑛 2000,第4章78248個交集型歧義字段中,偽歧義:94% 真歧義:6% 多切分 12%
45、 單切分 88%,,48,漢語真實文本中的分詞歧義情況(續(xù)),分詞歧義的四個層級(何克抗 等 1991, 50883字語料)詞法歧義 :84.1% (“用方塊圖形式加以描述”)句法歧義 :10.8% (“他一陣風似的跑了”)語義歧義 :3.4% (“學生會寫文章”)語用歧義 :1.7% (“美國會采取措施制裁伊拉克”),基于句法和語義處
46、理技術的歧義分析精度的上限("語義級理想切分精度"1/6250),所謂切分精度,即指錯誤率,,49,,未登錄詞(unknown word),中外的人名,地名(“雪村”,“老張”,“莎士比亞”,“敘利亞” );中外組織機構單位名稱和商品品牌名("希望電腦","國際乒聯(lián)","非??蓸?quot;);專業(yè)領域的大量術語("線性回歸","韋特
47、比算法");新詞語,縮略語("卡拉OK","E時代","打假");漢語重疊形式、離合詞的分析看看 家家 打聽打聽 高高興興 樂呵呵 看一看 看了看黑不溜逑 古里古怪游了一會兒泳 發(fā)理了沒有 擔什么心 幽了他一默,out of vocabulary – oov problem,50,,識別未登錄詞的
48、策略,盡可能多地收集詞匯,以降低碰到未登錄詞的機會;通過構詞規(guī)則和上下文特征規(guī)則來識別; “雪村先生創(chuàng)作了很多歌曲” 通過統(tǒng)計的方法來猜測經過一般的分詞過程后剩下的"連續(xù)單字詞碎片"是人名、地名等的可能性,從而識別出未登錄詞。,51,未定義詞識別的一般方法,每一類未定義詞都要構造專門的識別算法識別依據(jù)內部構成規(guī)律(用字規(guī)律)外部環(huán)境(上下文)重復出現(xiàn)規(guī)律,52,未定義詞識別的研究進展,較成
49、熟中國人名、譯名中國地名較困難商標字號機構名很困難專業(yè)術語縮略語新詞語,53,中國人名的內部構成規(guī)律 1,在漢語的未定義詞中,中國人名是規(guī)律性最強,也是最容易識別的一類;中國人名一般由以下部分組合而成:姓:張、王、李、劉、諸葛、西門、范徐麗泰名:李素麗,張華平,王杰、諸葛亮前綴:老王,小李后綴:王老,趙總中國人名各組成部分用字比較有規(guī)律,54,中國人名的內部構成規(guī)律 2,根據(jù)統(tǒng)計, 漢語姓氏大約有1000
50、多個, 姓氏中使用頻度最高的是“王”姓;“王, 陳, 李, 張, 劉” 等5個大姓覆蓋率達32%;姓氏頻度表中的前14個高頻度的姓氏覆蓋率為50%;前400個姓氏覆蓋率達99%。 人名的用字也比較集中。 頻度最高的前6個字覆蓋率達10.35%;前10個字的覆蓋率達14.936%;前15個字的覆蓋率達19.695%;前400個字的覆蓋率達90%。,55,中國人名的內部構成規(guī)律 3,中國人名各組成部分的組合規(guī)律姓+名姓
51、名前綴+姓姓+后綴姓+姓+名(海外已婚婦女),56,中國人名的上下文構成規(guī)律,身份詞:前:工人、教師、影星、犯人后:先生、同志前后:女士、教授、經理、小姐、總理地名或機構名:前:靜??h大丘莊禹作敏的字結構前:年過七旬的王貴芝動作詞前:批評,逮捕,選舉后:說,表示,吃,結婚……,57,中國人名識別的難點,一些高頻姓名用字在非姓名中也是高頻字姓氏:于,馬,黃,張,向,常,高名字:周鵬和同學,周鵬和同學 人
52、名內部相互成詞,指姓與名、名與名之間本身就是一個已經被收錄的詞 [王國]維、[高峰]、[汪洋]、張[朝陽] 人名與其上下文組合成詞這里[有關]天培的壯烈;費孝通向人大常委會提交書面報告 人名地名沖突河北省劉莊,58,中國地名的識別,中國地名委員會編寫了《中華人民共和國地名錄》,收集了全國鄉(xiāng)鎮(zhèn)以上(含鄉(xiāng)鎮(zhèn))各級行政區(qū)域的名稱,以鄉(xiāng)鎮(zhèn)人民政府所在地為主的居民聚落名稱,山、河、湖、海、島、高原、盆地、沙溪等自然地理實體名稱,名勝古
53、跡、紀念地、古遺址、水庫、橋梁、電站等名稱。共收錄地名10萬多條。這個地名錄中使用的漢字共2662個,頻度最高的前65個漢字占總頻度的50.22%,前622個漢字占總頻度的90.01%,前1872個漢字占總頻度的99%。與人名的用字情況相比較,地名用字分散得多地名內部也有一定的結構,右邊界比左邊界更容易識別,59,音譯名的識別 1,音譯名用字非常集中《英語姓名譯名手冊》中共收英語姓氏, 教名約4萬個, 經計算機統(tǒng)計得出英語姓名譯名用
54、字表共476個: “啊阿埃艾愛昂奧巴白柏拜班邦包保堡鮑北貝倍本比彼邊別濱賓玻波博勃伯卜布采蔡藏策查察昌徹陳楚垂茨慈次聰存措達大戴代丹當?shù)赖碌玫青嚨系椎氐俚诘鄱|杜敦頓多厄恩耳爾法凡范方菲費芬豐馮佛夫福弗輔富蓋甘岡高哥戈葛格各根貢古顧瓜圭郭果哈海罕翰漢杭豪赫黑亨洪侯胡華懷惠霍基吉季計嘉佳加賈簡姜焦杰捷金津京久居喀卡開凱坎康考柯科可克肯孔扣寇庫夸匡奎魁坤昆闊拉臘萊來賴蘭朗勞勒樂雷黎理李里禮荔麗歷利立蓮連廉良列琳林霖齡留劉流柳龍隆盧魯露路呂
55、略倫蘿羅洛瑪馬麥邁滿曼芒茅梅門蒙孟米密敏明名摩莫墨默姆木穆拿娜納乃奈南內嫩能妮尼年涅寧牛紐農努女諾歐帕派潘龐培佩彭蓬皮匹平潑樸普漆奇齊契恰錢強喬切欽琴青瓊丘邱屈讓熱仁日榮茹儒瑞若撒薩塞賽三繕桑瑟森莎沙珊山尚紹舍申生盛圣施詩石什史士壽舒朔斯思絲松孫索所塔泰坦湯唐陶特藤提惕田鐵汀廷亭通透圖托脫娃瓦萬旺威韋為維偉魏衛(wèi)溫文翁沃烏武伍西錫希悉席霞夏顯香向曉肖歇謝欣辛興幸姓雄休修雪遜雅亞延揚陽堯耀耶葉依易意因英永尤雨約宰贊早澤曾扎詹湛章張哲者珍真芝
56、知智治朱卓茲子宗祖佐丕謨葆薇岑弼婭繆珀瑙賚滕斐熙鳩竇艮麟黛”。,辛華編《英語姓名譯名手冊》商務印書館1973年(修訂版)新華通訊社譯名資料組編《英語姓名譯名手冊》商務印書館1997年(第二次修訂版),60,音譯名的識別 2,音譯名內部很難劃分出結構,但有一些常見音節(jié),如“斯基、斯坦”等不同語言的音譯規(guī)律不盡相同,如法語、俄語、蒙古語譯名用字與英語就有較大區(qū)別(蒙語人名舉例:“那順烏日圖、青格勒圖”),如果按不同的語言訓練不同的模型可
57、能會比使用統(tǒng)一的模型效果更好音譯名可以是人名、地名或其他專名,上下文規(guī)律差別較大由于音譯名用字比較集中,識別正確率較高,61,機構名的內部構成規(guī)律 1,機構名一般都是定中結構機構名的后綴一般比較集中,識別相對容易機構名左邊界識別非常困難機構名中含有大量的人名、地名、企業(yè)字號等專有名稱。在這些專有名稱中,地名所占的比例最大,其中未登錄地名又占了相當一部分的比例。所以機構名識別應在人名、地名等其他專名識別之后進行,其他專名識別的正
58、確率對機構名識別正確率有較大影響,62,機構名的內部構成規(guī)律 2,中文機構名用詞非常廣泛。通過對人民日報1998年1月中的10817個機構名所含的19986個詞進行統(tǒng)計,共計27種詞,其中名詞最多(9941個),地名其次(5023個),以下依次為簡稱(1169個)、專有名詞(1125個)、動詞(848個)以及機構名(714個)等機構名長度極其不固定 機構名很不穩(wěn)定。隨著社會發(fā)展,新機構不斷涌現(xiàn),舊機構不斷被淘汰、改組或更名,63,3
59、.3 對分詞質量的評價,計算分詞正確率的不同標準以字數(shù)或詞數(shù)算以句數(shù)算分詞質量對NLP應用系統(tǒng)的影響分詞質量對MT的影響分詞質量對IR的影響,“移動電話” 從合 —— 對翻譯、校對有利從分 —— 對IR有利,64,小結,詞語破碎處,無物存在 —— 引自海德格爾《在通向語言的途中》, 商務印書館1997年版
60、從字串到詞串,存在著多種可能性(不確定性),因而分詞的過程也就是一個降低不確定性的過程,為了降低不確定性,需要為計算機提供確定的“語言知識”,這種知識可以是詞典形式的,可以是規(guī)則形式的,也可以是統(tǒng)計數(shù)據(jù)形式的。,65,進一步閱讀文獻,劉開瑛,2000,《中文文本自動分詞和標注》,商務印書館,第1-6章趙鐵軍,2000,《機器翻譯原理》,哈爾濱工業(yè)大學出版社,第3章馮志偉,2001,《計算語言學基礎》,商務印書館,第2章何克抗 等
61、,1991,《書面漢語自動分詞專家系統(tǒng)設計原理》,載《中文信息學報》,1991年第2期。白栓虎,1995,《漢語詞切分及標注一體化方法》,載陳力為、袁琦主編《計算語言學進展與應用》,清華大學出版社。孫茂松 等,1999,《高頻最大交集型歧義切分字段在漢語自動分詞中的作用》,載《中文信息學報》1999年第1期。陳小荷,2000,《現(xiàn)代漢語自動分析》,北京語言文化大學出版社,第7章語言學光標網站之詞法分析板塊,66,復習思考題,,什
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- cmd批處理替換字符串、截取字符串、擴充字符串
- 找出兩個字符串中所有共同的子串
- php字符串操作函數(shù)
- 字符串類型轉換總結
- 課程設計--查找字符串中的指定字符
- c++字符串分詞
- 字符串模式匹配---bf算法
- visual basic字符串處理函數(shù)
- 課程設計--- 字符串排序
- c語言字符串操作大全
- c語言題目 字符串比對
- 課程設計--字符串的操作
- 課程設計--字符串類
- scanf格式控制字符串
- kmp字符串模式匹配詳解
- 相似字符串查找算法研究.pdf
- 數(shù)據(jù)結構與算法字符串
- 七、字符串函數(shù)-lxw的大數(shù)據(jù)田地
- 課程設計--實現(xiàn)字符串的多種操作
- 支持帶有通配符的字符串匹配算法.pdf
評論
0/150
提交評論