中文信息處理論文_第1頁
已閱讀1頁,還剩3頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、<p><b>  中文信息處理</b></p><p><b>  學號: </b></p><p><b>  姓名: </b></p><p><b>  班級: </b></p><p><b>  時間: </b>

2、</p><p>  淺談中文信息處理之漢語自動分詞 </p><p>  【摘 要】:漢語自動分詞問題是中文信息處理技術發(fā)展的一大熱點也是一大難點,對于自動分詞研究的出發(fā)點的不同,其自動分詞方法也是不一。自動分詞給我們的日常的生活帶來了便利,但同時也尚有一些急需解決的問題存在。</p><p>  【關鍵詞】:自動分詞;中文

3、信息處理;技術</p><p>  中文信息處理是第一次接觸的一門學科,幾個月的學習下來對它也有了初步的一些了解。中文信息處理是自然語言信息處理的一個分支,是一門與計算機科學、語言學、信息學、聲學等多種學科相關聯(lián)的綜合性學科。中文信息處理指的是利用計算機對漢語書面語形式和口語形式這兩種信息進行加工,加工的結(jié)果形成各種信息處理系統(tǒng),實現(xiàn)中文的信息檢索、語音識別、機器翻譯等。簡單的說,中文信息處理就是解決漢字和漢語輸

4、入和輸出電子計算機的問題的一門學科。筆者認為中文信息處理這門學科與其它的綜合學科一樣,內(nèi)容繁多復雜,有一定的難度和復雜性,因此,我就幾個月來所學的內(nèi)容、課本以及一些對中文信息處理進行研究的學者的觀點談談自己對漢語自動分詞的看法。</p><p>  眾所周知,中文文本沒有類似英文空格之類的標志來標示詞的邊界標志。由于漢語的書寫形式不像西文,詞與詞之間沒有間隔,所以就比西文的語言處理多了一道手續(xù):自動分詞。所謂漢語

5、自動分詞,是把輸入計算機的漢語詞句自動切分為詞的序列的過程。漢語自動分詞的任務我們用通俗的話來說,就是要由機器在中文文本中詞與詞之間自動加上空格。這樣才能進行下一步的句法語義分析及處理。</p><p><b> ?。ㄒ唬┳詣臃衷~方法</b></p><p>  根據(jù)對于自動分詞研究的出發(fā)點的不同,目前較權威的觀點來看大概可以歸納為三大類:基于詞典的分詞方法、基于統(tǒng)計

6、的分詞方法、基于AI 的分詞方法。我們上課所學的主要是第二種,即基于統(tǒng)計的分詞方法。因此,這里我主要談談基于統(tǒng)計的分詞方法,其它兩類簡要概括一下。</p><p>  1.基于詞典的分詞方法</p><p>  這種分詞方法是前蘇聯(lián)專家在上個世紀50 年代末提出來的。其基本思想是:事先建立一詞庫(詞典),其中包含所有可能出現(xiàn)的詞。對給定的待分詞的漢字串S,按照某種確定的原則切取S的子串,若

7、該子串與詞庫中的某詞條相匹配,則該子串是詞,繼續(xù)分割剩余的部分,直到剩余部分為空;否則,該子串不是詞,轉(zhuǎn)上重新切取S的子串進行匹配。</p><p>  這種分詞方法又分為最大匹配法、逆向最大匹配法、設立切分標志法、逐詞遍歷匹配法、正向最佳匹配法和逆向最佳匹配法五大方法。</p><p>  2. 基于統(tǒng)計的分詞方法</p><p>  上面我已經(jīng)談到,中文文本沒有

8、類似英文空格之類的標志來標示詞的邊界標志。也就是說,詞與詞之間沒有顯著的分隔標記。而基于統(tǒng)計的分詞方法就有一大優(yōu)點,即能夠有效地自動排除歧義,能夠識別新詞、怪詞,例如人名、地名等,解決了基于詞典的分詞方法的弊端。</p><p>  基于統(tǒng)計的分詞方法是我們學習中文信息處理課程時主要講的分詞方法。這類方法的主要依據(jù)和思想是:詞是穩(wěn)定的字的組合,因此在上下文中,相鄰的字同時出現(xiàn)的越多,就越有可能構成一個詞。因此字與

9、字相鄰共現(xiàn)的頻率或概率就能夠較好地反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻度進行統(tǒng)計, 計算它們的互現(xiàn)信息?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關系的緊密程度。當緊密程度高于某一個閾值時,便可以認為此字的組合可能構成了一個詞。</p><p>  北京大學計算語言學研究所在開發(fā)人民日報語料庫時,確定了具體的切分規(guī)范。規(guī)范中的切分單位包括詞和大于詞或小于詞而在文本中獨立使用的固定短語、語素字、非語素字以及標點

10、符號。對于切分單位從字數(shù)考慮,對兩個字的組合較寬地看作是一個切分單位,三個字的較嚴,四個字以上的若不是成語、習慣用語一般不看作是一個切分單位。切分規(guī)范以國家標準為基礎,適當加以調(diào)整。</p><p>  但這種分詞方法也有一定的局限性,會經(jīng)常抽出一些共現(xiàn)頻度高,但并不是詞的常用字組, 例如“這一”、“之一”、“有的”、“我的”、“許多的”等,并且對常用詞的識別精度差。</p><p>  

11、3.基于AI的分詞方法</p><p>  此類分詞方法由于沒有接觸到,我也不了解,所以在此略過。</p><p><b> ?。ǘ┳詣臃衷~問題</b></p><p>  上面我簡要介紹了三種自動分詞方法,我們知道,盡管漢語自動分詞取得了重大進展和突破,但仍然存在著大量的問題。比如漢語無詞的明顯分隔標記,詞的定義、詞與詞組劃界標準與形式語法

12、的缺乏等特點, 使得要自由進行漢語自動分詞,將會遇到一些困難與問題。</p><p>  1.首先,就切分而言,中文原本沒有詞的概念,沒有一個統(tǒng)一的詞的確切定義。中文構詞方法的多樣性特點使得自動分詞十分困難。漢字造詞可以是字,也可以是詞甚至詞組。造句的方式有以字造詞,以詞造詞。如果沒有語法、語義知識或語境了解的幫助就很難對有些句子進行正確切分。</p><p>  2.其次,漢語迄今為止仍

13、未有一部公認的、確切完備的并適合于計算機自動處理的語法規(guī)則。漢語詞法的無標準性,句法的復雜性,語法的模糊性與語義的多樣性,如漢語中大量存在一詞多義,多詞一義,詞性變化,詞義轉(zhuǎn)借等現(xiàn)象,使得研究中文信息處理的學者至今仍難以對它進行完備的總結(jié)。這也為漢語自動分詞制造了困難。</p><p>  3.再次,現(xiàn)有的分詞方法基本上都是基于統(tǒng)計和詞典的分詞方法,它們都必須在分詞速度和精度之間做出選擇。要提高速度,就要適當放棄

14、精度的追求,縮減詞典,減少匹配次數(shù)。而要提高切分精度,就得舍棄速度,無限擴充詞典,匹配次數(shù)也會無限增加。因此,切分效率不高也是一大問題。</p><p>  4.最后,我認為基于統(tǒng)計的分詞方法雖然能夠有效地自動排除歧義,但也不能百分百的消除歧義。因為漢語由于構詞語素大多是不定位語素,又有相當數(shù)量的自由語素,漢語詞理解的多義性、復雜性, 再加上詞與詞之間沒有空格隔開,沒有任何區(qū)分標志,這就造成了切分中的多分字段,因

15、而歧義現(xiàn)象是自動分詞過程中不可避免的現(xiàn)象。在自動分詞過程中具有兩種或兩種以上切分形式的字段稱為歧義字段,這種情況在我們上網(wǎng)聊QQ用酷狗打字的時候經(jīng)常出現(xiàn)。而這種歧義字段會產(chǎn)生錯誤切分,給人們的日常應用帶來不便。</p><p>  但根據(jù)我們所學的知識我們知道,歧義現(xiàn)象普遍存在,根據(jù)基于統(tǒng)計的分詞方法也只能有限減少,不可能完全消除。這一點也是研究自動分詞的學者應該想辦法攻克的一大難點。</p>&l

16、t;p>  中文信息處理這門課程已經(jīng)結(jié)束。除了書面的理論的知識外,還有上機實踐課,將理論與實際結(jié)合起來,打好基礎的同時又有點一定的實戰(zhàn)經(jīng)驗。中文信息處理的理論知識對于非計算機專業(yè)的人而言有一定的難度,因此,對于這門課程不能詳盡的表述心中所想,只能對于相較理解的一小塊談談自己的一點看法。</p><p>  我認為,漢語自動分詞不是一項單一的技術問題,不是說有人攻克了目前的難度就可以了的。隨著中國國力的強盛,

17、漢語自動分詞已經(jīng)同漢語走向世界、中華民族文化的偉大復興緊密地聯(lián)系在一起。作為全世界使用人數(shù)的最多的語言,我們有責任與義務解決漢語自動分詞問題,以便計算機能對漢語文本進行自由處理,增強漢語的生命力,讓更多的外國人了解到漢語的趣味性,吸引更多的外國人學習漢語。</p><p><b>  參考文獻:</b></p><p> ?、佟稘h語自動分詞研究進展》,文庭孝,圖書情報

18、,2005.5</p><p> ?、凇稘h語自動分詞方法的綜述》,羅洋,職校論壇,2008年第七期</p><p> ?、邸稘h語自動分詞研究進展》,王軍輝,魅力中國下,2009.10</p><p>  ④《自動分詞與分詞規(guī)范》,李迅,泰山論壇</p><p>  ⑤《中文文本信息處理的原則與應用》,苗奪謙、衛(wèi)志華,清華出版社</p&g

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論