綜合考試報(bào)告_第1頁
已閱讀1頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、綜合考試報(bào)告——機(jī)器翻譯技術(shù)綜述及面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)博士生:劉博士生:劉群導(dǎo)師:俞士汶師:俞士汶1引言引言本文主要包括三方面內(nèi)容:第一方面是機(jī)器翻譯的綜述,包括介紹一些主要的機(jī)器翻譯方法和幾個(gè)典型的機(jī)器翻譯系統(tǒng)。第二方面主要介紹目前中國的機(jī)器翻譯現(xiàn)狀,包括研發(fā)現(xiàn)狀和市場(chǎng)現(xiàn)狀兩個(gè)方面。研發(fā)現(xiàn)狀主要介紹國內(nèi)主要的研究單位和研究成果,市場(chǎng)方面主要是介紹國內(nèi)機(jī)器翻譯市場(chǎng)的一些主要產(chǎn)品和開發(fā)單位,然后討論了國內(nèi)機(jī)器翻譯研究所面臨的問題

2、和與國際水平的差距。第三方面是本人在近期所做的工作。主要是介紹973子課題“面向新聞?lì)I(lǐng)域的漢英機(jī)器翻譯系統(tǒng)”的研究進(jìn)展,以及本人所提出的“微引擎流水線的機(jī)器翻譯系統(tǒng)結(jié)構(gòu)”。2機(jī)器翻譯研究綜述機(jī)器翻譯研究綜述本章首先總結(jié)近年來自然語言處理和機(jī)器翻譯領(lǐng)域所發(fā)生的變化,然后依次對(duì)幾種目前主流的機(jī)器翻譯方法做一個(gè)簡單的總結(jié):基于規(guī)則的機(jī)器翻譯方法,基于統(tǒng)計(jì)的方法,基于實(shí)例的方法,基于模板的方法,基于有限狀態(tài)自動(dòng)機(jī)的方法,以及多引擎的方法。對(duì)于每

3、一種方法,我們都先給出該方法的界定,再介紹有關(guān)的模型或算法,并討論其優(yōu)缺點(diǎn)。然后考察幾個(gè)比較典型的機(jī)器翻譯系統(tǒng)。2.1概述概述自然語言處理的研究,近年來可以說是處在一個(gè)非常活躍的時(shí)期。2001年,國內(nèi)外召開的眾多的相關(guān)學(xué)術(shù)會(huì)議之多,幾乎使人目不暇接(ACL2001,ICCC2001,ICCPOL2001,NLPRS2001,MTSummitVIII,IWPT2001,NLPKE2001,UNL1stConference,計(jì)算語言學(xué)聯(lián)合學(xué)

4、術(shù)會(huì)議,中文信息學(xué)會(huì)成立20周年學(xué)術(shù)會(huì)議,中日自然語言處理學(xué)術(shù)交流會(huì)議等等)。相關(guān)研究的活躍程度,由此可見。自從1949年WarrenWeaver發(fā)表《翻譯》備忘錄,正式提出機(jī)器翻譯的思想以來,到現(xiàn)在已經(jīng)經(jīng)過了52個(gè)年頭。這期間機(jī)器翻譯研究經(jīng)歷了一個(gè)曲折的發(fā)展歷程。這里,我們可以把機(jī)器翻譯放到整個(gè)自然語言處理的背景下來看。最近的10年間,自然語言處理的面貌發(fā)生了很大的變化。這種變化,我認(rèn)為主要體現(xiàn)在三個(gè)方面:試,并通過大會(huì)進(jìn)行論文交流。

5、如TREC會(huì)議提供統(tǒng)一的測(cè)試平臺(tái)對(duì)信息檢索IR系統(tǒng)進(jìn)行測(cè)試,MUC(已經(jīng)停辦)專門對(duì)信息提取系統(tǒng)進(jìn)行測(cè)試,而CoNLL會(huì)議專門對(duì)淺層分析系統(tǒng)進(jìn)行測(cè)試,這些會(huì)議都對(duì)相關(guān)的研究工作起到了極大的推動(dòng)作用。在機(jī)器發(fā)言領(lǐng)域,雖然機(jī)器翻譯評(píng)測(cè)已成為MTSummit會(huì)議的主要議題之一,但由于機(jī)器翻譯評(píng)測(cè)問題的復(fù)雜性,但目前在機(jī)器翻譯領(lǐng)域還沒有類似的比較成熟的測(cè)試平臺(tái)。在國內(nèi),863計(jì)劃專家組和973計(jì)劃專家組都開展過一些機(jī)器翻譯的評(píng)測(cè)工作,這些評(píng)測(cè)都

6、有力地促進(jìn)了相關(guān)研究工作的進(jìn)展。不過,總的來說,這些評(píng)測(cè)的規(guī)模和影響都還比較小,在公開性方面還做得不夠。國際上一些類似的評(píng)測(cè)工作也已經(jīng)開始組織(如美國NIST),有可能會(huì)形成比較大的影響。從以上的總結(jié)可以看出,自然語言處理領(lǐng)域近年來的變化是巨大而且深刻的。相比較而言,機(jī)器翻譯領(lǐng)域的變化要小一些。其主要原因也是比較明顯的,機(jī)器翻譯幾乎涉及自然語言處理的所有領(lǐng)域中最困難的問題,某些單方面或淺層次的突破都不足以對(duì)機(jī)器翻譯的整體產(chǎn)生根本的影響,

7、只有當(dāng)整個(gè)自然語言領(lǐng)域的各方面的研究都取得全面突破時(shí),才有可能導(dǎo)致機(jī)器翻譯的突破。這是一個(gè)緩慢加速的、從量變到質(zhì)變的、逐漸積累的過程。不過,我們現(xiàn)在已經(jīng)可以清晰地感受到這種變化。2.2機(jī)器翻譯方法研究機(jī)器翻譯方法研究2.2.1基于規(guī)則的機(jī)器翻譯方法基于規(guī)則的機(jī)器翻譯方法基于規(guī)則的機(jī)器翻譯方法的界定及其優(yōu)缺點(diǎn)大家都非常熟悉,這里不再詳述。自從Chomsky提出轉(zhuǎn)換生成語法以來,基于規(guī)則的方法成了機(jī)器翻譯研究的主流。雖然統(tǒng)計(jì)方法的崛起對(duì)規(guī)則

8、方法形成了一定的沖擊,但在機(jī)器翻譯領(lǐng)域,規(guī)則方法的地位并沒有從根本上被動(dòng)搖。在已有的商品化機(jī)器翻譯系統(tǒng)中,很少有哪個(gè)系統(tǒng)聲稱自己采用的是純統(tǒng)計(jì)(或語料庫)的方法或以統(tǒng)計(jì)為主的方法。雖然如此,統(tǒng)計(jì)方法的影響也是不可低估的。與傳統(tǒng)的規(guī)則方法相比,現(xiàn)在的規(guī)則方法已產(chǎn)生了很多變化。這些變化主要體現(xiàn)在:1.在規(guī)則的獲取方面,傳統(tǒng)的規(guī)則方法主要依靠語言學(xué)家總結(jié)規(guī)則,進(jìn)行調(diào)試,而現(xiàn)在則更加重視從語料庫中獲取規(guī)則(如采用錯(cuò)誤驅(qū)動(dòng)的學(xué)習(xí)算法);2.傳統(tǒng)的

9、規(guī)則方法往往偏重于描述粗粒度、全局化的大范圍語言學(xué)規(guī)則知識(shí),而現(xiàn)在則更加重視描述細(xì)粒度、局部的小范圍的語言學(xué)知識(shí),呈現(xiàn)出“小規(guī)則庫、大詞典”的趨勢(shì);3.在知識(shí)表示方面,為了以更小的粒度、更加準(zhǔn)確地對(duì)翻譯知識(shí)進(jìn)行描述,一般對(duì)要對(duì)單純的上下文無關(guān)規(guī)則做一些改進(jìn)。改進(jìn)的方法有以下兩種:一種是采用特征結(jié)構(gòu)與合一算法,如LFG、GPSG等等,這種方法一般要求具有較好的語言學(xué)背景;另外一種是采用詞匯化的方法對(duì)規(guī)則加以細(xì)化。后一種方法的做法之一也就是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論