中文問答系統(tǒng)中的句型理論及其應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩145頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、自動問答系統(tǒng)(QA),是一種用自然語言提問,并由系統(tǒng)自主獲取知識并向用戶直接返回所需答案的一種新的信息檢索系統(tǒng)。問答系統(tǒng)一般包括三個主要組成部分:問題理解、信息檢索和答案抽取。
   目前QA已成為非常熱門的研究方向,其中以英文的QA系統(tǒng)居多,中文問答系統(tǒng)這幾年也受到國內(nèi)外一些機(jī)構(gòu)的重視。中文QA系統(tǒng)的研究與英文等語種的QA系統(tǒng)相比,由于中文自身的特點,使得中文QA系統(tǒng)在研究中有不少自身的特點,有時完全不同于英文等語種的QA系統(tǒng)

2、,這也是中文QA系統(tǒng)研究的一個關(guān)鍵。
   自然語言處理技術(shù)是問答系統(tǒng)的關(guān)鍵技術(shù),要提高問答系統(tǒng)的水平,需要從與QA系統(tǒng)有關(guān)的自然語言處理技術(shù)著手,特別是如何準(zhǔn)確把握問題和答案的語義。但目前,自然語言的語義分析技術(shù)還處于非常初級的階段,因此,多數(shù)的問答系統(tǒng)都是回避語義分析或者只是基于淺層的語義分析去進(jìn)行研究,因此難以取得好的效果。如何在問答系統(tǒng)中提高語義分析水平應(yīng)該是提高問答系統(tǒng)水平的重要問題。
   句子的語義主要包括

3、兩個部分:構(gòu)成句子的成份的詞義和由句子結(jié)構(gòu)確定的結(jié)構(gòu)語義。句型的研究是語言學(xué)中句法結(jié)構(gòu)層面研究中一個很重要的內(nèi)容。一種語言的句子是無限的,而句型是有限的,通過研究有限的句型來把握無限的句子是句型研究的主要目標(biāo)。屬于同種句型的句子通常在句法結(jié)構(gòu)、語義解釋等方面具有一定的一致性。因此,通過研究句型及每種句型的結(jié)構(gòu)語義,可以把整個語言中的句子根據(jù)句型分成若干個類型。對多數(shù)類型的句子而言,句子的結(jié)構(gòu)語義是由句型決定的,通過建立每種句型的句子的結(jié)

4、構(gòu)語義計算規(guī)則,再標(biāo)注出組成句子的詞語的詞義就能把握這些句子的語義??梢?通過句型來實現(xiàn)對句子的語義分析,應(yīng)該是對多數(shù)句子進(jìn)行語義分析的一條可行的研究方法。對于自動問答系統(tǒng)而言,疑問句的句型同疑問語義之間的關(guān)系更為密切,通過分析提出問題的疑問句的句型,可以準(zhǔn)確地把握問句的疑問語義,進(jìn)而實現(xiàn)對問句的理解;而預(yù)先根據(jù)問題類型規(guī)劃出問題答案的句型,則能夠更方便準(zhǔn)確地搜索和抽取出問題的答案,并實現(xiàn)問題的回答。
   本文在句型系統(tǒng)研究的

5、基礎(chǔ)上研究了一個基于開放域的中文自動問答系統(tǒng)--虛擬信息顧問系統(tǒng)(VIC),它要求用自然語言提出問題,系統(tǒng)根據(jù)問題自動在網(wǎng)絡(luò)上或文檔集合中搜集相關(guān)資料,找出答案后回答用戶的提問。主要工作包括:
   一、提出了句型系統(tǒng)的形式化理論和句型的語義計算方法。句型系統(tǒng)的形式化理論包括句型的形式化定義、句型描述、句型語義計算等內(nèi)容。句型的形式化定義在前人對句型系統(tǒng)的研究和以及對句法結(jié)構(gòu)研究的基礎(chǔ)上,以句法同構(gòu)為句型的分類標(biāo)準(zhǔn),用生成語法的

6、方式形式化地定義了句型概念。句型的描述則包括由形式化定義直接得到的推導(dǎo)描述、與自然語言學(xué)界中旬型/句式描述類似的字符串描述、以及向量描述。句型語義計算的方法以句型向量中的成分為變量,根據(jù)句型的結(jié)構(gòu)語義寫出句型向量中的成分的格角色,在句子語義計算時,根據(jù)句子所屬句型及句型語義就能標(biāo)注出句子成分在句子中的格角色。
   二、提出了一種基于向量空間模型(VSM)的句型識別方法?;谙蛄靠臻g模型(VSM)的句型識別方法通過計算句子與句型

7、的相似度束排序并實現(xiàn)對句子句型的識別,即通過計算漢語句子中的特征詞、短語和詞的詞性、以及句子中的語序關(guān)系,來實現(xiàn)對漢語句子句型的識別。該方法先以句型向量為模板對句子結(jié)構(gòu)進(jìn)行規(guī)約,得到基于句型模式的句型結(jié)構(gòu),然后將得到的句型結(jié)構(gòu)表示成向量形式,并與句型向量進(jìn)行相似度計算,并將一個句型層次的所有句型模式與句子的相似度進(jìn)行排序,從而實現(xiàn)對句子的句型的識別。文章以疑問句的句型識別方法為例對句型識別進(jìn)行了測試,測試結(jié)果標(biāo)明,在句法分析正確的情況下

8、該句型識別方法的正確率很高,即使對句法分析錯誤的句子,也能正確識別其中一部分句子的句型,說明這種識別技術(shù)具有較好的識別效果和較好的穩(wěn)定性能。
   三、提出了基于句型系統(tǒng)的問題理解方法及基于問題句型系統(tǒng)的中文問答系統(tǒng)架構(gòu)。句型是句子的句法結(jié)構(gòu)分類,而問題分類是對問題的疑問語義分類,對于疑問句而言,句型與疑問語義緊密相關(guān),通過句型聯(lián)系問題的語義分類進(jìn)而實現(xiàn)對問題的分類是本文問題理解的主要方法。文章通過對疑問句短語分類、建立問題分類

9、標(biāo)準(zhǔn)和分類規(guī)則,并進(jìn)而通過句型實現(xiàn)對疑問句的語義計算,再根據(jù)疑問語義得到問題的標(biāo)準(zhǔn)形,最后利用疑問句的句型識別技術(shù)實現(xiàn)了問題的分類和理解。漢語中疑問詞的非疑問現(xiàn)象是一種常見的語法現(xiàn)象,通過對漢語中疑問詞的非疑問用法的研究和非疑問用法的句型識別,達(dá)到了提高對問題分類和理解的水平的目的。
   四、針對自動問答系統(tǒng)中信息檢索的特點和要求,提出了結(jié)合自然文檔的結(jié)構(gòu),以文檔段序、句序和詞序為基礎(chǔ)的改進(jìn)向量空間模型(VSM)檢索算法。并設(shè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論