開放域閱讀理解關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩141頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、自動的閱讀理解技術(shù)一直是人工智能領(lǐng)域的研究方向之一。受1999年開始的TREC問答技術(shù)系列評測的推動,該研究也成為了自然語言處理領(lǐng)域新的研究熱點(diǎn)。一方面,閱讀理解技術(shù)研究可以檢測和評估底層各項自然語言處理技術(shù)結(jié)合之后的整體性能,并從篇章的角度探究語言理解的技術(shù)和方法;另一方面,在基于海量文檔集的開放域問答系統(tǒng)中,當(dāng)系統(tǒng)返回的答案發(fā)生錯誤時,由于系統(tǒng)的復(fù)雜性而難以對導(dǎo)致錯誤的原因進(jìn)行準(zhǔn)確定位和分析。針對這一問題,采用閱讀理解的研究形式,將

2、處理的語料規(guī)模限定在單篇文檔,省去文檔檢索的處理過程,從而將研究的問題聚焦于用戶問題分析和答案抽取。
  從自然語言處理領(lǐng)域已有的關(guān)于開放域閱讀理解技術(shù)的研究來看,現(xiàn)有的答案抽取技術(shù)仍然較為淺層,答案抽取的性能尚有提升空間。著眼于提高和改進(jìn)開放域閱讀理解問題分析和答案抽取技術(shù)的性能,本文主要進(jìn)行了四個方面的研究工作,具體內(nèi)容如下:
  1.問題分類是閱讀理解和開放域問答系統(tǒng)中的重要部分,其性能直接制約著最終答案抽取的性能。由

3、于用戶提出的問題一般較短,分類時可用的特征較少,因此訓(xùn)練集的數(shù)據(jù)稀疏問題對分類性能的影響更為顯著。針對該問題,本文提出一種基于線索詞識別和訓(xùn)練集擴(kuò)展的問題分類方法,首先識別出問題中對分類有影響的關(guān)鍵特征,然后利用Web數(shù)據(jù)的海量特點(diǎn),從中自動挖掘能夠改善訓(xùn)練集數(shù)據(jù)稀疏的擴(kuò)展訓(xùn)練問題集。分類時,綜合最近鄰方法和SVM方法,最終提高了問題分類的性能。
  2.以篇章內(nèi)的單個句子為單位,判別和抽取可回答用戶問題的答案句時,簡單的如詞袋模

4、型的詞匹配方法性能有限。本文提出一種基于語法和語義樹核的答案句抽取方法,在句子的句法和淺層語義分析的基礎(chǔ)上,將句法結(jié)構(gòu)樹、淺層語義樹、詞信息、句子上下文信息等多種特征結(jié)合起來,通過機(jī)器學(xué)習(xí)技術(shù)來判別和抽取篇章中的答案句。
  3.篇章內(nèi)的各個句子之間通過邏輯上的語篇關(guān)聯(lián)來對某個實(shí)體或者事件進(jìn)行多方面的事實(shí)描述,單個句子本身經(jīng)常不能包含實(shí)體或事件的全部信息。當(dāng)用戶問題涉及篇章中多個句子的內(nèi)容時,獨(dú)立地判斷篇章內(nèi)某一句子是否包含有答案

5、的方法有時難以識別出正確的答案句。本文因此提出一種基于概念關(guān)系圖匹配的答案抽取方法,首先構(gòu)建關(guān)于篇章以及用戶問題的概念關(guān)系圖,然后在篇章的概念關(guān)系圖中抽取和問題概念關(guān)系圖能最好匹配的子圖,再從該子圖中抽取概念節(jié)點(diǎn)并形成答案。由于篇章概念關(guān)系圖的構(gòu)建是利用篇章內(nèi)全部句子的概念及其它們之間的句法和語義關(guān)系,多個句子中相同的概念及其關(guān)系通過概念關(guān)系圖從整體上連接起來,因此能夠改善以單個句子為答案識別單位的方法的性能。
  4.針對復(fù)雜的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論