基于句法結(jié)構(gòu)特征分析及分類(lèi)技術(shù)的答案提取算法_第1頁(yè)
已閱讀1頁(yè),還剩18頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于句法結(jié)構(gòu)特征分析及分類(lèi)技術(shù)的答案提取算法?胡寶順1王大玲2于戈2馬婷21(東北大學(xué)軟件學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)遼寧省沈陽(yáng)市110004)2(東北大學(xué)信息科學(xué)與工程學(xué)院計(jì)算機(jī)軟件與理論研究所遼寧省沈陽(yáng)市110004)摘要:由于中文自然語(yǔ)言處理的特點(diǎn)和困難,以及相應(yīng)的語(yǔ)言處理基礎(chǔ)資源的相對(duì)缺乏,使得國(guó)外一些成熟技術(shù)和研究成果不能直接應(yīng)用到中文問(wèn)答系統(tǒng)中。為此,針對(duì)中文事實(shí)型問(wèn)答系統(tǒng),提出一種新的基于句法結(jié)構(gòu)特征分析及分類(lèi)技術(shù)的答案提取算

2、法,該方法將答案提取問(wèn)題看成是候選答案的分類(lèi)問(wèn)題,即將候選答案分類(lèi)為正確和錯(cuò)誤兩類(lèi)。首先,該方法根據(jù)與問(wèn)題類(lèi)型所對(duì)應(yīng)的候選答案的類(lèi)型信息,從文本片斷中提取出候選答案及其在句子中的簡(jiǎn)單特征和句法結(jié)構(gòu)特征;然后利用這些特征訓(xùn)練分類(lèi)器;最后用訓(xùn)練得到的分類(lèi)器判別候選答案是否為正確答案。針對(duì)中文事實(shí)性問(wèn)題,該方法與目前典型的基于模式匹配的中文答案提取算法相比,準(zhǔn)確率提升6.2%,MRR提升9.7%。關(guān)鍵詞:句法依存分析分類(lèi)答案提取中文問(wèn)答系統(tǒng)事

3、實(shí)性問(wèn)題中圖法分類(lèi)號(hào)TP3911引言和國(guó)內(nèi)外研究現(xiàn)狀隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們快速查找信息和資源的重要手段。但目前的搜索引擎主要采用基于關(guān)鍵字的查詢(xún),而關(guān)鍵字的簡(jiǎn)單組合不能明確表述用戶(hù)的查詢(xún)意圖,這一問(wèn)題已成為制約搜索引擎性能提高的瓶頸之一。問(wèn)答式檢索系統(tǒng)(簡(jiǎn)稱(chēng)問(wèn)答系統(tǒng))正是為克服傳統(tǒng)搜索引擎的這一弊端應(yīng)運(yùn)而生的。與基于關(guān)鍵字的傳統(tǒng)搜索引擎不同,問(wèn)答系統(tǒng)允許用戶(hù)以自然語(yǔ)言形式提問(wèn),并將準(zhǔn)確簡(jiǎn)短的答案、而非大量的相關(guān)文本和網(wǎng)頁(yè)

4、返回給用戶(hù)。比如:用戶(hù)提問(wèn)“第三屆亞洲政黨國(guó)際會(huì)議是由哪個(gè)政黨主辦的?”,問(wèn)答系統(tǒng)就可以將“中國(guó)共產(chǎn)黨”的答案返回給用戶(hù)。因此可以說(shuō),問(wèn)答系統(tǒng)是更高效、更人性化的新一代搜索引擎。同時(shí)也是集自然語(yǔ)言處理、信息檢索、信息抽取、機(jī)器學(xué)習(xí)等多學(xué)科技術(shù)于一體的復(fù)雜系統(tǒng)。一般來(lái)說(shuō),問(wèn)答系統(tǒng)主要包括問(wèn)題分析、信息檢索和答案提取三個(gè)部分。其中,問(wèn)題分析的主要工作包括確定問(wèn)題類(lèi)型和提取問(wèn)題中的關(guān)鍵字等;信息檢索部分的任務(wù)是利用問(wèn)題關(guān)鍵字生成查詢(xún)條件,然后

5、利用文檔庫(kù)或提交給Web搜索引擎進(jìn)行檢索,返回相關(guān)的文檔或段落;答案提取部分的任務(wù)則是從候選的文檔或段落中提取出正確答案。作為問(wèn)答系統(tǒng)中一個(gè)關(guān)鍵環(huán)節(jié),答案提取部分性能的優(yōu)劣直接影響整個(gè)問(wèn)答系統(tǒng)的性能。DanMoldovan[1]等人關(guān)于問(wèn)答系統(tǒng)錯(cuò)誤的分析結(jié)果表明,約18.7%的回答錯(cuò)誤是由諸如候選答案識(shí)別錯(cuò)誤、答案排序錯(cuò)誤等導(dǎo)致的。因此,答案提取算法的研究對(duì)提高問(wèn)答系統(tǒng)整體性能具有重要的意義。近幾年來(lái),國(guó)外很多科研院所和著名公司如IBM

6、、Microsoft、ISI、MIT、UniversityOfCambridge等都積極投入到問(wèn)答技術(shù)的研究中,多個(gè)問(wèn)答系統(tǒng)評(píng)測(cè)平臺(tái)如TREC、NTCIR、CLEF的成功舉辦也極大的推動(dòng)了該領(lǐng)域的快速發(fā)展。目前,國(guó)外已經(jīng)有一些相對(duì)成熟的問(wèn)答系統(tǒng)問(wèn)世,同時(shí)也不乏研究人員提出了很多效果理想的答案提取算法。同時(shí)近些年,國(guó)內(nèi)從事問(wèn)答系統(tǒng)相關(guān)研究的機(jī)構(gòu)不斷增加,其中中國(guó)科學(xué)院自動(dòng)化研究所、哈爾?本課題得到國(guó)家自然科學(xué)基金(60573090)資助.

7、作者簡(jiǎn)介:胡寶順男1981年生碩士研究生主要研究領(lǐng)域?yàn)樾畔z索技術(shù)王大玲女1962年生博士教授主要研究領(lǐng)域?yàn)樗阉饕婕夹g(shù)于戈男1962年生博士博士生導(dǎo)師主要研究領(lǐng)域?yàn)閿?shù)據(jù)庫(kù)及相關(guān)技術(shù)馬婷女1981年生碩士研究生主要研究領(lǐng)域?yàn)槲谋就诰蚣夹g(shù).聯(lián)系人:王大玲電話(huà):862483687776Email:.胡寶順等:基于句法結(jié)構(gòu)特征分析及分類(lèi)技術(shù)的答案提取算法33基于分類(lèi)技術(shù)的答案提取算法因?yàn)楸疚牡闹攸c(diǎn)是答案提取算法,問(wèn)題分析和信息檢索非本文的重點(diǎn)

8、,所以我們將問(wèn)題類(lèi)型信息視為已知信息。對(duì)于信息檢索模塊,我們簡(jiǎn)單地使用Google搜索引擎檢索得到的文本片斷(snippet)作為答案提取的來(lái)源。3.1生成查詢(xún)?cè)~生成查詢(xún)?cè)~是文本片斷檢索的基礎(chǔ)。我們借鑒了文獻(xiàn)[7]中系統(tǒng)的查詢(xún)?cè)~生成算法并加以改進(jìn),具體算法如下:(1)根據(jù)問(wèn)題集,生成一個(gè)疑問(wèn)詞列表。疑問(wèn)詞為形如:“誰(shuí)”、“哪”、“什么”等等的詞;(2)對(duì)問(wèn)題進(jìn)行分詞和詞性標(biāo)注,將問(wèn)題中出現(xiàn)的疑問(wèn)詞及其后面的量詞或數(shù)量詞均作為疑問(wèn)詞剔除;

9、如:“哪一年”這樣的由疑問(wèn)詞和數(shù)量詞構(gòu)成的詞將作為疑問(wèn)詞被剔除;(3)去除停用詞。如:“的”、“在”、“于”等等。同時(shí)去除介詞、助詞和標(biāo)點(diǎn)符號(hào);(4)將剩余的詞作為關(guān)鍵詞,構(gòu)成查詢(xún)條件(關(guān)鍵詞之間簡(jiǎn)單地以空格分隔,構(gòu)成一個(gè)“布爾或”查詢(xún))。3.2訓(xùn)練分類(lèi)器訓(xùn)練分類(lèi)器的目的在于:找出候選答案所在的句子的特征與候選答案是否為正確答案的一種潛在的映射關(guān)系,是實(shí)現(xiàn)候選答案分類(lèi)的基礎(chǔ),具體實(shí)現(xiàn)步驟如下:(1)將上面生成的查詢(xún)條件提交給Google

10、搜索引擎,保存檢索返回的前100個(gè)文本片斷;(2)根據(jù)問(wèn)題的類(lèi)型,利用命名實(shí)體(人名、地名、機(jī)構(gòu)名、時(shí)間詞、數(shù)量詞)識(shí)別技術(shù),識(shí)別出與問(wèn)題類(lèi)型對(duì)應(yīng)的命名實(shí)體作為候選答案,然后計(jì)算候選答案在所在句子中的各個(gè)特征值,最后根據(jù)問(wèn)題對(duì)應(yīng)的標(biāo)準(zhǔn)答案,給候選答案加上類(lèi)別標(biāo)簽(0:候選答案為非正確答案;1:候選答案為正確答案);(3)重復(fù)執(zhí)行上面兩個(gè)步驟,得到候選答案訓(xùn)練樣本集,從而可以利用相應(yīng)的分類(lèi)器訓(xùn)練算法,訓(xùn)練得到用于分類(lèi)的分類(lèi)模型。3.3答案

11、提取答案提取是我們最后的目標(biāo),具體步驟如下:(1)將問(wèn)題查詢(xún)?cè)~提交給搜索引擎,取得搜索引擎返回的前30個(gè)文本片斷;(2)根據(jù)問(wèn)題類(lèi)型,識(shí)別出每個(gè)文本片斷中的候選答案,并計(jì)算候選答案所在句子的各特征值;(3)利用訓(xùn)練好的分類(lèi)器,預(yù)測(cè)各個(gè)候選答案的分類(lèi),并返回前5個(gè)結(jié)果。4基于句法依存分析的路徑相似度計(jì)算本節(jié)詳細(xì)闡述提取句子句法特征時(shí)所要使用的關(guān)鍵技術(shù):基于句法依存分析的路徑相似度計(jì)算。4.1句法依存分析句法分析(parsing)是自然語(yǔ)言

12、處理領(lǐng)域研究的關(guān)鍵問(wèn)題之一,屬于淺層語(yǔ)義分析中的重要內(nèi)容,在機(jī)器翻譯、信息抽取和自動(dòng)問(wèn)答等多個(gè)領(lǐng)域中有著廣泛而重要的應(yīng)用,而基于依存語(yǔ)法的句法分析(簡(jiǎn)稱(chēng)句法依存分析)是目前句法分析的主要方法之一。依存語(yǔ)法是1959年由法國(guó)語(yǔ)言學(xué)家L.Tesiniere在其著作《結(jié)構(gòu)句法基礎(chǔ)》一書(shū)中提出的。此語(yǔ)法的核心思想是:句子中述語(yǔ)動(dòng)詞是支配其它成分的中心,而它本身卻不受其它任何成分的支配,所有的受支配成分都以某種依存關(guān)系從屬于其支配者。依存語(yǔ)法的句

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論