版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、<p> 中文7340字,5000單詞,25000英文字符</p><p> 出處:Sun H, Duan N, Duan Y, et al. Answer extraction from passage graph for question answering[C]//Proceedings of the Twenty-Third international joint conference on
2、 Artificial Intelligence. AAAI Press, 2013: 2169-2175.</p><p> 問答通道圖中的答案抽取</p><p> 摘要:在問答中,答案抽取旨在針指向通道的確切答案。然而,大多數(shù)以前的方法都是單獨的對每個通道進行提取,而沒有考慮到其他通道所提供的線索。本文通過充分利用不同通道之間的聯(lián)系提出了一種新的方法來提取答案。特別地,提取是通過
3、建立在添加了大量的通道聯(lián)系的通道圖來執(zhí)行的。不同的通道是通過具有相同的連接詞進行聯(lián)系的。我們通過使用因子圖作為我們的模型來提取答案。多個QA數(shù)據(jù)上的實驗結(jié)果集表明,我們的方法顯著提高答案抽取的性能。</p><p><b> 說明</b></p><p> 問答(QA)的任務(wù)旨在自動解答自然語言描述中的問題。答案提取是QA系統(tǒng)中的一個重要組成部分,用來生成通道中的
4、精確答案。答案提取首先從通道中生成候選答案,再通過一些評分函數(shù)進行排名,例如候選的頻度。以往的研究已經(jīng)檢查答案抽取不同的方法,如命名實體識別(NER)或模式匹配,然而,這些擁有相同財產(chǎn)的人是從單獨的通道中抽取出來的,不考慮由其他通道提供的任何信息。</p><p> 然而,其他通道所提供的線索是有用的。如果我們把答案抽取看作是通道中每個文字是否是問題答案的一項任務(wù),當(dāng)我們運用這種分類時,所有通道中的一致信息都是
5、有用的。讓我們從基本詞法觀點來考慮:所有的通道都是由同一檢索查詢時,有可能不同通道中相同的文字表示了相同的意思,作為結(jié)果他們可能都是答案或者他們可能都不是答案。另外,他們共享的上下文越相似,作為是否是答案候選的標(biāo)簽是否相同就越有可能。因此,有可能針指向更多的正確答案或糾正提取過程中的邊界問題。</p><p> 表1: 2002年TREC問題。檢索通道</p><p> 通過使用作為查
6、詢問題</p><p> 問:什么是阿拉斯加的州鳥?</p><p><b> 答:柳雷鳥</b></p><p> 通道1 :官方阿拉斯加的州鳥是柳雷鳥</p><p> 通道2 :本系列被攝制柳松雞</p><p> 拍下...公園在阿拉斯加</p><p>
7、 通道3 :柳松雞是相當(dāng)大的鳥,非常小的雞。</p><p> 考慮表1中描述的例子,通道1中的證據(jù)很明顯的表示“柳雷鳥”作為一個正確的答案,因為句子結(jié)構(gòu)與問題相似以及關(guān)鍵詞在通道中有提到使得答案很變的很明確。與此相反,通道2和通道3中的證據(jù)不是那么明顯,因為這兩個通道描述了關(guān)于“柳雷鳥”的其他方面。此外,“柳雷鳥“通道2中沒有提到,這使得它更難被提取。但是,如果我們利用通道1中“柳雷鳥“的標(biāo)簽,這兩個標(biāo)簽作
8、為候選答案的概率會提高。在通道3中,“柳”和“松雞”很容易被分離,但把通道1中的“柳雷鳥”作為候選答案邊界將會被修改。其結(jié)果是,找到正確答案的頻率將會提高。這有助于提高正確回答問題的可能性。</p><p> 在本文中,出于這種觀察,我們提出了通過不同通道之間的充分連接進行答案的提取。特別地,答案提取是執(zhí)行在為描述所有通道中相同問題而建立的通道圖上。不同通道之間的關(guān)聯(lián)是通過相同連接詞之間添加邊來建立。以這種方式
9、,一個字符串是否可以被確定為候選答案由兩個因素共同決定:(1)本地通道中包含證據(jù)( 2 )在其他通道中的有與標(biāo)簽中相同的字的證據(jù)。我們采用因子圖作為模型。在因子圖,隨機變量表示通道中的文字,用來生成一個1/0的標(biāo)簽。在不同的通道中,我們通過添加一個因素節(jié)點來連接兩個變量,這兩個變量的“莖”是相同的,用來表示變量之間的相近度。實驗執(zhí)行在四大公共QA數(shù)據(jù)集上。結(jié)果表明,利用通道之間的關(guān)系,相對于沒有使用這種關(guān)系的方法,答案提取的性能有著顯著
10、的提高。</p><p><b> 2相關(guān)工作:</b></p><p> 以往對答案抽取的研究已經(jīng)討論使用不同的結(jié)構(gòu)進行答案抽取,包括模式,命名實體,正克和句法結(jié)構(gòu)。</p><p> [ 2001] Soubbotin ,使用手工繪制圖案從文本中提取候選人來預(yù)先定義問題的類型(一些工作用使用問題類型來描述該問題是否被問到有關(guān)職能標(biāo)記,
11、列表,定義等等。本文重點是智能標(biāo)記QA ,我們按照符號在許多QA文件中不區(qū)分問題的類型和答案型) 候選人的分數(shù)取決于他們來自哪個模式。無需人工努力, [Ravichandran2002年Hovy ]自動學(xué)習(xí)這種模式集并自動生成成績。他們發(fā)送問題條款和答案到一個搜索引擎上并從通道檢索上提取模式。[ Ravichandran等, 2003]通過在問題條款中增加語義類型來提高以前的方法,并使用自動學(xué)習(xí)型態(tài)的特點來模擬答案抽取的正確性。盡管它提
12、供了很高的精確度,基于模式的答案抽取方法被預(yù)先定義的問題的類型所限制。</p><p> 除了模式,不同的語言單元也被抽取并根據(jù)頻率進行排名。[shen和Klakow ,2006年, 2011] 做出發(fā)言,大多數(shù)QA系統(tǒng)使用命名實體識別進行答案提取,比如說[Prager et al., 2000; Pasca and Harabagiu, 2001;Yang et al., 2003; Xu et al., 2
13、003]。該方法首先提取實體,然后過濾列表,并將保留的候選人固定在預(yù)期答案類型中。實現(xiàn)了良好的業(yè)績通常需要實現(xiàn)給QA類型學(xué)提供一個命名實體的工具,因為很多答案類型不包括現(xiàn)有命名實體識別工具中。然而,開發(fā)這樣的識別在答案類型確定中是不平凡和錯誤的將傳播到提取。答案提取的另外一個單元是正克 。 [brill等, 2001]從網(wǎng)上檢索到的文件中收集高頻正克。該方法使用表面串特點和手工制作的圖案確定候選人類型并進行過濾。此外,一些文字單位通過外
14、部知識或字典確定,例如文字網(wǎng)或維基百科中的標(biāo)題,錨文章和重定向原數(shù)據(jù)。</p><p> 另外,很多方法都依賴于句法結(jié)構(gòu)和提取的名詞短語或依賴通道中的樹節(jié)點。這些類型的方法通常利用問題和答案句子之間的相似度進行候選人的排名。[太陽等,2005]以三倍速度分解這種依賴樹并在共同信息的基礎(chǔ)上計算相似度。[shen,2005]使用樹核函數(shù)計算的相似性和探索[shen Klakow,2006]的問題和候選句子之間依賴路
15、徑的相關(guān)性。為了克服問題表達和候選句子之間的表面差距,納入意譯依賴映射的路徑,然后根據(jù)語言模型排列候選人。</p><p> 最后的方法類型作為一個長期的提取工藝來查看答案抽取受到了[Sasaki 2005b]的質(zhì)疑。這種方法運用的特點來自問題,文件,以及在兩部分之間匹配BIO標(biāo)簽。</p><p> 因子圖[Kschischang,2001]是一個雙向圖,定義的因素和變量使得“全球”
16、函數(shù)被不同的變量分解的功能。許多NLP(自然語言處理)討論了使用因子圖方法解決不同的問題,如關(guān)系提取,情感分析或事件抽取。在本文中,我們采用因子圖作為我們的模型來執(zhí)行答案提取。不同于以往分別在每個通道中提取答案的答案抽取方法,本文中,我們在圖表上執(zhí)行答案抽取,這種圖表是建立在通過連接與該問題相關(guān)的所有通道上的。這使得提取在通道之間不是孤立的,并使得其他段落所提供的證據(jù)被充分利用。</p><p><b>
17、; 3方法:</b></p><p><b> 3.1任務(wù)定義</b></p><p> 給定的一個問題Q和其相應(yīng)的通道P ={P1 , P2 ...Pn},該任務(wù)是針指向從P中提取答案.特別,我們從每個通道中抽取候選人Ci,以產(chǎn)生候選人名單,我們將同樣出現(xiàn)的Ci 放在一起用來產(chǎn)生C = {C1 ,C2 ...CK} 。在這里, C是基于頻率進行排名
18、的。在每個段落中,我們在通道Pn中的每個字Xni的分類上進行抽取任務(wù)的交換,用yi?{1,0}標(biāo)簽以表明它是否是一個答案字符串。在這里,n ? [1 ,N ]是通道的序列號,i表示這個詞是通道中的第i個字。接下來我們連接不同的通道來建立通道圖。在不同的通道中,我們添加的邊緣E1={eijnm}連接變量ym和yn,若Xn和Xm共享相同的“莖”(在這里,我們消除問題中stopwords和word之間的聯(lián)系)。核心任務(wù)是預(yù)測Y在通道圖中。當(dāng)我
19、們得到謂詞,提取每個通道內(nèi)具有連續(xù)的單詞序列標(biāo)簽1的作為候選人,以產(chǎn)生候選名單C 。</p><p><b> 3.2模型</b></p><p> 我們采用因子圖作為模型來解決在圖形上的預(yù)測。我們規(guī)定因子圖如下。在每個通道中,我們使用f來表示相關(guān)的變量y。對于不同通道上的邊e,我們使用因子節(jié)點F來分解定義在這條邊上的功能。圖1顯示了一個例證因子圖。</p&
20、gt;<p> 這項工作中,我們使用循環(huán)信念傳播推斷在訓(xùn)練和使用L-BFGS調(diào)整參數(shù)的邊緣可能性。就推理來說,最大積分算法被使用。培訓(xùn)和接口戰(zhàn)略遵循了[liu]中提到的方法。在這里我們忽略節(jié)省空間的詳細信息。</p><p><b> 3.3特點</b></p><p> 我們定義了兩個功能集Hgraph和HLOCAL來代表圖中的兩種不同的因素節(jié)點
21、。兩者的功能集包含簡單詞匯特征以及通過POS標(biāo)記和依賴解析所產(chǎn)生的復(fù)雜特征。在下文中,我們說明了兩個功能集。</p><p> 功能集Hgraph:</p><p> 此功能集描繪來自不同通道的兩個詞表示相同含義的可能性。這種可能性越高,詞匯的標(biāo)簽是相同的可能越大。我們根據(jù)其上下文模擬這種可能性。這一集合的特點包括:兩個通道的LCS含有的包含這些字,如果這兩個詞都被用到;如果這兩個詞是
22、相同的,如果他們的POS標(biāo)簽是相同的;如果他們有相同的依賴標(biāo)簽,如果他們的依賴父親是同一個詞;在他們依賴孩子節(jié)點中重疊詞會的數(shù)量,在他們周圍字集的重疊詞匯的數(shù)量,(窗口大小=5,類似的詞語下同),其他通道的與這個字相關(guān)聯(lián)的字的數(shù)量。</p><p> 功能設(shè)置HLOCAL:</p><p> 這組中的功能是用來描述在給定上下文的情況下一個字是答案的可能性。不同于傳統(tǒng)NER所采用的功能,
23、我們添加更多的特征描述字與問題之間的關(guān)系。這些特征來自四個部分:</p><p> 問題相關(guān)的特征:這些功能定義在一定語境中一個給定詞語問題相關(guān)的捕獲程度。這一集合包括:這個詞是否在問題中;這個詞的依賴父親是否在問題中;是否與問題中出現(xiàn)的主要詞匯有依賴關(guān)系;它的依賴孩子在問題中的數(shù)量;周圍的詞語在問題中的數(shù)量。</p><p> 詞匯的特點:這些功能描述每一個字的重要性,這個類別主要包
24、括NER使用的傳統(tǒng)功能:字的POS標(biāo)記及周邊字;字是否被使用;它是否是一個stopword;是否它包含一個數(shù)字;是否是標(biāo)點,是否是一個人,位置,或組織名稱。</p><p> 通道功能:這些功能捕捉通道和問題之間的相似之處。他們包括:通路的依賴關(guān)系三元組與問題相匹配的數(shù)量; LCS(最長公共子序列)問題和通道之間最長公共子序列的匹配;通道中的URL;通道的題目;通過通道中檢索組件來排列。</p>
25、<p> 問題的特點:題型(人,地點,等);問題焦點(誰,何時,何地,等)</p><p><b> 4 實驗</b></p><p> 在本節(jié)中,我們講述了實驗的設(shè)置和結(jié)果,并對結(jié)果進行了分析。</p><p><b> 4.1實驗設(shè)置</b></p><p> QA組件:我們
26、的QA系統(tǒng)主要遵循傳統(tǒng)的QA管道框架包含三個部分:</p><p> 問題分析:我們使用手動定義的規(guī)則確定問題類型和重點。問題被用來作為檢索通道的唯一查詢辦法。</p><p> 通道檢索:我們使用了一個精心打造的搜索引擎檢索通道,并保留了前10名的檢索結(jié)果。</p><p> 答案抽?。何覀冞x擇出現(xiàn)頻率最多的作為最終的答案,如果有局限的話,最頻繁的搜索結(jié)果的
27、排列順序是按照在已經(jīng)抽取的各種各樣的通道中的第一個單詞的最大價值評分。</p><p> 文本預(yù)處理:通過搜索引擎檢索的檢索結(jié)果首先被分解在單獨的句子里。對于每一個句子問題或片段,詞根詞性標(biāo)注,依存分析進行。我們使用的是斯坦福大學(xué)解析器[ Marneffe等人, 2006]產(chǎn)生的POS標(biāo)簽和依賴關(guān)系樹。</p><p> 數(shù)據(jù):在我們的實驗中,我們采用四個QA數(shù)據(jù)集:</p>
28、;<p> CLEF [達尼洛等人, 2008] 2007年, 2008年, 2011年和2012</p><p> QA數(shù)據(jù)。我們手動過濾掉非智能標(biāo)記問題。</p><p><b> 這也被提到的問題!</b></p><p> 【楚卡羅爾和風(fēng)扇, 2011] 。</p><p> NTCIR
29、- 5 [佐佐木,2005年]英語問題</p><p> 英-日跨越語言問題回答任務(wù)數(shù)據(jù)。</p><p> TREC [ 1999]佛瑞斯,從1999年至2007年的QA數(shù)據(jù)。我們添加人的努力解決照應(yīng)對于給定主題相關(guān)的一些問題。</p><p> 在我們的實驗中,我們使用的數(shù)據(jù)示于表2。為了試驗,我們隨機選擇2000 TREC QA數(shù)據(jù)并且使用殘余的作為測試
30、數(shù)據(jù)。由于上衣步驟所遺漏的答案不影響我們對提取組件性能的估算。因此,繼設(shè)置[沉Klakow的2006年,我們只保留答案包含在檢索到的通道的問題??傮w而言這留給我們60.26%左右的問題。該二進制召回(答案都包含在搜索結(jié)果中的問題比例)通過檢索組件也示于表2。 NTCIR數(shù)據(jù)集實現(xiàn)了低記得。這可以歸因于一個事實,這個數(shù)據(jù)集的應(yīng)答是取決于所提問題的時間或者上下文。我們顯示了一些問題類型測試載于表3中。人工評估,隨機選取100測試集上的問題(
31、每套25)顯示精度問題類型的預(yù)測是90%。</p><p> 評估:我們評估了前K值的數(shù)目其中這些數(shù)目的問題的答案也是排在前K值里的。我們也給出了MRR。其中等級(ANSI)的排名,排名最頂尖的是問題的正確答案,N是一些測試題的數(shù)目,只計算所詢問題的答案可以在檢索通道中找到的。</p><p><b> 4.2 比較結(jié)果</b></p><p&
32、gt; 與不使用通道圖的方法的比較</p><p> 為了驗證通道之間的效果連接,我們通過去除建立在不同通道之間的變量的因子代碼來構(gòu)建基礎(chǔ)線。因此功能設(shè)置Hgraph和因子節(jié)點ffij被消除。這個設(shè)置所使用的試驗數(shù)據(jù)和工具與我們建議的方法相同。因此,基準(zhǔn)線的方法是類似于中描述的2005B][佐佐木],但是我們添加更多的依賴</p><p> 功能,和NER風(fēng)格的詞匯特征。此外,該日本
33、POS機使用的功能[佐佐木2005B]也沒有使用。</p><p> 試驗結(jié)果于表4進行了比較。通過增加鏈接不同通道之間的端口,所有的指標(biāo)都比基礎(chǔ)線的辦法好。 當(dāng)P = 0:05 ( TREC的結(jié)果是顯著幫助P = 0:1 )MRR以粗體表示顯著改善 。 NTCIR改善并不可觀,但該數(shù)據(jù)集是非常小的,所以它不能代表統(tǒng)計趨勢。在所有數(shù)據(jù)集,前1措施</p><p> 和前5名除了在NTC
34、IR都得到了提高。這一結(jié)果證實,包含了段落之間的關(guān)系可以有效的提高答案抽取。我們還對基線的結(jié)果進行重新排序, (表示為基線重新排名)11功能( #停用詞的基礎(chǔ)上,頻率, normalizedunigram的頻率周圍所有候選人,回答類型匹配,長度等) 。培訓(xùn)過程在TREC培訓(xùn)數(shù)據(jù)基礎(chǔ)上進行了SVM排名。這種辦法被表述在[ Verberne等人, 2009年] 。似乎重排序后的基線結(jié)果是提高了,但是,與建議辦法還是有些差距。</p&g
35、t;<p> 對于效率比較,通道圖方法需要執(zhí)行的置信度傳播,推斷過程需要25ms的時間處理每一個問題而基線法只需要5ms。兩者的特征提取時間方法,幾乎是相同的。</p><p><b> 與NER比較</b></p><p> 大多數(shù)答案抽取工作只在它自己的研究路線上進行了性能比較,如[沉Klakow ,2006] ,比較其結(jié)果與基于語法的方法。我
36、們的方法雖然使用NER答案抽取,但可以被看作是一個圖形化的基于模型的提取,尤其是長期的QA任務(wù)。因此我們把結(jié)果與NER方法進行了比較。因為它不容易實現(xiàn)一個復(fù)雜的命名實體尤其像QA類型學(xué),我們在755人地點和組織問題使用我們的辦法和現(xiàn)存的NER工具進行比較。實體的確定是基于頻率的基礎(chǔ)上由工具保持和排序。結(jié)果示于表5 ,表明我們的方法優(yōu)于NER 。這是因為一方面,斯坦福NER訓(xùn)練CoNLL數(shù)據(jù)集對搜索結(jié)果的文件具有不同的內(nèi)容,。另一方面,我
37、們使用的與問題相關(guān)的功能的方法,更合適QA任務(wù)。</p><p><b> 提取和排名</b></p><p> 答案抽取通常首先產(chǎn)生的候選名單,然后對它們根據(jù)排名得分進行排序。有些方法在產(chǎn)生列表的時候會添加一些限制,例如,NER的方法只保留固定的候選問題類型。而其他的會開始檢索到很多的候選答案,然后再依靠先進的打字或排名函數(shù),如作為N-gram的方法或基于維基百
38、科德方法表述于[楚卡羅爾和風(fēng)扇,2011]。它很難說哪一種策略更好。我們的方法屬于第一類。我們通過手動設(shè)計功能來限制的產(chǎn)生過程,并得到高質(zhì)量的候選名單。一個有趣的問題是,是否通過產(chǎn)生時放松限制然后再利用這些功能進行排名,這樣是有可能實現(xiàn)一個更好的結(jié)果嗎?</p><p> 要回答這個問題,我們使用n-gram(單字,兩字組和卦)和維基百科標(biāo)題中所描述的[楚卡羅爾和風(fēng)扇,2011]進行了探索實驗,以產(chǎn)生候選名單,
39、然后由同一行伍出身重新排名。為了更加公平,255日期和數(shù)字的問題被排除在外。結(jié)果示于表6。重排序之前,使用頻率排名候選名單(所以我們的方法所示)。重新排名之后這兩種辦法的結(jié)果都會得到改善。但是,結(jié)果仍然不是很滿意。這是因為當(dāng)一種方法產(chǎn)生了更多的候選名單的時候就會對排列產(chǎn)生更大的壓力,使得排名更困難。實現(xiàn)一個更好的結(jié)果,需要更完善功能以及排名特征選擇,而這不是我們討論的部分。</p><p><b>
40、4.3 結(jié)果分析</b></p><p><b> 通道圖形效果分析</b></p><p> 我們還進行一些手動的積極分析情況下,研究關(guān)于圖形性能的提高比基準(zhǔn)線方法更好。事實證明,圖生效果從兩個方面來看。首先,如果基準(zhǔn)線的方法有確定的答案,添加的連接,可以進一步提高答案頻率修正邊界或針指向更多的答案出現(xiàn)。這在第1節(jié)中的示例中有所體現(xiàn)。其次,如果基準(zhǔn)方
41、法忽略了答案,我們的方法可以通過檢索考慮到全球性的信息,從而提高了答案覆蓋范圍。據(jù)我們觀察,答案抽取的二進制召回在測試集上從65.53%提高到68.59% 。在表7中考慮這樣一個例子?;€法在不考慮通道聯(lián)系的時候不能抽取到正確答案。含有答案的所有的通路是類似于在表中的通路,當(dāng)有一個答案和關(guān)鍵詞之間的可靠性關(guān)系很差時使得問題相關(guān)性的分數(shù)較低。詞匯功能分數(shù)也低,所以每個通道內(nèi)的證據(jù)沒有強大到足以支持字符串作為一個答案。然而,如果我們看一下在
42、全球范圍內(nèi),在類似環(huán)境下銀匠具有較高的頻率,它返回給第二部分的方程一個高分在表1中提取出來以確定它為候選名單。</p><p> 不同類型問題對應(yīng)的結(jié)果:</p><p> 不同類型的問題的結(jié)果示于表8。結(jié)果表明,我們的方法有關(guān)非命名實體問題詢問更有效果。這些問題是占有很大比例的,而且更難以對付。我們的方法關(guān)于命名實體問題可以達到可比較的結(jié)果,因為基準(zhǔn)線的方法可以有效地識別命名實體,例
43、如,借力資本或字典功能。但是,如果答案是未命名的實體,它們不容易確定。在這樣的條件下,通過利用信息之間的所有通道,我們的方法是更有效的提取答案。</p><p><b> 功能集</b></p><p> 我們比較不同的功能集的有效性于表9。一次性的移除HLOCAL里德功能設(shè)置,我們衡量性能的衰減。我們把MRR作為主要的測量因為它能抓住答案的平均排名。結(jié)果表明,與
44、功能相關(guān)的問題是最重要的。他們衡量每一個單詞與問題的相關(guān)性有多少。這些特點對于不用問有關(guān)命名實體的問題是很必要的。此外,問題功能集是第二重要的。對于同一問題的所有單詞問題的特點都是相同,它起到在進行分類時調(diào)整閾值的作用。例如,在標(biāo)簽1上的“位置”的重量為負時,因此標(biāo)簽1需要一個較大的成績詞語才能確定為候選名單。當(dāng)從通道中提取大部分的命名實體時詞匯特征是有幫助的。如果沒有這些功能,低頻命名實體,尤其是日期和數(shù)字,將被錯過。通道功能發(fā)揮著第
45、二位的作用,我們誘導(dǎo)出這些功能不沒有直接的描述每個候選的質(zhì)量的原因而且這些原因?qū)τ谕煌ǖ览锏暮蜻x都是一樣的。</p><p><b> 錯誤分析</b></p><p> 我們的方法的錯誤來自兩個部分:一個是當(dāng)答案是在候選名單中錯過了,另一種是提取答案排列不正確。該測試集上的錯誤的分布示于表10。該結(jié)果表明,提取遺失是主要的錯誤。為了進一步分析錯誤,我們從測試集
46、里隨機選擇150個錯誤案例(15 NTCIR和35從其他三個分別設(shè)置),手動檢查原因。其中我們的方法提供了45題的正確答案,但確被判斷錯誤的,因為候選不相匹配答案所給的表面形式。此外,還有35題答案我們的方法給出了錯誤界線,還有許多答案是部分給出而這些問題的答案大部分是復(fù)合名詞。我們的方法遺漏了46個答案,他們中的20個既不是命名實體,也沒有大寫,并只出現(xiàn)一次,使得它們非常難以被識別。</p><p><b
47、> 5 結(jié)論和展望</b></p><p> 在本文中,我們提出通過權(quán)衡不同通道之間的關(guān)系來獲取答案。我們通過通道表來完成這個提取過程,而通道表是建立在與同一問題都有聯(lián)系的通道之上的。在不同的通道的邊緣構(gòu)建通過具有相同的連接詞進行聯(lián)系的。提取是通過給每個單詞1/0的標(biāo)簽來表明這個是不是答案字符串來完成的。因子圖的采用是用來推理特征權(quán)重。實驗結(jié)果表明,通過添加不同通道之間的聯(lián)系,答案提取的性能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2013年--外文翻譯--問答通道圖中的答案抽取(譯文).doc
- 2013年--外文翻譯--問答通道圖中的答案抽取(譯文).doc
- 2013年--外文翻譯--問答通道圖中的答案抽取
- 2013年--外文翻譯--問答通道圖中的答案抽取
- 2013年--外文翻譯--問答通道圖中的答案抽取(英文).pdf
- 2013年--外文翻譯--問答通道圖中的答案抽取(英文).pdf
- [雙語翻譯]--外文翻譯--問答通道圖中的答案抽取
- 2013年--港航外文翻譯--海上混凝土結(jié)構(gòu)(譯文).doc
- 2013年--外文翻譯--實驗室模擬非線性的avo(譯文)
- 2013年--外文翻譯--實驗室模擬非線性的AVO(譯文).docx
- 2013年--外文翻譯--實驗室模擬非線性的AVO(譯文).docx
- 基于Web的問答系統(tǒng)答案抽取的研究.pdf
- 2007年trec的問答軌道概述【外文翻譯】
- 2013年--外文翻譯--基于家庭自動化系統(tǒng)的藍牙技術(shù)(譯文)
- 2013年--外文翻譯--基于家庭自動化系統(tǒng)的藍牙技術(shù)(譯文).doc
- 2013年外文翻譯--工業(yè)和住宅混合區(qū)的噪聲源監(jiān)測(譯文).docx
- 2013年--外文翻譯--基于聲發(fā)射螺旋齒輪的晶種故障檢測(譯文)
- 2013年--外文翻譯--基于家庭自動化系統(tǒng)的藍牙技術(shù)(譯文).doc
- 2013年--外文翻譯--自旋直升機基于視覺的全方位監(jiān)控(譯文)
評論
0/150
提交評論