基于子主題的多文檔摘要關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、多文檔摘要是自然語言理解領(lǐng)域的一個(gè)重要課題。它的目的是從內(nèi)容相似的文檔集合中抽取重要信息并生成信息豐富、語言簡(jiǎn)潔的摘要,從而提供一個(gè)快速獲取、瀏覽和使用信息的手段。 本文主要研究基于子主題的多文檔摘要技術(shù),即將多個(gè)文檔的內(nèi)容按照信息的側(cè)重點(diǎn)不同劃分為多個(gè)子主題,再從各個(gè)子主題中按照一定策略抽取重要信息,去除冗余信息進(jìn)而生成摘要。這種方法使文摘內(nèi)容具有更好的平衡性,包含的信息簡(jiǎn)潔全面。 針對(duì)子主題劃分的任務(wù),本文采用聚類方

2、法將內(nèi)容相似的信息聚集到一個(gè)子主題中。為此,本文深入研究了四種計(jì)算句子相似度的方法,并在這四種相似度計(jì)算方法基礎(chǔ)上分別進(jìn)行了層次聚類。本文提出了綜合使用語義詞典和統(tǒng)計(jì)信息的方法計(jì)算句子相似度的方法,可以更加準(zhǔn)確的刻畫句子相似度,為子主題劃分和摘要生成奠定了基礎(chǔ)。 在子主題劃分的基礎(chǔ)上抽取句子步驟涉及到以下幾個(gè)子問題:子主題特征詞抽取,句子重要度的計(jì)算、句子抽取策略。 由于每個(gè)子主題覆蓋整個(gè)文檔集合的一個(gè)側(cè)面的信息,因此需

3、要從子主題中抽取出體現(xiàn)該子主題核心信息的特征詞,稱為sub-topic-signature(STS)。這些特征詞對(duì)于后面句子的抽取具有舉足輕重的意義。本文試驗(yàn)了通過count-idf方法、假設(shè)檢驗(yàn)方法等幾種方法得到的結(jié)果,并給出了比較分析。 在句子重要度計(jì)算步驟中,綜合考慮了句子位置因素、實(shí)體因素、核心詞因素、指示詞因素等因素,綜合多個(gè)因素給句子打分,按照重要度排序作為句子抽取的備選順序。 在抽取過程中,本文提出了使用有

4、效詞的權(quán)重均值數(shù)作為信息量描述方式,根據(jù)已經(jīng)抽取的句子集合從備選句子集合中抽取新句子,使最終抽取出的句子集合包含的信息量最大,從而達(dá)到使文摘的冗余信息最小的目的。 基于以上方法,我們?cè)?個(gè)類別的文檔集合上分別進(jìn)行了試驗(yàn),并使用基于句子準(zhǔn)確率/召回率方法和基于n-gram方法分別進(jìn)行了文摘的質(zhì)量評(píng)估。實(shí)驗(yàn)結(jié)果表明,我們?cè)诙辔臋n摘要的子主題劃分方法和句子抽取策略上的改進(jìn)在一定程度上提高了最終摘要的質(zhì)量。 本文是對(duì)多文檔自動(dòng)摘

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論