基于生成性概率模型的句法分析和多文檔自動文摘研究.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-09 格式：pdf 頁數(shù)：131 大?。?.16MB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩130頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、由于萬維網上文本信息的快速增長，自然語言處理作為使計算機得以應用文本形式信息的關鍵，已成為目前的一個研究熱點。本文的工作主要討論自然語言處理理論研究中的句法分析和應用研究中的多文檔自動文摘這兩個方面的內容。其中，句法分析是自然語言處理中的關鍵技術，多文檔自動文摘、機器翻譯和信息檢索等許多自然語言處理的應用研究需要依賴句法分析的結果作為支持；對句法分析的研究也有助于補充對人類語言的認知，因此句法分析的研究具有重要的理論意義和實用價值。多文

2、檔自動文摘可以給用戶提供簡明扼要的概述，幫助用戶快速處理文本信息，隨著網絡上文檔數(shù)量的飛速增長，多文檔自動文摘越來越受到人們的重視。
　　句法分析的關鍵問題是對單句對應的多個句法結構進行優(yōu)選的問題，而自動文摘中的關鍵問題則是對文檔中的多個句子進行優(yōu)選的問題。本文針對句法結構和句子的優(yōu)選問題，在國家自然基金和山東省自然基金的資助下，使用生成性的概率模型，分別為句法結構和句子建模，進行句法分析和多文檔自動文摘問題的研究。主要包括句

3、法分析中的語法體系、分析算法和分析模型三個方面的研究和多文檔自動文摘中句子表示形式和排序方法的研究，并通過實驗對研究結果進行了驗證和分析。
　　在句法分析的研究中，提出了一種新的語法體系，研究了該語法體系的分析算法和剪枝規(guī)則，并在概率分析模型中融合了新的結構信息。在自動文摘的研究中，提出了一種基于概率主題模型的句子建模方法來挖掘文檔集潛在的主題結構，在該主題模型的基礎上，進一步研究了句子權重的計算方法和文摘的冗余消除方法。

4、r>　　本文的主要研究內容和創(chuàng)新點包括以下四個方面：
　　 1.提出了一種以詞匯組合關系描述語法的二元組合語法體系
　　由于依存語法可以方便地表達中心詞與修飾詞之間的依賴關系，比短語結構語法更適于信息檢索領域的應用，是當前自然語言處理中語法體系的一個研究熱點。但依存語法缺乏內部結構表示，不能顯式地表達復雜的句法結構，對語法結構的識別造成一定的障礙。針對語法體系中缺乏短語搭配強度和依存語法研究中缺乏內部結構表示形式造

5、成的復雜結構難以表達的問題，提出了一種通過相鄰短語中心詞的兩兩組合來表達句法結構的二元組合語法。在組合關系中引入局部優(yōu)先級來描述結構之間相對的搭配強度，限制組合次序。二元組合語法中引入的內部節(jié)點有利于句法結構的表達和識別，局部優(yōu)先級表示的短語搭配強度可以限制句法分析中非法結構的生成。
　　 2.提出了一種基于局部優(yōu)先級的句法分析算法
　　句法分析算法是句法分析的重要組成部分，它直接影響句法分析的準確性和效率。針對本文提

6、出的二元組合語法，結合語法中定義的局部優(yōu)先級的限制，提出了一種基于局部優(yōu)先級的句法分析算法。局部優(yōu)先級的限制信息融入到二元組合語法的分析算法中后，可以作為分析過程中剪枝的規(guī)則。本文對傳統(tǒng)的CYK(Cocke，Younger,Kasami)圖算法進行改進，提出了一種基于局部優(yōu)先級的二元組合語法分析圖算法，并在人工歸納的語法體系上進行了句法分析實驗。結果表明，改進后的CYK圖算法在產生樹結構的數(shù)量和花費的時間上都明顯低于傳統(tǒng)的CYK算法。<

7、br>　　 3.提出了一種基于嵌套層次限制的句法分析模型
　　在概率模型的構建中，如何應用句法結構信息是句法分析建模中需考慮的主要問題。目前考察的信息主要有詞匯支配度的信息、依存長度的信息等。修飾詞的嵌套層數(shù)越多語言越難理解，本文將這種修飾詞嵌套層次的信息引入到生成性的概率分析模型中，增強對句法結構的識別能力。在建立了基于局部優(yōu)先的CYK圖算法的基礎上，提出了一種融合嵌套層次限制的二元組合語法分析模型。句法分析實驗中，將依存

8、格式的樹庫轉換為二元組合語法的形式來構建二元組合語法樹庫，然后基于該樹庫自動獲取句法關系和優(yōu)先級信息，并估計嵌套層次模型的參數(shù)。在二元組合語法樹庫上進行漢語句法分析的實驗，結果表明，與詞匯支配度模型相比，利用嵌套層次限制構造的漢語句法分析模型可以獲得更高的分析正確率。實驗中也考察了局部優(yōu)先級限制對分析正確率的影響，結果表明局部優(yōu)先級和嵌套層次的限制可以有效的避免非法結構的生成。
　　 4.提出了一種基于生成性概率主題模型的多文檔

9、自動文摘方法
　　使用潛狄利克雷分配(Latent Dirichlet Allocation，LDA)模型為句子建模，以捕捉深層次的主題信息?；谀Ｐ椭兄黝}在詞匯上的概率分布p(w|z)和句子在主題上的概率分布p(z|s)，提出了概率生成模型和句子生成模型兩種句子權重的計算方法，文摘中選擇權重較大、且與前面選擇的句子主題不重復的句子作為文摘句。實驗在DUC2002會議中提供的通用型多文檔文摘測試集上進行，以ROUGE自動評測工

10、具作為評測標準。結果表明，與基于詞頻的文摘模型和其它基于LDA模型的文摘模型相比，本文提出的模型可以獲得更好的文摘效果，其中概率生成模型在所有評價標準上均優(yōu)于其他模型。
　　本文進一步的工作包括：將組合關系的標簽作為上下文納入到分析算法中，以便于更精確的描述分析算法；在句法分析模型中添加其他有用的結構信息和主題信息的約束，提高句法分析的正確率；在多文檔自動文摘方面使用句法主題模型為句子建模，以便同時考慮句法和主題信息，改善文摘

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

基于生成性概率模型的句法分析和多文檔自動文摘研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

基于生成性概率模型的句法分析和多文檔自動文摘研究.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載