面向共指消解的動態(tài)泛化機制研究.pdf_第1頁
已閱讀1頁,還剩61頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、共指消解是自然語言處理中的核心任務(wù),它對于篇章分析、自動文摘、信息抽取、信息檢索、信息過濾和機器翻譯等都具有重要的意義。本文采用基于實例的動態(tài)泛化機制,在中英文上完成共指消解。
  基于實例的動態(tài)泛化機制的核心思想是:從訓(xùn)練實例中尋找那些與測試實例最相似的實例,并根據(jù)最相似的訓(xùn)練實例的正、反類別分布預(yù)測測試實例的類別標(biāo)簽。以此核心思想為基礎(chǔ),本文提出了泛化點的概念,并設(shè)計了動態(tài)泛化機制的兩個基本算法。
  本文重點研究了兩類

2、動態(tài)泛化機制:基于平面特征的動態(tài)泛化機制和基于復(fù)雜特征的動態(tài)泛化機制。
  對基于平面特征的動態(tài)泛化機制的研究,本文著重解決了動態(tài)泛化機制基本算法中尚未解決的最佳泛化點選取標(biāo)準(zhǔn)與正值置信度計算問題。本文提出了5種最佳泛化點選取標(biāo)準(zhǔn),并將正例置信度定義為對正例所占比例的分段線性函數(shù)。實驗結(jié)果表明,以本文提出的最佳泛化點選取標(biāo)準(zhǔn)與正例置信度定義方式作為基礎(chǔ),基于平面特征的動態(tài)泛化機制在中英文語料達(dá)到的效果與三種傳統(tǒng)機器學(xué)習(xí)方法的效果相

3、當(dāng)。
  復(fù)雜特征包含取值分別為字符序列型、結(jié)構(gòu)型的特征。本文分兩個子任務(wù)對基于復(fù)雜特征的動態(tài)泛化機制進行了研究:
  (1)基于中心語特征的動態(tài)泛化機制研究。本文引入了先行語和照應(yīng)語的中心語作為新的特征,其屬于字符序列型。針對動態(tài)泛化機制基本算法的錯誤分析結(jié)果,本文提出競爭模式以捕獲命名命名實體識別錯誤與語言互斥的搭配。實驗結(jié)果表明,采用競爭模式后,基于中心語特征的動態(tài)泛化機制在英文語料上取得明顯的增強效果,但在中文語料上

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論