面向軍事領(lǐng)域的命名實體識別及相關(guān)信息提取關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩55頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于軍事領(lǐng)域的命名實體識別的主要任務(wù)是識別出軍事文本中的人名、地名、武器、組織機構(gòu)名等專有名稱并加以歸類,可供指揮員或者指揮機關(guān)在作戰(zhàn)指揮時可以迅速了解戰(zhàn)場態(tài)勢,及時準(zhǔn)確地做出決策的重要依據(jù)。近年來,基于軍事領(lǐng)域的命名實體識別與提取是提高作戰(zhàn)指揮自動化、智能化性能的一項重要研究,通過引入自然語言處理領(lǐng)域的一些相關(guān)技術(shù),如自動分詞技術(shù)、分類標(biāo)注技術(shù)、信息提取技術(shù)等等,對非結(jié)構(gòu)化的自由文本形式的軍事文本進行分析、處理,從中提取出與作戰(zhàn)指揮系

2、統(tǒng)有關(guān)的重要信息,再形成計算機能快速、準(zhǔn)確識別的結(jié)構(gòu)化數(shù)據(jù)。
  本文主要研究在對軍事文本命名實體識別任務(wù)中,從理論和技術(shù)兩個層次對必須用到的幾項關(guān)鍵技術(shù)進行深入地剖析。首先分析研究了分詞技術(shù)的理論、方法,以軍事文本為數(shù)據(jù)源,針對軍事文本的特點,建立了三個匹配詞典,采用了正向最大匹配法對軍事文書進行分詞;其次,設(shè)計類別標(biāo)簽,在分詞的同時為新切分出的每一個分詞單位加上類別標(biāo)簽,為接下來的識別構(gòu)建少部分的標(biāo)準(zhǔn)標(biāo)注語料;第三,提出了Tr

3、i-Training算法,它是一個半監(jiān)督的學(xué)習(xí)框架,在使用該算法過程中,首先使用第二部分得到的標(biāo)準(zhǔn)標(biāo)注語料,訓(xùn)練得到一個簡單的CRF模型,之后對CRF模型進行迭代學(xué)習(xí),識別、提取出關(guān)鍵詞數(shù)據(jù),在此基礎(chǔ)上使用基于詞典的方法對初步的識別結(jié)果進行校正,并將提取出的數(shù)據(jù)寫入結(jié)構(gòu)化的文件中,從而實現(xiàn)了從文本到結(jié)構(gòu)化數(shù)據(jù)的轉(zhuǎn)換。通過四組實驗數(shù)據(jù)對比表明,采取詞典的校正方法能夠出色地識別出更多的各類合成詞,使識別的準(zhǔn)確率(Pre)、召回率(Rec)及

4、F-值都有較大幅度地提高。第四組的方法在繼承了基于Tri-Training算法對條件隨機場模型進行迭代學(xué)習(xí)的基礎(chǔ)上吸收了基于詞典的優(yōu)點,該方法在軍事文本中能夠出色地完成命名實體識別仟務(wù),對軍事文本語料分類測試,其F-值在軍事文本識別中最高達到92.40%,與通用領(lǐng)域中命名實體識別的水平相接近。之后為了更加直觀形象地驗證此算法的優(yōu)越性,考慮到面向軍事領(lǐng)域的命名實體識別在部隊中的主要應(yīng)用實例是對基于軍事文本信息提取的電子地圖進行自動標(biāo)繪,因

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論