基于詞坐標的文本處理、數(shù)據(jù)管理及應用設(shè)計——英語語料庫軟件設(shè)計與開發(fā).pdf_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、語料庫語言學以文本數(shù)據(jù)作為研究對象,通過計算機檢索和統(tǒng)計分析來揭示隱藏在文本中的語言事實。文本是唯一的數(shù)據(jù)源,研究者通過語料庫檢索獲取信息,知識在基于信息統(tǒng)計的意義上得到解釋。檢索和統(tǒng)計是語料庫語言學研究的重要技術(shù)和手段,且大規(guī)模文本是其研究的必然要求,所以計算機和專業(yè)軟件就成了必不可少的工具。而目前語料庫軟件相對貧乏,功能單一,且難以擴展升級;同時由于技術(shù)開發(fā)和理論研究的脫節(jié),使得當前語料庫軟件很難滿足實際研究需求。本文提出一種新的文

2、本處理思路和方法:基于詞坐標的文本處理系統(tǒng),文本處理時進行切詞并坐標化,生成詞坐標對象,并基于詞坐標對象進行檢索統(tǒng)計分析及開發(fā)高級功能應用等。這在一定程度上解決了目前所遇到的一些困難和問題。概括起來,本文的其創(chuàng)新和貢獻有: 1.提供了一套新的文本處理思路和完整的可行方案,并開放源代碼。目前語料庫軟件開發(fā)方面的文獻資料和代碼資源非常匱乏,國內(nèi)幾乎是空白;各軟件發(fā)行者考慮到商業(yè)利益或?qū)W術(shù)保密,拒絕共享其研發(fā)成果。諸此等等,造成了語料

3、庫軟件開發(fā)進展緩慢、重復開發(fā)、功能有限等局面?;谠~坐標的文本處理系統(tǒng)提供了一套完整的操作方案:文本預處理、切詞、統(tǒng)計運算到輸出保存、檢索定位、索引行顯示等,并對其操作流程進行了詳細地解釋。本文采用面向?qū)ο缶幊陶Z言JAVA,開放源代碼供大家參考借鑒。 2.優(yōu)化算法,解決部分難題,改進前人在軟件開發(fā)中存在的弊端。在本研究中,不管是算法、數(shù)據(jù)運算,還是數(shù)據(jù)儲存方面都有了很大程度的優(yōu)化,提高了程序執(zhí)行效率。首先本文的設(shè)計有三個轉(zhuǎn)換:面

4、向文本→面向單詞、字符匹配→數(shù)字運算、純文本→結(jié)構(gòu)化數(shù)據(jù),這在很多功能開發(fā)上極大地優(yōu)化了算法,簡化了運算。另外語篇信息統(tǒng)計更加全面準確,檢索定位更為快捷精確;同時引入XML數(shù)據(jù)保存格式,加強數(shù)據(jù)描述,解決多重賦碼等問題;吸收倒排索引思想,提高檢索效率;并利用詞坐標的思想和數(shù)據(jù)優(yōu)勢,擴展高級功能,在詞共現(xiàn)與詞相關(guān)、詞圖方面做簡要示例分析。 3.開放性設(shè)計,為語料庫軟件橫向功能擴展和縱向功能深化提供新的突破口。本文獨特的文本處理視角

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論