知識(shí)驅(qū)動(dòng)的文本分析軟件生成方法及關(guān)鍵技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩144頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、技術(shù)工具化,工具業(yè)務(wù)化,業(yè)務(wù)自動(dòng)化成為情報(bào)學(xué)研究領(lǐng)域的一種趨勢,同時(shí)也是情報(bào)學(xué)科近幾年來研究的重點(diǎn)和熱點(diǎn)之一。由于計(jì)算機(jī)的大量普及,在情報(bào)學(xué)的研究中,使用大量的軟件工具開展研究成為了一種趨勢,其中涉及了大量與自然語言處理相關(guān)的技術(shù)。一方面,傳統(tǒng)的情報(bào)分析人員對(duì)技術(shù)和工具的研究并不深入,無法選擇合適的技術(shù)和工具定制化的解決情報(bào)研究中出現(xiàn)的問題。另一方面,市場上存在著大量工具可供情報(bào)分析人員使用,但是隨著情報(bào)研究的不斷深入,研究對(duì)工具定制化

2、的需求也越來越高,要在當(dāng)前大量的工具中找到適合處理當(dāng)前資源的工具比較困難,并且市場上的工具都是面向通用資源的,軟件普遍的自適應(yīng)性比較差,具有一定的局限性,對(duì)某種特定資源的處理效果并不理想。因此,本文基于這種大量使用軟件的趨勢和軟件普遍自適應(yīng)性較差的現(xiàn)狀,借助自然語言處理的方法,開展了軟件自動(dòng)生成相關(guān)的研究。
  通過大量的調(diào)研發(fā)現(xiàn),知識(shí)驅(qū)動(dòng)的方法針對(duì)性較強(qiáng),能夠有效的適應(yīng)不同環(huán)境下的需求,能夠?qū)Ξ?dāng)前環(huán)境下的需求做出分析并提出解決方

3、案,與本文的研究目的相符合,所以,本文將文本分析軟件作為研究對(duì)象,主要研究知識(shí)驅(qū)動(dòng)的軟件生成方法和關(guān)鍵技術(shù)。研究成果有以下幾點(diǎn):
  對(duì)軟件數(shù)據(jù)的收集和提取的方法及關(guān)鍵技術(shù)進(jìn)行了研究,包括各類軟件數(shù)據(jù)的獲取、清洗和解析過程中使用的方法和關(guān)鍵技術(shù)。本文的軟件數(shù)據(jù)主要有兩個(gè)來源,教材示例代碼和開源軟件,共獲取到9349個(gè)類,將這兩種不同來源的代碼使用自然語言處理的方法進(jìn)行不同顆粒度的解析和標(biāo)注。教材代碼在“方法”顆粒度上解析,使用字符

4、串匹配的方法將每個(gè)代碼文件中的每個(gè)單獨(dú)的方法提取出來,以便對(duì)java代碼的基本結(jié)構(gòu)進(jìn)行分析;軟件源碼在“代碼行”顆粒度上解析并標(biāo)注,根據(jù)java代碼的特點(diǎn)和軟件生成的特點(diǎn),定義了一系列的標(biāo)簽,使用標(biāo)簽對(duì)每代碼行進(jìn)行標(biāo)注,為知識(shí)驅(qū)動(dòng)的軟件生成提供規(guī)范化的軟件語料,這種語料是經(jīng)過深加工的、以代碼生成為目標(biāo)進(jìn)行規(guī)范化處理的。其中的關(guān)鍵技術(shù)包括Java要素分析、軟件邏輯提取和代碼模塊提取;
  對(duì)知識(shí)驅(qū)動(dòng)模型的構(gòu)建及其關(guān)鍵技術(shù)進(jìn)行了介紹,

5、用知識(shí)驅(qū)動(dòng)模型指導(dǎo)規(guī)范的軟件語料,能夠?qū)崿F(xiàn)軟件的自動(dòng)生成。首先使用自然語言處理的方法分析上文得到的語料,構(gòu)建Java基本模型,在Java基本模型的基礎(chǔ)上結(jié)合軟件邏輯構(gòu)建知識(shí)驅(qū)動(dòng)模型框架。知識(shí)驅(qū)動(dòng)模型的構(gòu)建過程中需要對(duì)代碼進(jìn)行評(píng)價(jià)和選擇,使用三種方法對(duì)代碼模塊進(jìn)行評(píng)價(jià):分詞方法評(píng)價(jià)、代碼相似度計(jì)算和代碼指標(biāo)評(píng)價(jià)。最后,研究了三種知識(shí)驅(qū)動(dòng)模型的構(gòu)建方法,分別是:通用知識(shí)驅(qū)動(dòng)模型、文本語言驅(qū)動(dòng)模型和軟件復(fù)雜程度驅(qū)動(dòng)模型。根據(jù)要處理的文本的特點(diǎn)

6、及用戶的需求,結(jié)合代碼分析的結(jié)果,用知識(shí)驅(qū)動(dòng)模型框架作為指導(dǎo),能夠得到特定的知識(shí)驅(qū)動(dòng)模型;
  搭建了一個(gè)軟件生成平臺(tái),將本文研究的內(nèi)容集成到平臺(tái)中,該平臺(tái)分為4個(gè)功能模塊:原料軟件管理模塊、代碼模塊管理模塊、文本分析模塊和軟件生成管理模塊,能夠?qū)崿F(xiàn)軟件的自動(dòng)生成和生成代碼的修改。
  以文本分析軟件為研究對(duì)象,分別解析了9種分詞軟件,并根據(jù)解析的結(jié)果構(gòu)建了知識(shí)驅(qū)動(dòng)模型,設(shè)計(jì)了兩組實(shí)驗(yàn),第一組進(jìn)行了文本語言驅(qū)動(dòng)的軟件生成,第

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論