非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)方法及在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩141頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、科學(xué)知識,是人類科學(xué)活動的產(chǎn)出品,而科學(xué)文獻(xiàn)則是記錄、存貯、傳播科學(xué)知識的載體,人類的科學(xué)知識一般以科學(xué)文獻(xiàn)的數(shù)量計量。普賴斯在他的名著《巴比倫以來的科學(xué)》中揭示了科學(xué)知識與科學(xué)文獻(xiàn)的指數(shù)增長規(guī)律。二戰(zhàn)以來,以指數(shù)方式增長的科學(xué)知識和科學(xué)文獻(xiàn)其數(shù)量已達(dá)到驚人的地步,這種現(xiàn)象被稱為信息爆炸或知識爆炸。以期刊論文為例,2008年國內(nèi)期刊當(dāng)年發(fā)表的農(nóng)業(yè)經(jīng)濟(jì)學(xué)期刊數(shù)量大約是1989年的17倍。在知識爆炸的時代,人類其實被自身創(chuàng)造的科學(xué)知識所淹沒

2、。人類科學(xué)知識的總量與人類的吸收能力之間的矛盾日益突出,科技工作者只能做選擇性地閱讀。任何一個農(nóng)業(yè)經(jīng)濟(jì)學(xué)研究人員都無法通讀當(dāng)年的農(nóng)業(yè)經(jīng)濟(jì)學(xué)文獻(xiàn)。選擇性地閱讀帶來的后果必然是對知識及知識與知識之間的聯(lián)系的遺漏。即便是全面、完整地閱讀,對隱含在海量文獻(xiàn)之間的知識與知識之間的內(nèi)在的、隱秘的聯(lián)系僅憑人類個人的智力也很難發(fā)現(xiàn)。
   客觀世界是普遍聯(lián)系的世界,在海量的分裂狀知識或科學(xué)文獻(xiàn)之間存在著各式各樣的聯(lián)系,這些聯(lián)系有相當(dāng)一部分僅通過

3、常規(guī)的查詢與閱讀是不能得到的。1986年,美國芝加哥大學(xué)的數(shù)學(xué)教授Don R.Swanson提出了非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的思想,并以充分的文獻(xiàn)證據(jù)論證了基于非相關(guān)文獻(xiàn)的知識發(fā)現(xiàn)思想的可行性與正確性。Swanson的思想在學(xué)術(shù)界產(chǎn)生了廣泛的影響,非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)既涉及知識發(fā)現(xiàn)技術(shù),也涉及具體的學(xué)科領(lǐng)域。二十多年來,非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)成為計算機(jī)、情報學(xué)和知識發(fā)現(xiàn)領(lǐng)域?qū)W科(如醫(yī)學(xué)、生物、工程、管理)的共同研究對象,相關(guān)研究論文在各學(xué)科的學(xué)術(shù)期刊

4、均有發(fā)表。各個學(xué)科的研究人員包括Swanson本人在以后的二十多年中對非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的理論基礎(chǔ)、算法模型及具體應(yīng)用進(jìn)行了持續(xù)地研究,相繼發(fā)現(xiàn)了更多的新知識、新聯(lián)系,其知識發(fā)現(xiàn)應(yīng)用領(lǐng)域也從單純的醫(yī)學(xué)、生物學(xué)領(lǐng)域拓展到了航空航天、工程技術(shù)乃至人文科學(xué)。
   農(nóng)業(yè)經(jīng)濟(jì)是一門有自己的獨特研究對象、研究方法、研究目的及悠久的歷史與傳統(tǒng)的成熟科學(xué),與其它學(xué)科一樣,現(xiàn)時代的農(nóng)業(yè)經(jīng)濟(jì)也面臨著專業(yè)細(xì)化、方向繁多的問題。農(nóng)業(yè)經(jīng)濟(jì)學(xué)也無法避免S

5、wanson所謂的知識片斷化與分裂化傾向。即,農(nóng)業(yè)經(jīng)濟(jì)學(xué)的知識總量與研究人員的吸收能力之間存在著巨大的差距;農(nóng)業(yè)經(jīng)濟(jì)學(xué)內(nèi)部的專業(yè)領(lǐng)域劃分越來越細(xì),專業(yè)之間的知識交流變得更加困難;一個專業(yè)領(lǐng)域的信息可能對另一個專業(yè)領(lǐng)域是有價值的,領(lǐng)域與領(lǐng)域之間存在著潛在的未被發(fā)現(xiàn)的關(guān)聯(lián)。非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)方法及其在農(nóng)業(yè)經(jīng)濟(jì)學(xué)中的應(yīng)用研究,就是以Swanson的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)思想為理論基礎(chǔ),以農(nóng)業(yè)經(jīng)濟(jì)學(xué)科為學(xué)科領(lǐng)域,以國內(nèi)核心期刊上發(fā)表的農(nóng)業(yè)經(jīng)濟(jì)學(xué)論文

6、為文獻(xiàn)源,結(jié)合中文信息自動化處理的各項技術(shù),研究適合農(nóng)業(yè)經(jīng)濟(jì)學(xué)的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)理論、算法和應(yīng)用案例,尋找隱藏在現(xiàn)有文獻(xiàn)間的關(guān)聯(lián)概念,并以農(nóng)業(yè)經(jīng)濟(jì)理論和方法論證關(guān)聯(lián)概念的現(xiàn)實性,驗證新知識的正確性。
   本文試圖在兩個方面取得突破。首先,在方法論方面,在分析、總結(jié)、比較非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)國內(nèi)外現(xiàn)有研究成果與算法模型的基礎(chǔ)上,本文試圖結(jié)合國內(nèi)期刊論文的特點和農(nóng)業(yè)經(jīng)濟(jì)學(xué)的實際情況,為農(nóng)業(yè)經(jīng)濟(jì)學(xué)文獻(xiàn)設(shè)計一套邏輯上可行、操作上簡便的

7、知識發(fā)現(xiàn)方法,完整解決文獻(xiàn)集合、詞表體系、分詞方案、算法模型等難點問題;其次,在知識發(fā)現(xiàn)實踐方面,本文試圖依據(jù)Swanson的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)思想,以國內(nèi)核心期刊上發(fā)表的農(nóng)業(yè)經(jīng)濟(jì)學(xué)期刊論文為文獻(xiàn)對象,發(fā)現(xiàn)若干對與農(nóng)業(yè)經(jīng)濟(jì)有關(guān)的關(guān)聯(lián)概念,也即發(fā)現(xiàn)新知識。
   本文首先在對國內(nèi)外非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的研究論文進(jìn)行總結(jié)、歸納、分析的基礎(chǔ)上,詳盡地探討了非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)思想模式下概念與概念之間的關(guān)聯(lián)方式,針對Swanson的非相關(guān)文

8、獻(xiàn)知識發(fā)現(xiàn)的A-B-C模式和Gordon的中介文獻(xiàn)思想,分別對應(yīng)地提出了單一關(guān)聯(lián)、單級關(guān)聯(lián)、多級關(guān)聯(lián)的概念,更進(jìn)一步地,創(chuàng)建了多重關(guān)聯(lián)和復(fù)合關(guān)聯(lián)模型,給出了多級關(guān)聯(lián)、多重關(guān)聯(lián)和復(fù)合關(guān)聯(lián)模式下非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的開放式與閉合式知識發(fā)現(xiàn)過程的路徑圖。并借鑒在自然語言處理領(lǐng)域被廣泛接受的向量空間模型,依據(jù)復(fù)合關(guān)聯(lián)模式下非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的開放式與閉合式過程路徑圖,設(shè)計了復(fù)合關(guān)聯(lián)模式下非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的算法模型,包括開放式算法模型與閉合式算法

9、模型。
   然后,本文創(chuàng)建了農(nóng)業(yè)經(jīng)濟(jì)學(xué)非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)語料庫。首先以軟件手段下載、轉(zhuǎn)換得到用于非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的農(nóng)業(yè)經(jīng)濟(jì)學(xué)期刊論文題錄數(shù)據(jù)庫,該數(shù)據(jù)庫包括了1989至2008年的二十年間國內(nèi)所有核心期刊上發(fā)表的屬于農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域的全部研究論文,共87506篇,并建立了由停用詞、通用詞表、專業(yè)詞表、同義詞表構(gòu)成的農(nóng)業(yè)經(jīng)濟(jì)學(xué)非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的詞表體系。其中的專業(yè)詞表是專門為農(nóng)業(yè)經(jīng)濟(jì)學(xué)非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)而創(chuàng)建的,包括與農(nóng)業(yè)經(jīng)濟(jì)有

10、關(guān)的專業(yè)詞匯96391個,設(shè)計并實現(xiàn)了用于文獻(xiàn)集合自動分詞的自適應(yīng)分詞算法。自適應(yīng)分詞算法在未登錄詞識別的召回率方面優(yōu)于國內(nèi)的其它算法,很適合非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)對專業(yè)領(lǐng)域的新詞和概念重視程度較高的需求。
   接著,本文的研究進(jìn)入農(nóng)業(yè)經(jīng)濟(jì)學(xué)非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)實踐階段。通過自行編寫的工具軟件,實現(xiàn)了復(fù)合關(guān)聯(lián)模式下基于向量空間模型的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)算法,并以從維普期刊庫中下載的題錄為知識發(fā)現(xiàn)的文獻(xiàn)集合,利用自行建立的詞表體系,運行

11、和實施了基于國內(nèi)核心期刊農(nóng)業(yè)經(jīng)濟(jì)學(xué)期刊論文的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)過程,發(fā)現(xiàn)了世界貿(mào)易組織與原教旨主義、馬爾薩斯與生態(tài)學(xué)、區(qū)域農(nóng)業(yè)保險費率與地理信息系統(tǒng)三對關(guān)聯(lián)概念。最后,遵循農(nóng)業(yè)經(jīng)濟(jì)學(xué)的理論和邏輯驗證并確認(rèn)了這三對關(guān)聯(lián)概念為農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域的新知識。這些知識在此前從未引起國內(nèi)農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域研究人員的聯(lián)想,在國內(nèi)核心期刊公開發(fā)表的農(nóng)業(yè)經(jīng)濟(jì)學(xué)文獻(xiàn)中都沒有報道,但這些知識隱藏在國內(nèi)農(nóng)業(yè)經(jīng)濟(jì)學(xué)期刊論文之間。
   本文的創(chuàng)新之處主要體現(xiàn)在以下三

12、個方面:
   建立了非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的復(fù)合關(guān)聯(lián)模式。
   復(fù)合關(guān)聯(lián)的概念與思想,在此前的國內(nèi)外文獻(xiàn)均未有類似提法。為了導(dǎo)出并描述非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的復(fù)合關(guān)聯(lián)模式,本文還分別提出了單級關(guān)聯(lián)、多級關(guān)聯(lián)、單一關(guān)聯(lián)、多重關(guān)聯(lián)的概念。單級關(guān)聯(lián)、單一關(guān)聯(lián)和多級關(guān)聯(lián)的思想之前已經(jīng)是研究者提出的成熟思想,但概念與提法為本文首次提出。本文將其納入了復(fù)合關(guān)聯(lián)的框架下并用新概念分別命名了對應(yīng)的思想和方法。多重關(guān)聯(lián)的概念與思想則是本文首次

13、創(chuàng)立,已知文獻(xiàn)中從未涉及。
   基于向量空間模型設(shè)計了復(fù)合關(guān)聯(lián)模式下的非相關(guān)文獻(xiàn)知識算法模型。
   本文基于向量空間模型設(shè)計了復(fù)合關(guān)聯(lián)模式下的非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)的算法模型,并對算法效率進(jìn)行了分析。該算法模型在Swanson及其它學(xué)者的論文中均沒有涉及,文獻(xiàn)調(diào)研中也沒有發(fā)現(xiàn)相似或相近的算法。該算法模型效率較高,與文獻(xiàn)集合做一次全局分析的時間代價相當(dāng)。隨后的程序?qū)崿F(xiàn)和具體的農(nóng)業(yè)經(jīng)濟(jì)學(xué)非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)實踐也驗證了該算法模

14、型的可性行與合理性。該算法模型還充分考慮了漢語文獻(xiàn)與農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域的特殊性,解決了漢語文獻(xiàn)自動分詞以及農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域?qū)I(yè)詞表與同義詞的構(gòu)建等問題。
   發(fā)現(xiàn)了三對隱含在文獻(xiàn)中的關(guān)聯(lián)概念,并證明這三對關(guān)聯(lián)概念可作為國內(nèi)農(nóng)業(yè)經(jīng)濟(jì)學(xué)領(lǐng)域的新知識。
   以1989年至2008年的二十年間國內(nèi)所有核心期刊上發(fā)表的與農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域相關(guān)的期刊論文的篇名和摘要為對象,以自行開發(fā)的復(fù)合關(guān)聯(lián)模式知識發(fā)現(xiàn)軟件為工具,通過開放式和閉合式兩階段非相

15、關(guān)文獻(xiàn)知識發(fā)現(xiàn)過程的運行,本文發(fā)現(xiàn)了世界貿(mào)易組織與原教旨主義、馬爾薩斯與生態(tài)學(xué)、區(qū)域農(nóng)業(yè)保險費率與地理信息系統(tǒng)等概念之間的關(guān)聯(lián),并以農(nóng)業(yè)經(jīng)濟(jì)學(xué)的理論與邏輯驗證了這三對概念之間的關(guān)聯(lián)的正確性,成為農(nóng)業(yè)經(jīng)濟(jì)領(lǐng)域的新知識。檢索國內(nèi)文獻(xiàn),在目前能檢索到的所有國內(nèi)核心期刊上登載的農(nóng)業(yè)經(jīng)濟(jì)學(xué)論文中對以上三對概念之間的聯(lián)系從未涉及,相關(guān)文獻(xiàn)為零。
   通過農(nóng)業(yè)經(jīng)濟(jì)學(xué)非相關(guān)文獻(xiàn)知識發(fā)現(xiàn)研究在方法論和知識發(fā)現(xiàn)實踐兩方面的工作,本文可以得出結(jié)論:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論