版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、中國(guó)方志類古籍起源早、持續(xù)久、類型全、數(shù)量多。據(jù)《中國(guó)地方志聯(lián)合目錄》的統(tǒng)計(jì),僅保存至今的宋至民國(guó)時(shí)期的方志就有8264種,11萬余卷,占中國(guó)古籍的十分之一左右。整理和使用方志資料,是我國(guó)歷史上的一個(gè)優(yōu)良傳統(tǒng)?!斗街疚锂a(chǎn)》是20世紀(jì)50年代,我國(guó)著名農(nóng)史學(xué)家、中國(guó)農(nóng)史學(xué)科主要?jiǎng)?chuàng)始人之一的萬國(guó)鼎先生,組織數(shù)十人歷時(shí)6年,人工摘抄方志整理的專題性資料。該方志資料詳細(xì)記載了物產(chǎn)的名稱、性能、作用及分布情況,具有極高的農(nóng)業(yè)科技和經(jīng)濟(jì)史料價(jià)值。信
2、息技術(shù)日益發(fā)展的今天,如何利用現(xiàn)代信息技術(shù)整理方志資料,降低開發(fā)利用的難度,已成為一個(gè)十分現(xiàn)實(shí)的課題。本文將以《方志物產(chǎn)》為基礎(chǔ),探索方志類古籍整理的新方法,
首先從方志整理的主要內(nèi)容、基本手段、現(xiàn)有成果三方面論述方志的整理,詳細(xì)介紹《方志物產(chǎn)》的緣起及其手工整理和數(shù)字化整理的過程,分析目前方志整理存在的問題,進(jìn)而引出本研究的目的和意義;其次從命名實(shí)體識(shí)別的概念和作用、識(shí)別的任務(wù)、中文命名實(shí)體識(shí)別的特點(diǎn)和難點(diǎn)等方面闡述命名
3、實(shí)體識(shí)別的基本語言學(xué)知識(shí),重點(diǎn)討論命名實(shí)體識(shí)別的方法,對(duì)目前國(guó)內(nèi)外已有的相關(guān)研究作總結(jié);然后結(jié)合方志類古籍的特點(diǎn)以及《方志物產(chǎn)》中地名的特點(diǎn),制定《方志物產(chǎn)》地名識(shí)別方法.
以廣東、福建和臺(tái)灣三省《方志物產(chǎn)》為例,構(gòu)建《方志物產(chǎn)》地名識(shí)別系統(tǒng),通過對(duì)地名識(shí)別結(jié)果的統(tǒng)計(jì)分析,進(jìn)行《方志物產(chǎn)》內(nèi)容挖掘。主要研究?jī)?nèi)容如下:
(1)《方志物產(chǎn)》地名識(shí)別系統(tǒng)的設(shè)計(jì)和構(gòu)建。該系統(tǒng)包括全文數(shù)據(jù)庫和地名識(shí)別子系統(tǒng)兩大功能模塊
4、。
全文數(shù)據(jù)庫構(gòu)建,從三省《方志物產(chǎn)》物產(chǎn)敘述格式的特點(diǎn)出發(fā),借鑒前人分析、提取的統(tǒng)一行文格式,對(duì)三省《方志物產(chǎn)》文本格式作規(guī)范處理,并以此為據(jù)設(shè)計(jì)數(shù)據(jù)庫結(jié)構(gòu)。全文數(shù)據(jù)庫具有全文檢索、關(guān)鍵詞檢索、聚類檢索和數(shù)據(jù)統(tǒng)計(jì)等功能.
物產(chǎn)地名識(shí)別子系統(tǒng),采用規(guī)則與統(tǒng)計(jì)相結(jié)合的命名實(shí)體識(shí)別方法,結(jié)合方志類古籍自身的特點(diǎn),實(shí)現(xiàn)物產(chǎn)地名的自動(dòng)識(shí)別。物產(chǎn)地名識(shí)別子系統(tǒng)具有規(guī)則管理、地名識(shí)別、地名庫修正、信息統(tǒng)計(jì)四大功能。經(jīng)測(cè)試
5、,該系統(tǒng)能夠滿足相關(guān)研究人員在方志類古籍領(lǐng)域進(jìn)行古籍檢索和知識(shí)發(fā)現(xiàn)的需要。系統(tǒng)的識(shí)別效果可通過規(guī)則的不斷完善得以逐步優(yōu)化。
(2)《方志物產(chǎn)》的物產(chǎn)研究
按歷史時(shí)期、志書類型、地域位置對(duì)廣東、福建、臺(tái)灣三省《方志物產(chǎn)》的全部載述物產(chǎn)進(jìn)行統(tǒng)計(jì)和分析。按歷史時(shí)期統(tǒng)計(jì)分析的結(jié)果表明:從明代到清代再到民國(guó)時(shí)期,平均每部志書記載物產(chǎn)的數(shù)量呈遞增趨勢(shì)。按志書類型統(tǒng)計(jì)分析的結(jié)果表明:從通志到府志再到縣志,平均每部志書所載物
6、產(chǎn)的數(shù)量呈遞減趨勢(shì)。按地域位置統(tǒng)計(jì)分析的結(jié)果表明:廣東、福建、臺(tái)灣三省《方志物產(chǎn)》記述的不僅是這三省的物產(chǎn),還包括海南省全部和廣西部分地域的物產(chǎn)。
(3)基于物產(chǎn)地名的《方志物產(chǎn)》內(nèi)容挖掘研究,包括全部正確地名的統(tǒng)計(jì)分析、各省物產(chǎn)分布、物產(chǎn)傳播和外來物產(chǎn)引進(jìn)研究。
全部正確地名的統(tǒng)計(jì)分析,基于7179條有效地名識(shí)別記錄。各省《方志物產(chǎn)》地名識(shí)別結(jié)果分別按省內(nèi)地名、省外地名、國(guó)外地名和寬泛地名分類統(tǒng)計(jì)。統(tǒng)計(jì)分析
7、的結(jié)果表明:相比其他兩省,臺(tái)灣省同外界的物產(chǎn)交流、傳播相對(duì)更為廣泛。
各省物產(chǎn)分布研究,基于相關(guān)統(tǒng)計(jì)數(shù)據(jù),詳細(xì)分析了廣東、福建、臺(tái)灣三省物產(chǎn)的具體分布情況,并利用ArcGIS軟件繪制物產(chǎn)分布專題地圖,全面、直觀地顯示相:關(guān)內(nèi)容。研究結(jié)果表明:決定一個(gè)地域物產(chǎn)多樣性的主要因素有兩點(diǎn),一是該地域的自然因素,包括其地理位置、自然環(huán)境和氣候條件;二是該地域的人文因素.包括人類對(duì)自然資源的開發(fā)與利用、外來物產(chǎn)的引進(jìn)和傳播。
8、 各省物產(chǎn)傳播研究,基于相關(guān)統(tǒng)計(jì)數(shù)據(jù),詳細(xì)分析了廣東、福建、臺(tái)灣三省物產(chǎn)的傳播概況,同樣利用ArcGIS軟件繪制專題地圖,進(jìn)行全面、直觀的顯示。研究結(jié)果表明:地區(qū)間物產(chǎn)交流和傳播的廣度隨地區(qū)間距離的擴(kuò)大呈遞減趨勢(shì)。距離越遠(yuǎn),物產(chǎn)交流和傳播相對(duì)越少。
各省外來物產(chǎn)引進(jìn)研究,基于相關(guān)統(tǒng)計(jì)數(shù)據(jù),分析、比較了廣東、福建、臺(tái)灣三省外來物產(chǎn)的引進(jìn)概況。研究表明:促進(jìn)物產(chǎn)引進(jìn)和傳播的原因有兩點(diǎn),一是地區(qū)間的貿(mào)易往來。二是殖民侵略和戰(zhàn)
9、爭(zhēng)。
(4)基于識(shí)別規(guī)則的《方志物產(chǎn)》內(nèi)容挖掘研究,包括全部識(shí)別規(guī)則的統(tǒng)計(jì)分析、物產(chǎn)分布比較研究、物產(chǎn)引進(jìn)和傳播途徑研究。
全部識(shí)別規(guī)則的統(tǒng)計(jì)分析,同樣基于7179條有效地名識(shí)別記錄。根據(jù)規(guī)則表達(dá)的含義,將識(shí)別規(guī)則分為識(shí)別物產(chǎn)分布地名的規(guī)則和識(shí)別物產(chǎn)引進(jìn)傳播地名的規(guī)則兩類,各類分別加以統(tǒng)計(jì)。
物產(chǎn)分布比較研究,基于識(shí)別規(guī)則的相關(guān)統(tǒng)計(jì)數(shù)據(jù),挖掘出志書對(duì)物產(chǎn)原產(chǎn)地、分布地、各地物產(chǎn)孰優(yōu)孰劣、孰多孰少
10、等相關(guān)內(nèi)容的描述,進(jìn)而歸納出部分物產(chǎn)的原產(chǎn)地、優(yōu)產(chǎn)地和高產(chǎn)地。
物產(chǎn)引進(jìn)和傳播途徑研究,基于識(shí)別規(guī)則的分類統(tǒng)計(jì)數(shù)據(jù),總結(jié)出明清時(shí)期外來物產(chǎn)引進(jìn)和傳播的主要途徑:一是對(duì)外貿(mào)易,二是朝貢,三是朝廷使者或僧侶傳入。
總而言之,本文以農(nóng)史資料《方志物產(chǎn)》為語料,將信息組織的理論、方法借助于命名實(shí)體識(shí)別技術(shù)實(shí)現(xiàn)《方志物產(chǎn)》的地名識(shí)別,通過對(duì)識(shí)別結(jié)果的文獻(xiàn)計(jì)量學(xué)分析,進(jìn)行《方志物產(chǎn)》內(nèi)容挖掘研究,旨在探索一種基于內(nèi)容的古
11、籍整理新方法。本研究所做的主要工作和貢獻(xiàn)在于:
(1)將命名實(shí)體識(shí)別相關(guān)理論和方法嘗試應(yīng)用于方志類古籍文獻(xiàn),用來識(shí)別、挖掘方志文獻(xiàn)中的地名;
(2)運(yùn)用文獻(xiàn)計(jì)量學(xué)方法,分析《方志物產(chǎn)》地名識(shí)別結(jié)果中的物產(chǎn)名、物產(chǎn)地名和識(shí)別規(guī)則,獲得物產(chǎn)分布、物產(chǎn)引進(jìn)和傳播等相關(guān)知識(shí),實(shí)現(xiàn)基于內(nèi)容的古籍?dāng)?shù)字化整理;
(3)借助GIS專題地圖,直觀顯示《方志物產(chǎn)》中物產(chǎn)分布、物產(chǎn)引進(jìn)和傳播等知識(shí)內(nèi)容,突破傳統(tǒng)的文字
12、表達(dá)模式,使方志類古籍這一歷史文化資源的時(shí)空特性得以充分揭示。
命名實(shí)體包括人名、地名、組織機(jī)構(gòu)名等,本文重點(diǎn)是對(duì)廣東、福建和臺(tái)灣三省《方志物產(chǎn)》中的地名進(jìn)行識(shí)別,其他的諸如志書名稱、成書年代、物產(chǎn)名稱等命名:實(shí)體是文檔處理過程中采用機(jī)器輔助粗分出來的。今后可通過修改或重新錄入、組織規(guī)則,實(shí)現(xiàn)對(duì)其他省份的方志資料,或其他類型的古籍資料進(jìn)行地名以外的人名、官職名、機(jī)構(gòu)名等其他命名實(shí)體的識(shí)別研究,以求從多角度挖掘和利用古籍資料
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 命名實(shí)體識(shí)別在方志內(nèi)容挖掘中的應(yīng)用研究——以廣東、福建、臺(tái)灣三省方志物產(chǎn)為例
- 地方志知識(shí)組織及內(nèi)容挖掘研究——以方志物產(chǎn)廣東為例
- 地方志知識(shí)組織及內(nèi)容挖掘研究——以方志物產(chǎn)廣東為例_12311
- 命名實(shí)體識(shí)別研究及其應(yīng)用.pdf
- 領(lǐng)域本體在中文命名實(shí)體識(shí)別中的應(yīng)用研究.pdf
- 半監(jiān)督的命名實(shí)體識(shí)別.pdf
- 中文命名實(shí)體識(shí)別的研究.pdf
- 中文命名實(shí)體識(shí)別算法研究.pdf
- 基于規(guī)則的命名實(shí)體識(shí)別研究.pdf
- 2004命名實(shí)體識(shí)別評(píng)測(cè)大綱
- 中文短文本命名實(shí)體識(shí)別方法與應(yīng)用研究.pdf
- 基于CRF的英文命名實(shí)體識(shí)別研究.pdf
- 基于Stacking框架的命名實(shí)體識(shí)別.pdf
- 2004命名實(shí)體識(shí)別評(píng)測(cè)大綱
- 命名實(shí)體識(shí)別及其關(guān)系抽取.pdf
- 中文命名實(shí)體識(shí)別方法研究.pdf
- 基于CRF的農(nóng)業(yè)命名實(shí)體識(shí)別研究.pdf
- 基于CRF的中文命名實(shí)體識(shí)別研究.pdf
- 基于統(tǒng)計(jì)的生物命名實(shí)體識(shí)別研究.pdf
- 基于Wikipedia的中文命名實(shí)體識(shí)別研究.pdf
評(píng)論
0/150
提交評(píng)論