基于本體的web文檔知識(shí)獲取的框架研究

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-04-16 格式：doc 頁數(shù)：8 大?。?9.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩7頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、　　基于本體的Web文檔知識(shí)獲取的框架研究　　摘要本文在分析了Web文本的知識(shí)獲取途徑之后，提出了一個(gè)基于本體的Web文檔知識(shí)獲取模型。該模型具有較好的適應(yīng)性和可移植性，模型使用了可擴(kuò)充標(biāo)記語言(XML)，使得對(duì)知識(shí)庫的處理更加簡便。最后，通過一個(gè)臨床實(shí)例對(duì)其流程進(jìn)行了詳細(xì)說明，并分析其在醫(yī)院知識(shí)庫系統(tǒng)中的應(yīng)用。　　關(guān)鍵字知

2、識(shí)獲取；本體；Web文檔　　1 引言　　互聯(lián)網(wǎng)技術(shù)的發(fā)展為知識(shí)獲取方法的研究帶來了機(jī)遇和挑戰(zhàn)。必須發(fā)展相應(yīng)的知識(shí)自動(dòng)獲取技術(shù)。為了使語義網(wǎng)應(yīng)用到實(shí)際中給人們提供知識(shí)服務(wù)，就需要解決從Web文檔中獲取知識(shí)的問題。盡管從Web頁面的注釋中我們可以發(fā)現(xiàn)部分信息，然而所獲得的信息是不全面的，而且很難能獲取元信息。有研究者將

3、本體的概念引入到知識(shí)發(fā)現(xiàn)領(lǐng)域[1] [5]，但還沒有充分發(fā)揮到本體的優(yōu)勢。本文中本體以概念和關(guān)系來劃分知識(shí)類型，并且以獲取知識(shí)的本體為指導(dǎo)來從非結(jié)構(gòu)化的Web文檔中發(fā)現(xiàn)知識(shí)。　　2 面向Ｗeb文本的知識(shí)獲取途徑　　互聯(lián)網(wǎng)中存在大量的Web文檔，其中記載著大量的信息。通過超鏈接逐頁閱讀相關(guān)文獻(xiàn)來查找所需信息是初級(jí)的且效率較低的知識(shí)獲取方式。從文本中發(fā)現(xiàn)知

4、識(shí)并提供給用戶從技術(shù)上講有兩條主要途徑：　　(1)傳統(tǒng)的途徑，即通過使用如歸納程序等工具直接獲取文本中的知識(shí)，或通過知識(shí)工程師或領(lǐng)域?qū)＜沂褂弥R(shí)編輯、編譯工具間接獲取知識(shí)，然后構(gòu)造專家系統(tǒng)知識(shí)庫，通過專家系統(tǒng)間接為用戶提供知識(shí)[2]。這種方法有如下不足：第一，專家系統(tǒng)知識(shí)庫的表現(xiàn)形式不統(tǒng)一，存在知識(shí)難以共享的問題，且不適合逐頁瀏覽；第二，在知識(shí)從文本轉(zhuǎn)移到專家系統(tǒng)知識(shí)庫過程中，存在信息丟失的弊端

5、 [3]。　　(2)自然語言技術(shù)，即直接從自然語言文本獲取有用的知識(shí)并提供給用戶[4]。但由于目前自然語言理解水平還比較低，主要是利用用戶提供的樣本進(jìn)行訓(xùn)練，然后開發(fā)相應(yīng)的程序來獲取特定范圍的知識(shí)。這種途徑的缺點(diǎn)是有限的樣本庫資源限制決定了其應(yīng)用范圍的狹窄性。　　為此，需要有一種新的知識(shí)獲取方法，它能以適當(dāng)?shù)姆绞郊皶r(shí)地將適用的知識(shí)從眾多的文本提供給用戶。

6、將知識(shí)表示技術(shù)處理技術(shù)及XML技術(shù)標(biāo)準(zhǔn)結(jié)合起來，構(gòu)成了一種新的知識(shí)獲取途徑。　　3 基于本體的知識(shí)獲取模型　　3.1 本體的基本概念　　本體的英文有兩種寫法：①大寫開頭的Ontology 指哲學(xué)領(lǐng)域的本體論的概念。在哲學(xué)中Ontology 是一種存在的系統(tǒng)化解釋，用于描述事物的本質(zhì)。本體論的概念和方法被計(jì)算機(jī)

7、領(lǐng)域采用，用于知識(shí)表示、知識(shí)共享和重用。②小寫開頭的ontology 是計(jì)算機(jī)領(lǐng)域廣泛使用的概念，翻譯為本體，是某領(lǐng)域內(nèi)共享概念的明確的形式化規(guī)范說明。雖然本體還沒有一個(gè)明確的定義，AI領(lǐng)域普遍認(rèn)同Gruber于1995年指出類似的概念：本體是“概念化(Conceptualization) 的顯式( Explicit) 說明或表示”[6] 。直觀地講，本體是一個(gè)實(shí)體，是對(duì)某一領(lǐng)域應(yīng)用本體論的方法分析、建模的結(jié)果，即將現(xiàn)實(shí)世界中的某個(gè)領(lǐng)域

8、抽象為一組概念及概念之間的關(guān)系。　　3.2 基于本體的知識(shí)獲取方法　　很多知識(shí)獲取系統(tǒng)(如IE)能識(shí)別一些文檔實(shí)體，例如張三是一個(gè)人，2004年6月是一個(gè)日期，但是如果不將這些信息通過它們之間的關(guān)系聯(lián)系起來，就沒有太多的實(shí)用價(jià)值了。因?yàn)樗荒鼙磉_(dá)出張三出生于2004年6月的完整含義。這就要求有一種自動(dòng)處理機(jī)制用于發(fā)現(xiàn)實(shí)體之間的關(guān)系，也就是要求信息向本體

9、轉(zhuǎn)化。　　基于本體的知識(shí)獲取模型將知識(shí)獲取工具與本體聯(lián)系在一起，用本體來支持和指導(dǎo)知識(shí)獲取，是零散的信息集中到一起形成知識(shí)，以不斷地獲取知識(shí)。知識(shí)獲取工具通過搜索Web文檔，將那些能與給定的規(guī)則結(jié)構(gòu)匹配的知識(shí)提取出來，然后將它格式化為一種便于機(jī)器閱讀的格式(如XML)，并將它存入知識(shí)庫(KnowledgeBase)。在知識(shí)獲取過程中起指導(dǎo)作用的本體本身也要采用一種字典擴(kuò)展機(jī)制來擴(kuò)展本體集合。&l

10、t;/p>　　3.3 基于本體的知識(shí)獲取模型　　基于本體的知識(shí)獲取模型包括知識(shí)獲取、信息管理、和知識(shí)生成3大部分。其中知識(shí)獲取工具利用搜索引擎技術(shù)從Web文檔中一點(diǎn)一點(diǎn)地收集信息項(xiàng)(如句子和段落)。知識(shí)獲取工具將所獲得的信息片斷和本體字典庫中的元數(shù)據(jù)一起傳送到本體服務(wù)器中，本體服務(wù)器存儲(chǔ)并固化這些信息到知識(shí)庫以備知識(shí)生成工具訪問，當(dāng)用戶請求查詢某條相關(guān)信息時(shí)，知識(shí)生

11、成工具從知識(shí)庫中獲取信息并生成知識(shí)敘述通過用戶接口返回信息給用戶。其結(jié)構(gòu)如圖1所示。　　1) 知識(shí)獲取　　首先，用戶向系統(tǒng)發(fā)出請求并提供相關(guān)的信息，如姓名，職業(yè)等；然后知識(shí)獲取工具根據(jù)用戶所提供的信息，利用Web搜索引擎在Web文檔中進(jìn)行檢索，其檢索到的信息項(xiàng)以句子和段落的形式，傳送到本體庫中；在本體庫中，根據(jù)用戶提

12、供的信息在本體字典找到需要的元數(shù)據(jù)，并連同Web搜索引擎的結(jié)果一起發(fā)送到本體服務(wù)器上。　　2) 信息管理　　信息管理模塊主要由本體服務(wù)器和知識(shí)庫組成。本體服務(wù)器在接收到知識(shí)獲取模塊發(fā)送的信息項(xiàng)和本體元數(shù)據(jù)后，根據(jù)元數(shù)據(jù)對(duì)信息項(xiàng)進(jìn)行處理，通過對(duì)句子和段落進(jìn)行語義識(shí)別，包括語法分析、語義分析和本體分析，生成一個(gè)關(guān)于本體的

13、XML文檔，其中的各屬性名為本體的屬性，對(duì)應(yīng)的值是從語義識(shí)別中獲得數(shù)據(jù)。然后將生成的XML文檔保存到知識(shí)庫中，以備返回給用戶接口程序，為用戶提供知識(shí)。　　3) 知識(shí)生成　　知識(shí)生成模塊主要負(fù)責(zé)將知識(shí)庫中的知識(shí)，以自然語言的形式生成知識(shí)文檔，通過用戶接口，輸出給用戶界面。其中最重要的是知識(shí)文檔的生成，由于在知識(shí)庫中預(yù)先

14、存有知識(shí)文檔模板，因此只要將知識(shí)文檔中對(duì)應(yīng)的屬性值填充到模板的相應(yīng)位置即可。　　4 實(shí)例分析　　大多數(shù)Web信息以自然語言文檔形式存在，一般的信息獲取工具可以將文檔信息分成實(shí)體，但是它們不能識(shí)別實(shí)體間的相互關(guān)系。為此提出了一種基于本體的識(shí)別工具來識(shí)別實(shí)體中的信息碎片及它們之間的關(guān)系。本系統(tǒng)以一個(gè)臨床疾病的本體為例，

15、該本體除了包含該疾病的臨床表現(xiàn)、主要特征等外，還包含了這些文本信息所在的網(wǎng)絡(luò)路徑，以便重新組織它們時(shí)起指導(dǎo)作用。　　例如用戶從用戶接口發(fā)出請求查詢感冒的知識(shí)，知識(shí)生成工具迅速搜索知識(shí)庫，看能否找到有關(guān)感冒的知識(shí)。如果沒有找到，則通知知識(shí)獲取工具從Web中去搜索，然后從搜索結(jié)果中過濾出相關(guān)文檔。例如用百度搜索引擎搜索到100個(gè)包含感冒的網(wǎng)址，這些網(wǎng)址當(dāng)中可能會(huì)含關(guān)于感冒的治療、預(yù)防等，這些網(wǎng)址要采

16、用過濾技術(shù)將其過濾掉。一旦某個(gè)文檔被選中，它隨即被分成段、句。然后從語義的角度尋找相關(guān)知識(shí)，如果語法相關(guān)則進(jìn)行語義識(shí)別。　　4.1 語義識(shí)別　　例如某文檔內(nèi)容為：通常所說的“感冒”主要指的是西醫(yī)學(xué)的“上呼吸道感染”，……，臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。流行性感冒則是由感染流感

17、病毒引起，有以下特點(diǎn)：如發(fā)作多呈流行性，中毒癥狀常更重，甚至表現(xiàn)為寒戰(zhàn)高熱、周身酸痛，全身癥狀明顯等。本病四季均可發(fā)生，以冬、春兩季多見，所有人群均易感。　　為了從二進(jìn)制信息中獲取實(shí)體關(guān)系，需要用存儲(chǔ)在本體中的領(lǐng)域?qū)＜业闹R(shí)來決定實(shí)體間的關(guān)系。為此必須向本體服務(wù)器請求本體相關(guān)知識(shí)，而且在定義本體的同時(shí)，還必須有詞典的幫助。例如一個(gè)詞有同義詞、廣義詞、狹義詞等。<p&

18、gt;　　例如對(duì)“通常所說的‘感冒’主要指的是西醫(yī)學(xué)的‘上呼吸道感染’，……，臨床表現(xiàn)為鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適為主要特征。”這個(gè)句子的分析過程用謂詞邏輯描述如下：　　1)語法分析　　none(感冒)；none(上呼吸道感染)；verb(指)；　　su

19、bject(感冒)；predicate(指)；object(上呼吸道感染)。　　2)語義分析　　disease(感冒)；name(上呼吸道感染)。　　3)本體分析　　假設(shè)本體的模型為：疾病名稱，專

20、業(yè)名稱，臨床表現(xiàn)……正好與語義分析的結(jié)果匹配，于是原句被分成兩個(gè)句子，感冒的專業(yè)名稱是上呼吸道感染，感冒的臨床表現(xiàn)是鼻塞、流涕、噴嚏、咳嗽、頭痛、惡寒發(fā)熱、全身不適。　　4)知識(shí)存儲(chǔ)　　每次知識(shí)獲取產(chǎn)生一個(gè)XML文檔輸出，并將其存入知識(shí)庫中。整體分析過程如圖2所示。<b

21、>　　4.2 知識(shí)生成　　機(jī)器可以通過結(jié)構(gòu)化的本體來交換信息，但是人們需要一個(gè)較為直觀的接口。如記敘的方式，就是一個(gè)較為自然的方式。在此系統(tǒng)中，知識(shí)庫中已經(jīng)存儲(chǔ)了一些本體信息，它們之間沒有明確的順序，但是有一定的相互關(guān)系。所以只需要將他們按照一定的序列組織起來即可。　　5 結(jié)論</

22、p>　　基于本體的知識(shí)獲取模型，由于引入了本體庫，使Web文本中零散的知識(shí)更加容易被發(fā)現(xiàn)，因此該模型在獲取知識(shí)的全面性上有一定的優(yōu)勢；而且本體庫可以針對(duì)不同的領(lǐng)域設(shè)計(jì)，因此只要開發(fā)出對(duì)應(yīng)領(lǐng)域的本體庫，就可以很方便地實(shí)現(xiàn)向該領(lǐng)域的移植；同時(shí)利用XML語言來表示本體，可以更加簡便地處理知識(shí)庫的信息。當(dāng)前醫(yī)院知識(shí)庫系統(tǒng)中存在大量可用知識(shí)，它們都以分散的Web文本形式存在，因此將基于本體的知識(shí)獲取系統(tǒng)引入其中，必然可

23、以得到大量對(duì)診斷具有意義的知識(shí)。這將為廣大臨床醫(yī)師做出更好更準(zhǔn)確地診斷提供一定的依據(jù)。　　參考文獻(xiàn)　　[1] M.Vargas-Vera et al.，”Knowledge Extraction Using an Ontology-Based Annotation Tool，” Workshop on Knowled

24、ge Markup& Semantic Annotation， ACM Press， New York， 2001，5-12　　[2] 賴朝安孫延明齊德昱鄭時(shí)雄，《基于自然語言理解的專家系統(tǒng)研究》，計(jì)算機(jī)工程，2003.01，vol.29：20-34　　[3] 賴朝安孫延明鄭時(shí)雄，《面向Web文本的機(jī)械知識(shí)獲取方法研究》，機(jī)械設(shè)

25、計(jì)，2002.08：33-36　　[4] 鄧志鴻唐世渭等. 面向語義集成－本體在Web信息集成中的研究進(jìn)展. 計(jì)算機(jī)應(yīng)用.2002，22(1).-15-17 　　[5] Gruber T R， Towards Principles for the Design of Ontologies Used for Knowledge Sharing[J ]

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于本體的web文檔知識(shí)獲取的框架研究

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于本體的web文檔知識(shí)獲取的框架研究

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載