面向關(guān)系數(shù)據(jù)庫的模式匹配方法研究.pdf_第1頁
已閱讀1頁,還剩125頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著信息技術(shù)的高速發(fā)展,不同企業(yè)在實際應(yīng)用中都產(chǎn)生了大量的數(shù)據(jù),這些數(shù)據(jù)通常以關(guān)系數(shù)據(jù)庫形式存儲,并維護于各自的信息系統(tǒng)當(dāng)中。隨著信息共享需求的日益加強,企業(yè)內(nèi)部或企業(yè)之間通常需要對已有數(shù)據(jù)進行交換,進而挖掘出有利于商業(yè)智能的信息。然而,在數(shù)據(jù)集成過程中,人們發(fā)現(xiàn)即使對于同一應(yīng)用領(lǐng)域,其數(shù)據(jù)庫模式的設(shè)計也往往存在較大差異,這種異構(gòu)性嚴(yán)重阻礙了數(shù)據(jù)間的互操作性。目前,該問題的主要解決方式是由系統(tǒng)設(shè)計者或DBA手動建立兩個模式元素間的對應(yīng)關(guān)

2、系,并在此基礎(chǔ)上實現(xiàn)異構(gòu)數(shù)據(jù)間的集成,然而該操作卻需要花費大量的人力和物力,且容易出現(xiàn)較多錯誤。此外,隨著數(shù)據(jù)庫應(yīng)用領(lǐng)域的不斷擴展,異構(gòu)數(shù)據(jù)源的數(shù)量呈指數(shù)級增長,數(shù)據(jù)庫中可能包含數(shù)百張表、上千個屬性,顯然單純的手工匹配方式已不能滿足應(yīng)用的需求。
  近年來,一些半自動/自動化的模式匹配方法被提出,這些方法利用模式信息、數(shù)據(jù)實例信息和元素間的結(jié)構(gòu)信息對匹配關(guān)系進行推理,進而實現(xiàn)元素對應(yīng)關(guān)系的自動發(fā)現(xiàn)。相對來說,基于模式信息的匹配方法

3、相對簡單,信息獲取也較容易,因此早期的模式匹配方法主要集中于該類信息的使用,但由于其信息量有限,故在應(yīng)用上具有一定的局限性。隨后人們開始致力于數(shù)據(jù)實例信息或結(jié)構(gòu)信息的使用,并希望從中挖掘出更有價值的信息,進而增強匹配關(guān)系的發(fā)現(xiàn)。總體來看,基于上述信息的模式匹配方法雖然在某種程度上緩解了異構(gòu)數(shù)據(jù)集成所帶給人們的壓力,但仍存在些許不足:首先,匹配操作過于追求自動化,其內(nèi)在固有的不確定性導(dǎo)致匹配結(jié)果需要花費大量人力去驗證;其次,為了便于記憶,

4、越來越多的企業(yè)將模式或模式所含元素以中文方式命名,致使已有傳統(tǒng)的模式匹配方法適用性不高,進一步增加了匹配的難度;再次,以往匹配方法較多關(guān)注于模式信息的運用,而較少考慮數(shù)據(jù)實例或數(shù)據(jù)實例所反映出的其他信息,該類信息對于匹配操作來說同樣具有參考價值;最后,不同匹配方法的適用性有所不同,在缺少專業(yè)知識的情況下,用戶無法做出合理判斷,導(dǎo)致匹配方法選擇不當(dāng)使得匹配結(jié)果可用性不高。
  為此,結(jié)合已有的模式匹配算法,本文針對關(guān)系數(shù)據(jù)庫中的模式

5、匹配方法開展了以下幾個方面的研究工作:
  1)研究匹配過程中專家知識的有效引入。在執(zhí)行整體匹配之前,首先基于元素名稱確定待匹配模式元素間的初步對應(yīng)關(guān)系,并選取少量關(guān)系交由用戶驗證,以此推理出當(dāng)前任務(wù)下已知的匹配、不匹配關(guān)系和不同匹配器的適用性;然后基于上述分析所收集到的先驗知識對匹配器進行選取,并指導(dǎo)單獨匹配器所得結(jié)果的合并、調(diào)整及優(yōu)化;最后對優(yōu)化結(jié)果的選擇性進行評估,從而為當(dāng)前匹配任務(wù)推薦最為合理的候選匹配生成方案。
 

6、 2)研究中文環(huán)境下的模式?jīng)_突問題。對缺少數(shù)據(jù)實例信息或僅能獲取元素中文描述信息的待匹配模式,首先提取數(shù)據(jù)字典中有關(guān)元素的中文描述信息,利用中文信息處理技術(shù)將其轉(zhuǎn)化為詞條向量的形式,并采用聚類分析技術(shù)將特征相似的關(guān)系劃分到相同聚簇中,進而縮小匹配執(zhí)行范圍,提高整體匹配效率;對于同一聚簇中的不同關(guān)系,借助輔助詞典中詞語的組織方式計算元素間的中文語義相似度,并采用多種選擇策略相結(jié)合的方法對匹配結(jié)果進行過濾。
  3)研究面向數(shù)據(jù)的模式

7、匹配解決方案。在模式信息不可用或不充足的情況下,該方法利用相似數(shù)據(jù)檢測算法標(biāo)識出待匹配模式數(shù)據(jù)實例間的相似元組,并以此生成元素間的初始相似度;此外,對于關(guān)系中的每個元素,該方法利用數(shù)據(jù)實例所蘊含的元素內(nèi)在聯(lián)系提取與每個元素相關(guān)聯(lián)的強關(guān)聯(lián)關(guān)系元素集合,并由集合中元素的相似性反映出待匹配元素的關(guān)聯(lián)相似度;最后由數(shù)據(jù)實例相似度及關(guān)聯(lián)相似度綜合決定元素間的整體相似度。
  4)研究自適應(yīng)模式匹配流程的構(gòu)建方法。對于一個給定的模式匹配任務(wù),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論