基于條件概率圖模型的Deep Web數據抽取與集成研究.pdf_第1頁
已閱讀1頁,還剩122頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目前,大量的結構化數據蘊藏在Deep web中,但是由于Web網頁的半結構性、Web超鏈接的自由無序性以及Deep Web數據的海量性、異構性、多樣性、動態(tài)性等特點,使得Deep Web數據抽取與集成成為當前亟待解決的研究課題。概率圖學習模型是機器學習領域當前異?;钴S的研究熱點之一。它在數據挖掘、信息抽取、信息檢索等領域得到了廣泛而成功的應用。 本文將條件隨機場,一種序列條件概率無向圖模型,引入到Deep Web數據抽取和集成的

2、研究中,對其中的查詢接口發(fā)現、分類、集成以及查詢結果數據的抽取和重復記錄檢測等多個具有挑戰(zhàn)性的實際問題進行了系統(tǒng)和深入地研究。針對不同問題提出了改進的條件隨機場模型、新的算法或新的實現策略,主要工作概括如下: (1)針對Deep Web查詢接口自動搜索和發(fā)現問題,提出了基于條件隨機場的網頁鏈接路徑學習模型,給出了使用增強學習技術對超鏈接進行評分的算法。實驗結果表明,搜索查詢表單的性能明顯優(yōu)于其它袁單爬蟲。 (2)使用條件

3、最大熵模型處理Deep Web查詢接口識別和領域分類問題。提出了一種僅利用表單結構特征來識別在線數據庫查詢接口的通用方法。此外,利用最大熵分類器的優(yōu)點,融合查詢表單的結構、內容等多種特征來實現查詢表單的領域分類。實驗結果表明。該方法分類準確率高。 (3)利用有序樹模型來表示抽取的查詢接口中查詢項、字段和屬性問的層次關系。提出了一種層次序列條件隨機場模型,通過對查詢表單中的查詢元素進行聯合標注分類,實現異構查詢接口模式匹配。實驗結

4、果表明,該方法具有較高的匹配準確率和跨領域通用特性。 (4)提出了一種基于標記樹的網頁區(qū)域分割方法,并且結合網頁聚類和跨網頁數據區(qū)域匹配技術來識別網頁中的動態(tài)數據區(qū)域。針對多源Web記錄語義標注和集成問題,提出一種混合跳鏈條件隨機場模型。該模型通過將最大熵和線性鏈條件隨機場混合,能夠利用相關數據庫中的記錄作為訓練樣本識別抽取數據的語義標注,從而減少了對手工標注樣本的依賴:此外增加對跳邊的支持,使得模型能夠處理狀態(tài)變量問的長距離依

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論