面向數(shù)字圖書館的多媒體處理技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩144頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)字圖書館作為21世紀(jì)圖書館現(xiàn)代化發(fā)展的方向,已成為信息時代的基礎(chǔ)設(shè)施之一。它向讀者和用戶提供比傳統(tǒng)圖書館更為廣泛、更為先進、更為方便的服務(wù),從根本上改變了人們獲取、傳播和使用信息的方式。隨著科學(xué)技術(shù)的不斷發(fā)展,數(shù)字圖書館中包含的信息內(nèi)容也越來越豐富?,F(xiàn)在,其館藏內(nèi)容不僅包括結(jié)構(gòu)化數(shù)據(jù),也包括各種非結(jié)構(gòu)化異構(gòu)信息,如文本、圖像、視頻、音頻、地圖、三維模型等。如何有效的處理與檢索這些多媒體數(shù)據(jù)已成為數(shù)字圖書館下一步提供精細化、智能化信息服

2、務(wù)面臨的巨大挑戰(zhàn)。
  論文在國家教育部211重點工程大學(xué)數(shù)字圖書館國際合作計劃(ChinaAcademicDigitalAssociativeLibrary,CADAL)項目中醫(yī)藥信息提取與服務(wù)系統(tǒng)、核高基國家重大專項“非結(jié)構(gòu)化數(shù)據(jù)管理系統(tǒng)”(Unstructureddatamanagementsystem,UDMS)的支持下,圍繞掃描書籍版面分析、基于內(nèi)容的圖像檢索、基于字幕/文本的視頻幀圖像/自然場景圖像語義理解的若干問題展

3、開研究,主要工作包括:
  1)提出一種圖文混合版面分析框架,用于分離掃描書頁的圖像和文本區(qū)域并提取文本結(jié)構(gòu)。
  對于較復(fù)雜的既含有文本又含有圖片的掃描書頁,商用OCR軟件的版面分析往往不能準(zhǔn)確地將文本區(qū)域與圖像區(qū)域分離開來。基于此,我們提出了基于投影方法和基于Boosting方法的兩種圖文分割算法。基于投影的方法用于版面較規(guī)整的Manhattan版式文檔分析,而基于Boosting的方法用于分析版面較復(fù)雜的非Manhat

4、tan版式文檔。分離文本區(qū)域和圖像區(qū)域后,對于文本區(qū)域分別利用啟發(fā)式規(guī)則和機器學(xué)習(xí)方法獲取文本大小和字體信息,由此確定部分結(jié)構(gòu)信息,用于后續(xù)的文本結(jié)構(gòu)化處理。
  2)提出一種綜合PHOG形狀和小波能量分布金字塔特征的圖像檢索方法。
  根據(jù)圖像能量在各高頻子帶和空域的分布特征,提出了小波能量分布金字塔特征。實驗表明,該特征在大多數(shù)情況下檢索效果優(yōu)于PHOG特征,同時該特征的時空效率也更高。另外,針對兩種特征單獨使用時存在的

5、描述能力不足的缺點,提出了綜合PHOG和小波能量分布金字塔特征的檢索算法。該算法根據(jù)圖像視覺特征動態(tài)調(diào)整兩種特征的權(quán)重,從而進一步提高圖像檢索效果。
  3)提出一種新的增強微結(jié)構(gòu)描述子以及一種綜合此描述子和上下文敏感相似度的圖像檢索方法。
  針對傳統(tǒng)單一特征對圖像刻畫能力不足,而簡單的多特征綜合又存在維數(shù)過高及權(quán)重難以確定的問題,提出了一種基于增強微結(jié)構(gòu)的描述子,它在綜合顏色、紋理和形狀特征的同時又保持適度的維數(shù)。首先提

6、出一種局部模式映射,用于刻畫圖像的局部紋理和形狀特征;再由該映射圖中的模式共生關(guān)系得到圖像的增強微結(jié)構(gòu)映射;以此微結(jié)構(gòu)映射作為過濾器對圖像的量化顏色映射圖進行過濾,最終得到圖像的量化表示。該描述子只有72維,且不存在加權(quán)組合的問題。
  提出的綜合圖像檢索方法利用上述描述子描述圖像,同時結(jié)合上下文信息,在基于最短路徑結(jié)點的擴展參考集上利用圖傳播理論傳播相似度到目標(biāo)圖像上,再使用新的相似度對圖像集進行re-rank。相比于其它基于微

7、結(jié)構(gòu)的圖像檢索方法,本文方法的檢索效果有了進一步的提高。
  4)提出一種基于邊緣信息和分布熵的級聯(lián)過濾視頻字幕檢測算法及一種基于邊緣密度和局部閾值的文本提取方法。
  針對視頻幀文本區(qū)域?qū)Ρ榷茸兓?、噪聲信號強的特點,提出綜合邊緣像素分布熵和SVM分類器的級聯(lián)過濾的方法去除非文本區(qū)域。級聯(lián)過濾的優(yōu)點主要體現(xiàn)在兩方面,一方面提高了識別準(zhǔn)確率,另一方面由于在第一步快速過濾掉大多數(shù)噪聲區(qū)域,從而可以提高檢測速度。SVM分類器采用

8、提出的前景像素分布熵、skeleton/最大邊比、邊緣密度等特征作為輸入向量。
  提出的文本抽取方法使用邊緣密度對經(jīng)傳統(tǒng)文本區(qū)域二值化去噪方法處理后的二值圖進行二次去噪,極大的提高了文本提取精度。
  5)提出一種基于相似度測度和稀疏分類器的文本檢測方法,用于自然圖像任意方向文本的檢測。
  針對多數(shù)自然場景文本檢測方法只能檢測近似水平文本行的局限性,提出了一種任意方向文本檢測方法。首先檢測基于canny邊緣約束的最

9、大穩(wěn)定極值區(qū)域(MaximalStableExtremalRegions)作為候選文本區(qū)域;為了判斷兩區(qū)域能否位于同一文本行,提出綜合區(qū)域大小、絕對距離、相對距離、上下文信息和顏色信息的相似度測度,在此相似度的基礎(chǔ)上提出兩階段的候選文本線檢測方法,該方法由種子點選取和文本線擴展兩步迭代地搜索所有候選文本線;最終為了過濾偽文本線,提出一種基于骨架特征的Fisher稀疏分類器。所提出的文本檢測方法能準(zhǔn)確檢測自然圖像中任意方向文本行,并具有較

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論