視頻文本提取技術(shù)研究及在虛擬卡拉OK中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩63頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、視頻中的文字包含了豐富的語義信息,文字提取對于基于視頻內(nèi)容的分析、檢索等研究領(lǐng)域具有重要作用。如果能自動地將視頻文字檢測、分割、識別出來,則對視頻高層語義的自動理解、檢索是非常有價值的。視頻文本不同于普通掃描文檔可以直接使用OCR識別提取,視頻文本在大小、形狀、顏色等屬性上存在很大的差異,多數(shù)情況下文字還處于復(fù)雜背景之中,這些都成為文字提取過程很大中的阻礙。如何利用視頻文本的特性,在已有研究的基礎(chǔ)上更好地將文本提取出來,成為了本文研究的

2、重點(diǎn)。
   對于視頻中可能存在幾種顏色字幕的情況,本文提出了一種綜合利用文字顏色、邊緣、幾何特征的方法。首先采用梯度法檢測連續(xù)多幀文字位置,然后將位置映射到原始視頻幀中,這樣可以獲取大量準(zhǔn)確可靠的文字顏色信息,根據(jù)這些顏色信息,采用GMM(GaussianMixture Model)對顏色建模,在后續(xù)幀中利用模型提取文字顏色層,同時更新模型。根據(jù)視頻具有的時間冗余性,提出了“與”掩碼圖的方法判斷有無新的文本對象產(chǎn)生。該方法綜合

3、利用了文字的多種特性,在視頻中背景與文字顏色差距較大時能有效提取文字。
   針對視頻中的靜止文字時間和空間上的冗余特性,本文提出了一種檢測-跟蹤的方法。首先對視頻幀進(jìn)行邊緣檢測獲取文字區(qū)域,然后以文字區(qū)域的邊緣位圖為匹配特征跟蹤文字,精化檢測結(jié)果,實(shí)現(xiàn)了對文字對象快速有效的定位。同時文字跟蹤也避免了對每幀進(jìn)行分割、識別,減少了計(jì)算量。在分割階段,針對視頻文本的分辨率較低的情況,先是采用了多幀融合方法增強(qiáng)文字區(qū)域然后進(jìn)一步對文字

4、進(jìn)行插值放大。
   本文設(shè)計(jì)了一個虛擬卡拉OK系統(tǒng),將卡拉OK視頻文字提取與人物檢測聯(lián)系起來。在卡拉OK視頻文本定位中,采用了小波變換與形態(tài)學(xué)相結(jié)合的方法。對視頻幀進(jìn)行Harr小波分解后開、閉操作分解子圖,選擇了在最大程度上去除了背景噪聲的斜向高頻帶映射到原始視頻中定位字幕區(qū)域。該方法不敏感于顏色,能更好的定位卡拉OK文本。在人物分割上,選用了單高斯背景建模的背景差法。最后將提取的文本和分割出的人物與任意選取的場景中進(jìn)行圖像融

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論