版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、視頻是一種綜合圖像、文本、聲音多種模態(tài)信息的媒體數(shù)據(jù),具有數(shù)據(jù)量大、信息豐富的特點(diǎn)。隨著計(jì)算技術(shù)、多媒體處理技術(shù)、網(wǎng)絡(luò)技術(shù)的發(fā)展,視頻數(shù)據(jù)急劇膨脹,傳統(tǒng)的基于人工標(biāo)注的視頻內(nèi)容分析技術(shù)已經(jīng)無(wú)法滿足海量視頻數(shù)據(jù)的管理和檢索需求,人們希望計(jì)算機(jī)能實(shí)現(xiàn)視頻內(nèi)容的自動(dòng)提取,隨之基于內(nèi)容的視頻檢索技術(shù)應(yīng)運(yùn)而生。然而視頻文件具有非結(jié)構(gòu)化的數(shù)據(jù)組織方式,是以像素的形式存儲(chǔ)目標(biāo)對(duì)象的顏色、亮度和位置等低層信息,缺乏對(duì)高層語(yǔ)義信息的直觀描述,而且數(shù)據(jù)量巨
2、大、表現(xiàn)內(nèi)容多樣,因此關(guān)于如何實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)從視頻數(shù)據(jù)中提取高層語(yǔ)義內(nèi)容的研究成為了視頻數(shù)據(jù)的自動(dòng)化、智能化管理和檢索領(lǐng)域的熱點(diǎn)。視頻中的文本不僅與視頻內(nèi)容高度相關(guān),為視頻內(nèi)容的自動(dòng)理解提供了非常重要的線索,而且相比于其它信息更易于提取,因此實(shí)現(xiàn)視頻中文本信息的自動(dòng)提取識(shí)別對(duì)于基于內(nèi)容的視頻數(shù)據(jù)檢索研究具有重要的意義。
實(shí)現(xiàn)視頻中文本信息的自動(dòng)提取并非易事,文本通常嵌在復(fù)雜的背景當(dāng)中,即使在同一視頻中,文本的語(yǔ)言、字體、顏
3、色也表現(xiàn)多樣化。本文針對(duì)視頻中文本信息提取的關(guān)鍵技術(shù)進(jìn)行了深入研究,包括視頻圖像中文本區(qū)域的檢測(cè)、定位,連續(xù)多幀出現(xiàn)的同一文本區(qū)域的跟蹤,以及文本字符的分割。
針對(duì)視頻中文本的檢測(cè)和定位問(wèn)題,提出了一種融合小波特征和局部二值模式特征由粗檢測(cè)到精確定位實(shí)現(xiàn)的視頻文本檢測(cè)定位的方法。首先結(jié)合邊緣和角點(diǎn)在視頻圖像中完成潛在文本區(qū)域的檢測(cè),然后融合小波特征和局部二值模式特征描述紋理并運(yùn)用基于流行學(xué)習(xí)的等距離映射法(Isometri
4、c mapping,ISOMAP)進(jìn)行特征降維,最后采用支持向量機(jī)(Support Vector Machine,SVM)方法實(shí)現(xiàn)文本區(qū)域的精確分類并基于梯度密度圖實(shí)現(xiàn)單個(gè)文本行的精確定位。算法通過(guò)多特征、多步驟實(shí)現(xiàn)視頻中文本區(qū)域的檢測(cè)和定位。
為了提高視頻中文本區(qū)域檢測(cè)定位的效率,提出一種基于模版匹配的視頻文本區(qū)域跟蹤算法。文本區(qū)域圖像經(jīng)小波重構(gòu)所得的邊緣圖像作為匹配模版,利用基于相關(guān)性的歸一化的互相關(guān)(Normaliz
5、ed Cross-correlation,NCC)測(cè)度作為模版匹配度量標(biāo)準(zhǔn)實(shí)現(xiàn)視頻文本的跟蹤,同時(shí)應(yīng)用金字塔匹配策略進(jìn)行分層次匹配。有效地利用視頻中文本的時(shí)間冗余特性,實(shí)現(xiàn)快速高效的文本區(qū)域跟蹤,可以避免在每一幀中都執(zhí)行文本區(qū)域檢測(cè)定位,加快整個(gè)視頻文本信息提取的速度。
視頻中的文本通常處于復(fù)雜背景當(dāng)中,本文提出了一種基于多幀融合的視頻文本分割算法。首先選擇同一文本圖像序列中背景簡(jiǎn)單的圖像進(jìn)行融合,極性判斷后得到適合OCR
6、軟件的反對(duì)色文本圖像。針對(duì)字符筆畫結(jié)構(gòu)多樣性的特點(diǎn),綜合考慮字符的灰度特性和邊緣特性,對(duì)傳統(tǒng)的二維最大條件熵進(jìn)行改進(jìn),將基于非降采樣Contourlet變換(Non-subsampled Contourlet Transform,NSCT)的最大二維條件熵作為適應(yīng)度評(píng)價(jià)函數(shù),利用細(xì)菌覓食優(yōu)化(Bacterial Foraging Optimization,BFO)算法高效的全局尋優(yōu)能力計(jì)算圖像分割的最佳閾值。算法有效地減少了復(fù)雜背景對(duì)文
7、本分割的影響,提高了分割閾值的精確性和視頻文本的識(shí)別率。
另外,本文還提出了一種基于脈沖耦合神經(jīng)網(wǎng)絡(luò)(Pulse Coupled Neural Network,PCNN)的視頻文本分割算法。充分研究了PCNN在圖像分割應(yīng)用中的優(yōu)良特性,針對(duì)視頻文本分割具體應(yīng)用,對(duì)簡(jiǎn)化的PCNN網(wǎng)絡(luò)模型的參數(shù)和輸出標(biāo)準(zhǔn)進(jìn)行改進(jìn),在文本分割過(guò)程中,基于PCNN的方法不同于傳統(tǒng)的閾值分割方法,能夠有效地縮小灰度值相近的相鄰像素的差別。本文的視頻
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于交通視頻的信息提取技術(shù)研究.pdf
- 中文病歷文本的時(shí)間信息提取研究.pdf
- 自然場(chǎng)景文本信息提取關(guān)鍵技術(shù)研究.pdf
- 自然場(chǎng)景中文本信息提取方法.pdf
- 基于監(jiān)控視頻的交通信息提取技術(shù)研究.pdf
- 視頻文本提取技術(shù)研究.pdf
- 基于視頻的車輛信息提取與檢索技術(shù)研究.pdf
- 多格式文檔文本信息提取及分析技術(shù)研究與實(shí)現(xiàn).pdf
- 基于視頻圖像信息提取的疲勞駕駛檢測(cè)技術(shù)研究.pdf
- SRAM時(shí)序信息提取技術(shù)研究.pdf
- 基于視頻圖像的交通信息提取關(guān)鍵技術(shù)研究.pdf
- 10793.面向web文本的滑坡災(zāi)害信息提取技術(shù)研究
- Web視頻信息提取研究.pdf
- 視頻語(yǔ)義信息提取的研究.pdf
- 視頻圖像語(yǔ)義信息提取研究.pdf
- 基于視頻圖像信息提取的駕駛員疲勞檢測(cè)技術(shù)研究.pdf
- 網(wǎng)絡(luò)Flash資源文本信息提取研究.pdf
- Web信息提取技術(shù)研究與應(yīng)用.pdf
- 彩色圖像的文本信息提取研究.pdf
- 基于XML的文檔信息提取技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論