圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)【文獻(xiàn)綜述】

上傳人：奔*** IP屬地：河北更新時間：2024-03-03 格式：doc 頁數(shù)：6 大小：26.50KB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩5頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、　　畢業(yè)設(shè)計文獻(xiàn)綜述　　計算機(jī)科學(xué)與技術(shù)　　圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)　　一、前言部分　　圖片文字的檢測與識別技術(shù)在計算機(jī)網(wǎng)絡(luò)日益發(fā)展的今

2、天有著大量的應(yīng)用，特別是對于基于內(nèi)容的圖片或視頻過濾、檢索等應(yīng)用來講，有重要意義，它可以幫助我們了解圖片內(nèi)容或者視頻內(nèi)容[1]。　　圖片中的文字可分為兩大類：一類是圖片中場景本身包含的文字，稱為場景文字；另一類是圖片后期制作中加入的文字，稱為人工文字。一般人工文字的特點：文字位于前端，且不會被遮擋；文字一半是單色的；文字大小在一幅圖片中固定，并且寬度和高度答題相同，從滿足人眼視覺感受的角度來說，

3、圖片中文字的尺寸不會過大也不會過小；文字的分布比較集中；文字的排列一般為水平方向或是垂直方向；多行文字之間，以及單行內(nèi)各個字之間存在不同于文字區(qū)域的空隙等[2]。而場景文字的特點卻與之正好相反：文字和其他自然景物混雜在一起，背景復(fù)雜；文字的顏色多種多樣；文字的字體和大小復(fù)雜多變；光照的變化等[3]。　　在分析圖像算法之前，我們先了解一下我們所要分析的BMP位圖的基本知識。BMP是英文Bitmap

4、（位圖）的簡寫，它是Windows操作系統(tǒng)中的標(biāo)準(zhǔn)圖像文件格式，能夠被多種Windows應(yīng)用程序所支持。位圖文件可看成由4個部分組成：位圖文件頭(bitmap-file header)、位圖信息頭(bitmap-information header)、彩色表(color table)和定義位圖的字節(jié)陣列。　　圖像邊緣的定義。圖像的大部分信息都存在于圖像的邊緣中,主要表現(xiàn)為圖像局部特征的不連續(xù)性,

5、即圖像中灰度變化比較劇烈的地方。因此,我們把邊緣定義為圖像中灰度發(fā)生急劇變化的區(qū)域邊界。根據(jù)灰度變化的劇烈程度,通常將邊緣劃分為階躍狀和屋頂狀兩種類型。階躍邊緣兩邊的灰度值變化明顯,而屋頂邊緣位于灰度值增加與減少的交界處。那么,對階躍邊緣和屋頂邊緣分別求取一階、二階導(dǎo)數(shù)就可以表示邊緣點的變化。因此,對于一個階躍邊緣點,其灰度變化曲線的一階導(dǎo)數(shù)在該點達(dá)到極大值,二階導(dǎo)數(shù)在該點與零交叉;對于一個屋頂邊緣點,其灰度變化曲線的一階導(dǎo)數(shù)在該點與零

6、交叉;二階導(dǎo)數(shù)在該點達(dá)到極大值[4]。　　圖像二值化對于提取文本信息非常重要。二值化的結(jié)果好壞,直接影響著最終的處理結(jié)果。對于文本標(biāo)簽的提取,如果能夠?qū)D像文字區(qū)域合適二值化,就可以應(yīng)用基于區(qū)域的灰度聚類方法實現(xiàn)文字區(qū)域的檢測定位[1]。　　通過參考了2002－2009年間發(fā)表于《計算機(jī)應(yīng)用研究》、《計算機(jī)應(yīng)用》、《光學(xué)技術(shù)》、《計算機(jī)科學(xué)》、《計算機(jī)工

7、程與設(shè)計》、《計算機(jī)工程與應(yīng)用》等學(xué)術(shù)雜志中的研究論文，借鑒了天津理工大學(xué)學(xué)報、通信學(xué)報、延邊大學(xué)學(xué)報(自然科學(xué)版)、電子與信息學(xué)報等大學(xué)學(xué)報文章，通過分析和總結(jié)這些文章，對圖片文字提取的算法有了深刻的理解。　　二、主題部分　　(一)圖片提取技術(shù)的歷史背景　　隨著計算機(jī)科學(xué)的

8、飛速發(fā)展，以圖像為主的多媒體信息迅速成為重要的信息傳遞媒介。從圖像中提取文字屬于信息智能化處理的前沿課題，是當(dāng)前人工智能與模式識別領(lǐng)域中的研究熱點。文字具有高級語義特征，因此圖像中的文本是圖像內(nèi)容的一個重要來源，如果這些文本能自動地被檢測、分割、識別出來，則對圖像語義的自動理解、索引和檢索是非常有價值的。所以，研究圖片文字提取就具有了重要的實際意義。　　靜態(tài)圖片中文本提取方面的文獻(xiàn)不是很豐富,之

9、前的研究更多關(guān)注文檔圖像的分析和處理. 而對于復(fù)雜圖像中的文本或者嵌入圖像的文本標(biāo)簽進(jìn)行提取和分析研究剛剛引起人們的興趣. 目前提出的紋理特征主要包括有原始像素抽樣[5]、局部方差[6]、梯度分布[7]、強(qiáng)邊緣的密度及方向分布等空域統(tǒng)計特征，以及小波、FFT、Gabor變換系數(shù)的統(tǒng)計特征，如矩、直方圖、共生矩陣等。通過梯度特征進(jìn)行邊緣檢測,可以達(dá)到快速的定位效果,然而同時約束參數(shù)設(shè)置非常復(fù)雜,并且檢測錯誤率也很高;利用紋理特征決定像素塊

10、是否屬于文字,可以在復(fù)雜背景的條件下檢測文字信息, 但是計算非常耗時, 而且文字精確定位的穩(wěn)定性也不夠理想;對于視頻文字,可以利用相鄰幀的相關(guān)性大體確定字幕位置,然而這種方法不能用來處理靜態(tài)圖像. 另外,基于支持向量機(jī)(SVM) 分類器的多尺度定位算法也得到了廣泛的研究,雖然其檢測效果較好,但算法復(fù)雜,需事先有樣本進(jìn)行學(xué)習(xí)分類器的訓(xùn)練[8] .　　(二)發(fā)展現(xiàn)狀——圖片文字提取算法的研究<

11、/p>　　1、人工文字提取的算法　　(1)為了能夠清楚地辨識出每個字的結(jié)構(gòu),文字在顏色上與其背景總是存在一定差異。因此,文字提取的實質(zhì)就是描述文字圖層與背景圖層之間的差異,并以這種差異對像素進(jìn)行聚類。對彩色圖像在HSV顏色空間進(jìn)行色彩聚類形成顏色圖層,再通過投影算法將顏色圖層進(jìn)一步細(xì)分為子圖層進(jìn)行圖層分析,最后通過子圖層合并產(chǎn)生備選文字圖層，能夠良好地從各種復(fù)雜顏色背

12、景中提取垂直或平行于圖像邊緣的單色文字。具體方法：顏色聚類；子圖層分割；圖層分析；圖層合并[9]。　　(2) 視頻文字大小自適應(yīng)提取算法基于離散傅里葉變換( discrete Fourier transform, DFT)特征、多分辨率處理及支持向量機(jī)分類技術(shù)。算法在不同分辨率下結(jié)合梯度信息、文字邊界定位技術(shù)提取出文字候選區(qū)域,然后用支持向量機(jī)對于候選圖像塊DFT特征作進(jìn)一步分類。具體方法：提取

13、候選區(qū)域；分割候選區(qū)域塊及文字邊界定位；多分辨率融合處理；驗證候選塊[10]。　　(3) 彩色圖像下的文本提取方法，該方法對彩色圖像在R、G、B 三個顏色層分別進(jìn)行亮度分級，以避開傳統(tǒng)顏色聚類方法的聚類數(shù)目選擇問題，降低圖像復(fù)雜度；考慮到文字筆畫的顯著方向性特征，并且通常具有穩(wěn)定的顏色，利用方向梯度算法進(jìn)行文本粗定位；然后進(jìn)一步利用多類SVM分類器實現(xiàn)文本區(qū)域精確判別。具體方法：亮度分級；筆畫檢

14、測算法；SVM 精確判別[11]。　　(4) 自動提取圖像中的文本對圖像視頻檢索具有重要意義。提出了一種基于顏色和筆畫特征, 應(yīng)用無監(jiān)督聚類方法進(jìn)行復(fù)雜背景下的文本分割算法。首先在對文本進(jìn)行圖像增強(qiáng)的基礎(chǔ)上, 應(yīng)用顏色約減和直方圖確定文本顏色。然后提取顏色和筆畫特征, 應(yīng)用k􀀁均值聚類算法分割出文本和背景像素。最后應(yīng)用后處理優(yōu)化分割結(jié)果。具體方法：圖像增強(qiáng)預(yù)處理；文本顏色估計；

15、特征提??；無監(jiān)督聚類；基于連通成分的后處理[12]。　　(5) 為解決漸變色給文字提取聚類算法帶來的問題,研究與實現(xiàn)了基于二值化聚類的圖像文字提取算法。圖像通過一系列預(yù)處理后,得到了利于聚類的二值圖像,根據(jù)背景圖像區(qū)域特征,對圖像進(jìn)行聚類分塊,再利用文字圖像區(qū)域特征,聚類識別出文字區(qū)域。具體方法：預(yù)處理，包括灰度化、二值化、長線剔除；文本聚類，包括背景查找、文字分割[13]。

16、　　(6) 一種利用筆畫線條的統(tǒng)計特征基于支持向量機(jī)進(jìn)行圖像中疊加文字檢測的方法。該算法首先通過一種改進(jìn)的線段檢測算子提取出筆畫線段；然后對筆畫線條通過區(qū)域合并定位出候選文字塊；接著對候選文字塊提取一個反映文字筆畫線條空間分布特點的32 維特征，并通過支持向量機(jī)建立的模型對候選文字塊進(jìn)行確認(rèn)分類。具體方法：基于筆畫線條的特征抽??；基于SVM的候選文字塊分類確認(rèn)；基于筆畫線條粗定位候選文字塊[14]。</p&g

17、t;　　2、場景文字提取算法　　(1) 基于邊緣檢測的文本提取方法對自然場景文本的提取進(jìn)行研究。通過改進(jìn)彩色圖像邊緣檢測和二值邊緣圖像的形態(tài)學(xué)文本定位的算法，從而實現(xiàn)場景文本的提取。先將原始圖片進(jìn)行金字塔分解，然后進(jìn)行圖片預(yù)處理，對圖像進(jìn)行邊緣提取和二值化，再形態(tài)學(xué)文本定位，最后文本區(qū)域字符提取[3]。　　(2) 自然環(huán)境下文本圖像

18、背景復(fù)雜，常規(guī)閾值分割方法往往無法有效分割；基于譜聚類的圖像分割方法利用圖分割理論可以有效地實現(xiàn)圖像分割，但過高的計算復(fù)雜度和空間復(fù)雜度使其在處理大圖像時不能滿足實際需求?；诨叶戎狈綀D的譜聚類分割方法來實現(xiàn)字符提取，利用像素灰度計算相似性，在灰度直方圖上構(gòu)造相似矩陣，并通過實驗確定直方圖的理想等級數(shù)及相關(guān)參數(shù)。通過將像素級上的劃分轉(zhuǎn)化為灰度等級上的劃分，從而大大減少特征值求解時的計算量和開銷，提高算法的實用性及有效性[15]。<

19、/p>　　3、圖像邊緣檢測算法　　基于灰度直方圖的邊緣檢測，基于梯度的邊緣檢測包括Roberts邊緣算子、Sobel邊緣檢測算子、Prewitt 邊緣算子、Laplacan邊緣算子，Canny邊緣檢測算子，模糊推理的邊緣檢測，Mallat小波邊緣檢測算子等[4]。　　三、總結(jié)部分</

20、p>　　上述不同算法實際上反映了學(xué)術(shù)界對圖片文字提取技術(shù)研究方向的不同。同時，這些算法之間也是相互聯(lián)系的，其所達(dá)成的共識是：文字具有高級語義特征，對圖片內(nèi)容的理解、索引、檢索等具有重要作用，因此，研究圖片文字提取具有重要的實際意義。由于不同的方法并不是孤立的, 它們各自具有其局限性和應(yīng)用范圍，因此在實際應(yīng)用中, 應(yīng)該結(jié)合多種方法，以實現(xiàn)有效地提取文字的目的。為此, 在以后的研究中，我們不但需要研究自適應(yīng)

21、的文字提取算法,也應(yīng)研究多種方法的融合機(jī)制, 從而實現(xiàn)對包括漸變、場景文字等復(fù)雜情況在內(nèi)的圖像進(jìn)行文字檢測與提取。此外，還可將提取出的文字從原圖中除去，同時修復(fù)被文字所遮擋的背景區(qū)域，然后添加上多語種的文字，這對于不同語種間的圖像交流和圖像的再次使用是很有意義的。　　四、參考文獻(xiàn)　　[1] 王健,王晨. 基于靜

22、態(tài)圖片的文本提取技術(shù)的研究[J].延邊大學(xué)學(xué)報(自然科學(xué)版),2007,33(2):124-128.　　[2] 田其沖,董恒強(qiáng),何新求.靜態(tài)圖像提取文字技術(shù)[J].電腦編程技巧與維護(hù),2008,6(13):96-97,104.　　[3] 何興恒,胡德婷.有效的場景文本提取算法[J].計算機(jī)工程與設(shè)計,2008,29(10):2598-2599,2603.

23、　　[4] 段瑞玲,李慶祥,李玉和. 圖像邊緣檢測方法研究綜述[J].光學(xué)技術(shù),2005,31(3):415-419.　　[5] KIM K I,JUNG K ,KIM J H.Texture-based approach for text detection in images using support vector machines and con

24、tinuously adaptive mean shift algorithm[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(12): 1631-1639.　　[6] ZHONG Y,KARU K,JAIN A K.Locating text in complex color images[J]

25、.Pattern Recognition,1995,28(10):1523-1535.　　[7] LIENHART R, WERNICKE A. Localizing and segmenting text in images and videos[J]. IEEE Transactions on Circuits and Systems for Video Technology,2002,12

26、(4): 256-268.　　[8] 莊越挺,劉駿偉,吳飛.基于支持向量機(jī)的視頻字幕自動定位與提取[J].計算機(jī)輔助設(shè)計與圖形學(xué)學(xué)報,2002,14(8):750-753.　　[9] 劉世與,曹作良.復(fù)雜色彩單幀圖像中的文字提取[J].天津理工大學(xué)學(xué)報,2007,23(6):58-61.　　[10] 薛衛(wèi),都思丹

27、,吳書凱.視頻文字大小自適應(yīng)提取算法[J].計算機(jī)應(yīng)用研究，2009,26(3):1146-1147,1159.　　[11] 劉瓊,周慧燦,王耀南.結(jié)合亮度分級和筆畫檢測的彩色圖像文本提取[J]. 計算機(jī)工程與應(yīng)用,2008,44(18):157-159,162.　　[12] 黃百鋼,李俊山,胡雙演.基于顏色和筆畫特征的文本分割算法[J].計算機(jī)科學(xué),2

28、009,36(7):292-294.　　[13]戴維,張申生.基于二值化聚類的圖像文字提取算法[J].計算機(jī)應(yīng)用,2009,29(1):57-59,77.　　[14] 王偉強(qiáng),付立波,高文,黃慶明,蔣樹強(qiáng).基于筆畫特征的疊加文字檢測方法[J].通信學(xué)報,2007,28(12):116-120.　　[15] 吳銳,

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)【文獻(xiàn)綜述】

文檔簡介

溫馨提示

最新文檔

評論

圖片文字提取系統(tǒng)的設(shè)計與實現(xiàn)【文獻(xiàn)綜述】

文檔簡介

溫馨提示

最新文檔

評論

免費下載