2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩90頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、文本是計算機視覺的許多應用中的一項重要特征。文本分析是數(shù)字圖像處理和模式識別中的一個子領域,其主要目的是將文本圖像轉(zhuǎn)化為符號形式,從而利于修改、存儲、檢索、再利用以及傳輸。文本分析,包括字符識別在內(nèi),在模式識別領域的發(fā)展早期就已經(jīng)成為研究的熱點;經(jīng)過近幾十年的發(fā)展,這個領域已經(jīng)取得了巨大的發(fā)展,并在很多實際領域中得到廣泛的應用[18,31]。但是,之前的研究主要側(cè)重于簡單文本圖像的分析和處理,對于字符識別也是側(cè)重于規(guī)則文本和手寫體字符的

2、識別。而隨著數(shù)字圖像采集、處理和傳輸技術(shù),特別是由于Internet技術(shù)突飛猛進的發(fā)展,彩色圖像文本被越來越多的應用于各種場合,也就出現(xiàn)了大量復雜的圖像文本,這給文本分析技術(shù)提出了新的要求。一般的文本圖像中,或者只有文本構(gòu)成,或者包含圖片但是文本和圖片是分離的。而圖像文本中,文本是構(gòu)成圖像內(nèi)容的一部分,與圖像是不可簡單分離的;而同時為了能傳達更豐富的信息,其表現(xiàn)形式也更為變化多樣。這些特點使通常的文本圖像處理方法難以勝任。因而為了能有效

3、的提取出這些圖像文本中包含的內(nèi)容,新的圖像處理和分析方法一圖像文本分析技術(shù),就成為文本分析中的新的研究方向。 圖像文本分析技術(shù)和通常的文本圖像分析技術(shù)并不是完全獨立的,它們之間有著緊密的聯(lián)系。圖像文本分析技術(shù)的最大特點就是,其所要處理的對象是具有復雜背景的一般圖像,不僅包含灰度圖像,也包含彩色圖像;而其中的文本是作為圖像的一個組成部分而嵌入在圖像里面的。因此,作為圖像文本分析的第一步,就是要進行圖像中文本的自動檢測或定位,其目的

4、就是在圖像或視頻幀中提取出那些只包含文字的區(qū)域?,F(xiàn)有的圖像文本提取的方法可以分為三類:基于紋理分析技術(shù)的、基于空域連通分量分析技術(shù)的,以及基于頻域分析技術(shù)的。本文提出了一種基于連通分量分析和圖理論彩色聚類的彩色圖像中文本自動提取的方法。首先,應用色彩的統(tǒng)計模型,對彩色空間進行有效的壓縮,達到大大減小圖像的彩色空間的目的;其次,使用基于圖理論進行彩色聚類,將圖像分解成對應各類的多幅二值圖;然后,在這些二值圖的基礎上進行連通分量分析,提取可

5、能的文本區(qū)域,并對這些區(qū)域進行鑒別;最后,綜合各二值圖的提取結(jié)果,得到原始彩色圖像中的文本區(qū)域。和一般的基于紋理分析技術(shù)和頻域分析技術(shù)的方法相比,基于連通分量分析技術(shù)的方法對圖像中文本的大小和字體的變化具有更強的穩(wěn)健性。提取出的文本區(qū)域經(jīng)過進一步的二值化或文本—背景分離處理,就可以輸入字符識別(OCR)系統(tǒng)中進行識別。 在實際的應用中,需要處理的對象除規(guī)則的文本外,還包含由不規(guī)則的藝術(shù)字字符構(gòu)成的文本。尤其是現(xiàn)在的各種商業(yè)圖像/

6、圖形處理軟件的廣泛應用,以及藝術(shù)體字符較規(guī)則字符能承載更多的信息,藝術(shù)體文本越來越多的出現(xiàn)在各種應用場合,特別是現(xiàn)在的Internet上的各種網(wǎng)絡文本。對于規(guī)則文本的識別,到目前為止已經(jīng)有大量的研究工作以及相關(guān)的文獻。而專門以藝術(shù)字體字符作為對象的研究工作和文獻則比較缺少。這主要是因為:1)當前的字符識別的研究主要集中于手寫體字符的識別;2)藝術(shù)體字符形式的多樣性而帶來的識別的困難。所以,對藝術(shù)體字符的有效識別具有很大的實際應用意義。同

7、時,現(xiàn)有的規(guī)則字符的識別技術(shù)已經(jīng)非常成熟,在線的和離線的手寫體字符的識別研究也已經(jīng)有很多的研究成果。為了能有效的利用這些現(xiàn)有的方法,對藝術(shù)體字符識別考慮的重點將主要放在藝術(shù)字體的規(guī)則化問題上,也就是去除構(gòu)成字符的藝術(shù)化部分,得到近似規(guī)則的字符。本文提出了一種基于連通分量鄰接圖(CAG)的藝術(shù)體字符規(guī)則化方法。該方法和現(xiàn)有方法的最大區(qū)別之處就是,嘗試直接描述藝術(shù)體字符中作為修飾部分的結(jié)構(gòu)分量的特性?;趯@些特性的分析,判斷并去除字符中的

8、藝術(shù)修飾部分,從而達到藝術(shù)體字符的規(guī)則化目的。因此,該方法和現(xiàn)有的方法一樣,也是作為字符識別的前期處理,目的是提高現(xiàn)有OCR系統(tǒng)對藝術(shù)體字符的識別率。 最后,綜合這些圖像處理方法的圖像文本分析技術(shù)被應用于開發(fā)一個WEB圖像文本分析和處理軟件。該軟件能定位和提取出用戶瀏覽的WEB頁面中包含在圖像里的文本,并對它們進行在線的識別和翻譯,從而更加方便用戶對信息的獲取和理解。 在本論文中: ◆提出了基于圖像文本的圖像檢索

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論