傳真收件人姓名字符識別技術研究與應用.pdf_第1頁
已閱讀1頁,還剩74頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、傳真文件收件人姓名自動識別系統(tǒng)屬于專用OCR系統(tǒng)開發(fā)范疇。專用OCR系統(tǒng)的開發(fā),將在很大程度上拓寬OCR技術的應用領域,提高相關應用領域的自動化程度。同時,由于系統(tǒng)所要處理的對象是特定的,在系統(tǒng)的實現過程中所遇到的一些新問題和所采用的新方法,對于OCR技術的研究具有一定的理論價值。在專用OCR系統(tǒng)中,傳真收件人姓名字符的識別技術具有較好的應用前景及實用價值。 本文針對傳真收件人姓名字符的識別技術進行了研究與應用。在字符圖像預處理

2、方面,除對傳統(tǒng)方法的研究外,根據傳真收件人姓名字符圖像的特殊性,經過多次實驗,選取了適合于傳真字符圖像的二值化、噪聲過濾、傾斜校正、字符大小歸一化及細化等方法;針對傳真收件人姓名字符可能存在書寫線的特點,對書寫線的檢測和去除方法進行了分析,使用了一種基于數學形態(tài)學的書寫線去除方法;在字符切分上,對于規(guī)格比較統(tǒng)一、字符分離清晰的字符區(qū)域使用最常用的基于投影分析的波峰-波谷法對字符圖像進行切分,以便進行字符識別,針對投影法無法切分的粘連字符

3、塊,采用了一種根據字符筆畫信息,尋找合適的分割點和分割路徑的分割方法。 在文字識別方面,本文基于不同的網絡模型有其自身特點,利用多神經網絡集成技術,建立了一種利用多特征的多級混合神經網絡的識別系統(tǒng)來處理字符識別問題,并提高其識別率。識別系統(tǒng)的分類器由字符粗分類和細分類兩級組成,本文的自組織聚類網絡可以很好地給出模式在多維空間的概率分布估計,結合字符的筆劃復雜性指數、四邊碼、粗外圍輪廓等特征可以較好估計出字符的粗分類結果。BP網絡

4、有著優(yōu)秀的非線性映射特征和對輸入矢量的分類能力,使用BP網絡和字符的輪廓特征、筆劃穿越密度特征構建字符的二級細分類器可以分析相似字符的細微差別。實驗結果表明,使用混合神經網絡的傳真收件人姓名字符識別方法對大字符集樣本的識別率達到了91%左右,比使用單一神經網絡提高了8%。在字符識別方面,本文還著重研究了支持向量機。支持向量機是屬于高維數小樣本的學習識別機器,這樣在給出了更多特征維數后,可以由少量的樣本,就可以達到很高的識別率。結合特征提

5、取方法,我們提取了多達幾百維的特征,用支持向量機識別,取得了較高的識別率。文中對四種常用的核函數分別進行了實驗,選取了對姓名字符具有較高識別率的徑向基內積函數,同時對核函數的不同參數進行了測試,根據測試結果本文系統(tǒng)選取σ2為0.5作為徑向基內積函數的參數值,其識別率達到了94.08%左右。 同時,本文針對傳真文件使用上的靈活性及中文傳真的特殊性,提出了一種用于解決中文傳真收件人姓名自動識別的方案,并部分實現了傳真收件人姓名自動識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論