2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩121頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、離線手寫漢字識(shí)別中,字符的正確切分是實(shí)現(xiàn)傳統(tǒng)OCR(OpticalCharacterReading)技術(shù)可用性的基本因素。然而,對(duì)于自由手寫漢字字符串,在識(shí)別之前無(wú)法可靠地對(duì)字符實(shí)施分割,主要困難來(lái)源于字符大小、間距的變化和相鄰字符之間的粘連。找到所有的候選切分位置是成功分割的前提。根據(jù)候選切分位置構(gòu)造候選字符模式,由候選字符模式識(shí)別結(jié)果的有效性可以做出切分決策,其中需要將字符分類結(jié)果和語(yǔ)言知識(shí)合并到分割中。利用語(yǔ)言知識(shí)的策略以及分割與

2、分類的實(shí)施,均依賴于特定的應(yīng)用背景,語(yǔ)言知識(shí)可以用于候選字符識(shí)別或識(shí)別假設(shè)的后處理。 對(duì)于存在字符間粘連的手寫體漢字串,在圖像上精確定位包含所有分割位置的候選切分位置集是很困難的。然而,漢字是由簡(jiǎn)單筆劃按照特定的關(guān)系構(gòu)成的,粘連漢字的分割點(diǎn)在筆劃結(jié)構(gòu)上通常是清晰的。 本文提出了一種基于筆劃結(jié)構(gòu)圖的手寫體漢字切分與識(shí)別方法。通過(guò)提取漢字的筆劃結(jié)構(gòu)并以圖的方式予以表達(dá),將漢字的切分與識(shí)別轉(zhuǎn)換為圖的分割和識(shí)別,運(yùn)用圖論進(jìn)行漢字

3、的切分。對(duì)于由多個(gè)連通部件構(gòu)成或者發(fā)生內(nèi)部斷裂的漢字,可以通過(guò)筆劃結(jié)構(gòu)子圖的合并構(gòu)成候選的字符模式;而彼此粘連漢字的切分就是相應(yīng)圖的分割。采用基于骨骼的筆劃提取方法,提取漢字的筆劃結(jié)構(gòu);從筆劃結(jié)構(gòu)圖上直接計(jì)算筆劃方向特征,采用特征值誤差補(bǔ)償和非對(duì)稱分布模型對(duì)候選字符模式進(jìn)行分類;針對(duì)特定的應(yīng)用背景,采用詞典驅(qū)動(dòng)的切分與識(shí)別策略。 基于骨骼圖像的筆劃提取取決于特征點(diǎn)的提取,特征點(diǎn)集合的完整性是提取正確筆劃結(jié)構(gòu)的前提。 預(yù)分

4、割是基于子圖合并的切分與識(shí)別策略的基礎(chǔ)。預(yù)分割并非一定要求提取單個(gè)完整的字符,如果在詞圖上存在一條從源點(diǎn)到終點(diǎn)的路徑,該路徑上的邊構(gòu)成相應(yīng)的字符序列,則預(yù)分割的結(jié)果就使得正確分割成為可能。 筆跡重構(gòu)是從字符的靜態(tài)圖像中提取筆跡順序信息,有助于將在線識(shí)別方法應(yīng)用于離線識(shí)別問(wèn)題,以及實(shí)現(xiàn)單個(gè)手寫字符識(shí)別和字符序列識(shí)別方法的統(tǒng)一。 在已經(jīng)提取筆劃結(jié)構(gòu)的情況下,當(dāng)然可以采用結(jié)構(gòu)匹配的方法進(jìn)行漢字識(shí)別。然而,基于降低技術(shù)難度和提高

5、穩(wěn)定性的考慮,本文采用了統(tǒng)計(jì)模式識(shí)別理論與方法進(jìn)行漢字識(shí)別,直接從筆劃結(jié)構(gòu)上計(jì)算筆劃方向特征,綜合利用了漢字筆劃結(jié)構(gòu)穩(wěn)定和統(tǒng)計(jì)方法抗噪聲干擾的優(yōu)點(diǎn)。 馬氏距離是在多變量正態(tài)分布概率密度函數(shù)的假設(shè)下推導(dǎo)出來(lái)的,然而,漢字字符樣本的分布與正態(tài)分布假設(shè)有明顯的差異。當(dāng)可以利用的樣本數(shù)量有限時(shí),主向量分析(PrincipalComponentAnalysis)計(jì)算的特征值通常包含誤差。因此,需要采用改進(jìn)的馬氏距離來(lái)計(jì)算未知模式的特征矢量

6、與某類的均值矢量之間的距離。 詞典驅(qū)動(dòng)的方式在英文單詞識(shí)別中已有廣泛的應(yīng)用。漢字類別繁多,采用詞典驅(qū)動(dòng)的方法進(jìn)行詞語(yǔ)識(shí)別,是針對(duì)特定應(yīng)用背景的一種有效的解決方案。 本文對(duì)上述問(wèn)題進(jìn)行了深入研究,主要?jiǎng)?chuàng)新體現(xiàn)在以下方面:1.采用基于識(shí)別的手寫體漢字切分策略,并將其轉(zhuǎn)換為相應(yīng)圖的分割。2.基于骨骼的特征點(diǎn)直接提取方法,保證筆劃提取的可靠性,并基于筆劃結(jié)構(gòu)直接計(jì)算筆劃方向特征。3.基于圖分割的漢字切分方法,字符切分就是相應(yīng)筆劃

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論