2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩80頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、墓于小波分形特征提取的漢字識(shí)別萬(wàn)法第z頁(yè)摘要(P前,脫機(jī)手寫漢字的識(shí)別率總是不夠理想,其中的問題之一是漢字特征的結(jié)合上鷺取的問題,主要反映在漢字的統(tǒng)計(jì)特征與結(jié)構(gòu)特文提出了一種漢字識(shí)別技術(shù)中能夠很好的反映統(tǒng)計(jì)特征與結(jié)構(gòu)特征的漢字特征提取的新方法。首先在理論上,我們通過對(duì)小波技術(shù)與分形技術(shù)的研究發(fā)現(xiàn),分形的自相似性或無標(biāo)度性可以較好的反映結(jié)構(gòu)的繁雜程度和不規(guī)劃性等統(tǒng)計(jì)特性。而小波分析的良好時(shí)一頻特性以及多尺度多分辨率特性是研究精細(xì)結(jié)構(gòu)的理想

2、工具(又稱為數(shù)字顯微鏡),可以較好的反映結(jié)構(gòu)特征丫因此結(jié)合分形維數(shù)的統(tǒng)計(jì)特征和小波變換提取的結(jié)構(gòu)特征,既可以充分發(fā)揮統(tǒng)計(jì)特征良好抗干擾、抗噪聲的優(yōu)點(diǎn),又能發(fā)揮結(jié)構(gòu)特征結(jié)構(gòu)敏感性和區(qū)分相似字能力強(qiáng)的特點(diǎn),使該方法提取的特征具有良好的統(tǒng)計(jì)特征和結(jié)構(gòu)特征的信息。卜才其次我們對(duì)上面的理論研究結(jié)果通過實(shí)驗(yàn)加以驗(yàn)證。乙.我們證明漢字是一種分形,并對(duì)漢字的分形性進(jìn)行了統(tǒng)計(jì)分析。我們計(jì)算了國(guó)標(biāo)一級(jí)字庫(kù)共3755個(gè)漢字的計(jì)盒維數(shù),在計(jì)算過程中,發(fā)現(xiàn)幾乎任

3、意一個(gè)漢字的logN(S)^log(1S)關(guān)系圖上點(diǎn)都比較明顯地分布在一條直線上。從該實(shí)驗(yàn)結(jié)果可以表明:漢字是具有標(biāo)度不變性的,也就是說漢字可以看作是一種分形。我們同時(shí)對(duì)該字庫(kù)3755個(gè)漢字的計(jì)盒維數(shù)進(jìn)行了統(tǒng)計(jì)分析,并得到了如下的結(jié)論:(1)漢字的計(jì)盒維數(shù)介于1和2之間,在1.5附近的漢字最多。這個(gè)結(jié)果從直觀上來看是合理的,因?yàn)闈h字比一條直線復(fù)雜,所以維數(shù)大于1,但漢字不有歇充滿整個(gè)平面,所以維數(shù)小于20(2)漢字的維數(shù)與筆劃的多少很有

4、關(guān)系,漢字的計(jì)盒維數(shù)反應(yīng)了漢字筆劃的繁雜程度.筆劃多,維數(shù)就高。但是,維數(shù)不是只單純地取決于筆劃的多少,如漢字“矚”在國(guó)標(biāo)一級(jí)字庫(kù)中筆劃不是最多,但計(jì)算出的維數(shù)卻最大對(duì)于“不”和“下”,前者比后者多出一撇,但維數(shù)卻低一點(diǎn),也許前者正因?yàn)槎喑鲞@一撤,使得結(jié)構(gòu)更對(duì)稱一點(diǎn),不規(guī)則性更小一點(diǎn),同樣,“干”比基于小波分形特征提取的漢字識(shí)別方法第4頁(yè)對(duì)提取的特征數(shù)據(jù)進(jìn)行簡(jiǎn)單和初步的識(shí)別,以驗(yàn)證該特征的有效性。(2)輸入層神經(jīng)元數(shù)的選取與構(gòu)造我們?nèi)≥?/p>

5、入層神經(jīng)元為4個(gè),分別對(duì)應(yīng)小波分解二層提取的低頻特征和高頻(橫、豎、對(duì)角線)三個(gè)特征與分形特征的組合。小波分解的二層特征是2626的矩陣,加上分形維數(shù),所以對(duì)應(yīng)的輸入層每個(gè)神經(jīng)元分別具有26261的輸入.(3)隱含層神經(jīng)元數(shù)的選取與構(gòu)造網(wǎng)絡(luò)的隱含層可以認(rèn)為是通過輸入層與隱含層之間的權(quán)值的“自組織化”對(duì)輸入模式進(jìn)行的特征抽取,并將抽取的特征傳輸給輸出層.關(guān)于隱含層的神經(jīng)元數(shù)的選取尚無理論上的指導(dǎo),一般地,隱含層的神經(jīng)元數(shù)大,網(wǎng)絡(luò)的冗余性大

6、,增加了網(wǎng)絡(luò)一次訓(xùn)練的訓(xùn)練時(shí)間,盡管會(huì)使網(wǎng)絡(luò)收斂的訓(xùn)練次數(shù)減少,但會(huì)降低分類器的推廣能力。為保證分類器的穩(wěn)定性,網(wǎng)絡(luò)未知的連接權(quán)值的個(gè)數(shù)不宜超過訓(xùn)練樣本值的個(gè)數(shù)。通過實(shí)驗(yàn),我們最終取隱含層神經(jīng)元個(gè)數(shù)為4,分別對(duì)應(yīng)輸入層的神經(jīng)元。(4)輸出層神經(jīng)元數(shù)的選取與構(gòu)造輸出層神經(jīng)元數(shù)我們?nèi)?個(gè),其輸出值分別為0和1,表示所識(shí)別的特征是否是期望的漢字。(5)連接權(quán)值和閥值的初值選取一般認(rèn)為,連接權(quán)值初值可在區(qū)間卜0.50.5]內(nèi)隨機(jī)選取,文獻(xiàn)[2

7、8]認(rèn)為連接權(quán)值宜在區(qū)間卜55〕內(nèi)隨機(jī)選取,經(jīng)實(shí)驗(yàn)測(cè)試連接權(quán)值在區(qū)間卜55]內(nèi)隨機(jī)選取時(shí),Sigmoid函數(shù)作用明顯。(6)識(shí)別與結(jié)果分析由于實(shí)驗(yàn)條件有限,我們使用了國(guó)標(biāo)一級(jí)字庫(kù)中11個(gè)區(qū)共1034個(gè)漢字進(jìn)行了初具規(guī)模的手寫體漢字識(shí)別實(shí)驗(yàn),這11個(gè)區(qū)分別是2728303234363840424648。根據(jù)《現(xiàn)代漢語(yǔ)頻率詞典》統(tǒng)計(jì),最常用的1034個(gè)漢字使用頻率為91.8%而我們所使用的這11個(gè)區(qū)的漢字,客觀上講相似字的數(shù)目比最常用的10

8、34個(gè)漢字要多,而且有不少字的筆劃繁多,結(jié)構(gòu)復(fù)雜,因此在一定程度上具有一定的典型性和代表性。每個(gè)漢字有50個(gè)不同的書寫樣本,因此實(shí)驗(yàn)數(shù)據(jù)總共為51700個(gè)漢字.其中40套樣本用于訓(xùn)練,其余的10套樣本用于測(cè)試。升,廠一~實(shí)驗(yàn)結(jié)果表明該方法對(duì)訓(xùn)練樣本的識(shí)別率可以達(dá)到98.71%對(duì)測(cè)試樣本的識(shí)別率可以達(dá)到91.37%。所以說該特征提取方法具有一定的可行性好數(shù)據(jù),但最終然識(shí)別結(jié)果并不能達(dá)到目前其它文獻(xiàn)中的最別結(jié)果并不僅是由提取的特征單獨(dú)決定的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論