卷積神經(jīng)網(wǎng)絡cnn從入門到精通_第1頁
已閱讀1頁,還剩84頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、卷積神經(jīng)網(wǎng)絡CNN從入門到精通卷積神經(jīng)網(wǎng)絡算法的一個實現(xiàn)前言從理解卷積神經(jīng)到實現(xiàn)它,前后花了一個月時間,現(xiàn)在也還有一些地方?jīng)]有理解透徹,CNN還是有一定難度的,不是看哪個的博客和一兩篇論文就明白了,主要還是靠自己去專研,閱讀推薦列表在末尾的參考文獻。目前實現(xiàn)的CNN在MINIT數(shù)據(jù)集上效果還不錯,但是還有一些bug,因為最近比較忙,先把之前做的總結(jié)一下,以后再繼續(xù)優(yōu)化。卷積神經(jīng)網(wǎng)絡CNN是DeepLearning的一個重要算法,在很多應

2、用上表現(xiàn)出卓越的效果,[1]中對比多重算法在文檔字符識別的效果,結(jié)論是CNN優(yōu)于其他所有的算法。CNN在手寫體識別取得最好的效果,[2]將CNN應用在基于人臉的性別識別,效果也非常不錯。前段時間我用BP神經(jīng)網(wǎng)絡對手機拍照圖片的數(shù)字進行識別,效果還算不錯,接近98%,但在漢字識別上表現(xiàn)不佳,于是想試試卷積神經(jīng)網(wǎng)絡。1、CNN的整體網(wǎng)絡結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡是在BP神經(jīng)網(wǎng)絡的改進,與BP類似,都采用了前向傳播計算輸出值,反向傳播調(diào)整權(quán)重和偏置;C

3、NN與標準的BP最大的不同是:CNN中相鄰層之間的神經(jīng)單元并不是全連接,而是部分連接,也就是某個神經(jīng)單元的感知區(qū)域來自于上層的部分神經(jīng)單元,而不是像BP那樣與所有的神經(jīng)單元相連接。CNN的有三個重要的思想架構(gòu):局部區(qū)域感知權(quán)重共享空間或時間上的采樣局部區(qū)域感知能夠發(fā)現(xiàn)數(shù)據(jù)的一些局部特征,比如圖片上的一個角,一段弧,這些基本特征是構(gòu)成動物視覺的基礎[3];而BP中,所有的像素點是一堆混亂的點,相互之間的關(guān)系沒有被挖掘。CNN中每一層的由多

4、個map組成,每個map由多個神經(jīng)單元組成,同一個map的所有神經(jīng)單元共用一個卷積核(即權(quán)重),卷積核往往代表一個特征,比如某個卷積和代表一段弧,那么把這個卷積核在整個圖片上滾一下,卷積值較大的區(qū)域就很有可能是一段弧。注意卷積核其實就是權(quán)重,我們并不需要單獨去計算一個卷積,而是一個固定大小的權(quán)重矩陣去圖像上匹配時,這個操作與卷積類似,因此我們稱為卷積神經(jīng)網(wǎng)絡,實際上,BP也可以看做一種特殊的卷積神經(jīng)網(wǎng)絡,只是這個卷積核就是某層的所有權(quán)重

5、,即感知區(qū)域是整個圖像。權(quán)重共享策略減少了需要訓練的參數(shù),使得訓練出來的模型的泛華能力更強。采樣的目的主要是混淆特征的具體位置,因為某個特征找出來后,它的具體位置已經(jīng)不重要了,我們只需要這個特征與其他的相對位置,比如一個“8”,當我們得到了上面一個“o“時,我們不需要知道它在圖像的具體位置,只需要知道它下面又是一個“o”我們就可以知道是一個8了,因為圖片中“8“在圖片中偏左或者偏右都不影響我們認識它,這種混淆具體位置的策略能對變形和扭曲

6、的圖片進行識別。CNN的這三個特點是其對輸入數(shù)據(jù)在空間(主要針對圖像數(shù)據(jù))上和時間(主要針對時間序列數(shù)據(jù),參考TDNN)上的扭曲有很強的魯棒性。CNN一般采用卷積層與map與上層的所有map都關(guān)聯(lián),如上圖的S2和C3,即C3共有612個卷積核,卷積層的每一個特征map是不同的卷積核在前一層所有map上作卷積并將對應元素累加后加一個偏置,再求sigmod得到的。還有需要注意的是,卷積層的map個數(shù)是在網(wǎng)絡初始化指定的,而卷積層的map的大

7、小是由卷積核和上一層輸入map的大小決定的,假設上一層的map大小是nn、卷積核的大小是kk,則該層的map大小是(nk1)(nk1),比如上圖的2424的map大小24=(2851)。斯坦福的深度學習教程更加詳細的介紹了卷積特征提取的計算過程。圖33.3采樣層(采樣層(subsamplingPooling):采樣層是對上一層map的一個采樣處理,這里的采樣方式是對上一層map的相鄰小區(qū)域進行聚合統(tǒng)計,區(qū)域大小為scalescale,有

8、些實現(xiàn)是取小區(qū)域的最大值,而ToolBox里面的實現(xiàn)是采用22小區(qū)域的均值。注意,卷積的計算窗口是有重疊的,而采用的計算窗口沒有重疊,ToolBox里面計算采樣也是用卷積(conv2(AKvalid))來實現(xiàn)的,卷積核是22,每個元素都是14,去掉計算得到的卷積結(jié)果中有重疊的部分,即:圖44、反向傳輸調(diào)整權(quán)重反向傳輸過程是CNN最復雜的地方,雖然從宏觀上來看基本思想跟BP一樣,都是通過最小化殘差來調(diào)整權(quán)重和偏置,但CNN的網(wǎng)絡結(jié)構(gòu)并不像

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論