基于序列深度學(xué)習(xí)的視頻分析:建模表達(dá)與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩114頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、近年來,視頻數(shù)據(jù)呈現(xiàn)爆炸式增長。如此大量的視頻數(shù)據(jù)在存儲、識別、共享、編輯、生成等過程中都需要精準(zhǔn)的視頻語義分析技術(shù)。深度學(xué)習(xí)自從2012年以來極大地推動(dòng)了計(jì)算機(jī)視覺領(lǐng)域向前發(fā)展,使得大規(guī)模視頻數(shù)據(jù)的分析成為可能。因此,利用深度學(xué)習(xí)進(jìn)行視頻語義分析的研究也就成為了必然的選擇。目前基于深度學(xué)習(xí)的視頻語義分析基本上分為兩大步:1)利用卷積神經(jīng)網(wǎng)絡(luò)提取出各幀的視覺特征表達(dá);2)利用長短時(shí)遞歸神經(jīng)網(wǎng)絡(luò)(LSTM)對該特征序列進(jìn)行學(xué)習(xí),并表達(dá)為相

2、應(yīng)的語義類別或語義描述。本文在對現(xiàn)有視頻語義分析技術(shù)進(jìn)行全面調(diào)研和總結(jié)的基礎(chǔ)之上,對視頻語義分類和視頻語義描述兩種任務(wù)深度學(xué)習(xí)模型中存在的經(jīng)典問題進(jìn)行了充分的研究。從視頻幀的視覺特征表達(dá)的角度,分別提出了連續(xù)Dropout算法、參數(shù)對圖像變換穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)、結(jié)構(gòu)對圖像變換穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò),從特征融合、特征提取的關(guān)鍵角度進(jìn)一步改善現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)的性能。與此同時(shí),針對序列學(xué)習(xí)中多層遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練難、訓(xùn)練慢的問題,提出了以無監(jiān)督逐層

3、貪婪式學(xué)習(xí)的方式進(jìn)行預(yù)訓(xùn)練,有效提升模型性能和模型的訓(xùn)練效率。更進(jìn)一步地,針對現(xiàn)有視頻序列到單詞序列的單向映射框架的局限性,創(chuàng)造性地提出了基于潛在語義表征的多向序列學(xué)習(xí)算法,為基于視頻和句子序列的分析提供了新的視角。本文的主要工作和創(chuàng)新點(diǎn)總結(jié)如下:
  連續(xù)Dropout Dropout已經(jīng)被證明是一種有效的訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的算法,其主要的思想為通過在一個(gè)大規(guī)模的卷積神經(jīng)網(wǎng)絡(luò)中屏蔽一些原子,可以同時(shí)訓(xùn)練多個(gè)弱分類器,在預(yù)測階段

4、,可以將這些弱分類器的結(jié)果綜合起來,有效提升卷積神經(jīng)網(wǎng)絡(luò)的性能。人腦中的神經(jīng)元的突觸的信號傳遞強(qiáng)度是連續(xù)隨機(jī)的而不是離散隨機(jī)的,受這種現(xiàn)象的啟發(fā),我們將傳統(tǒng)的二進(jìn)制Dropout擴(kuò)展到連續(xù)Dropout。一方面,連續(xù)Dropout比傳統(tǒng)的二進(jìn)制Dropout更接近人腦中神經(jīng)元的激活特性。另一方面,我們證明連續(xù)Dropout具有避免特征檢測器共同適應(yīng)的特性。這表明我們可以在預(yù)測階段融合更多的獨(dú)立特征檢測器提取出來的特征,從而得到更好的結(jié)果

5、。
  參數(shù)穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)在許多視覺任務(wù)上獲得了最好的結(jié)果,目前幾乎所有的視覺信息都要用到卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理。然而,目前的CNN模型仍然表現(xiàn)出對圖像空間變換的穩(wěn)健性比較差。直觀地,具有有足夠的層數(shù)和參數(shù)卷積神經(jīng)網(wǎng)絡(luò)通過卷積(矩陣乘法和非線性激活)和池操作的分層組合應(yīng)該能夠?qū)W習(xí)從變換輸入圖像到變換不變表示的魯棒映射。我們提出在訓(xùn)練階段隨機(jī)變換(旋轉(zhuǎn)、縮放和平移)CNN的特征圖。這可以降低CNN模型對訓(xùn)

6、練圖像的特定旋轉(zhuǎn),縮放和平移的依賴。相反,每個(gè)卷積核將學(xué)習(xí)到對于其輸入特征圖的多種變換組合中不變的特征。這樣,我們不需要對優(yōu)化過程和訓(xùn)練圖像添加任何額外的監(jiān)督信息或?qū)斎雸D像進(jìn)行修改。通過實(shí)驗(yàn)進(jìn)一步驗(yàn)證了通過隨機(jī)變換進(jìn)行學(xué)習(xí)的CNN對于輸入圖像的變換更加不敏感,在小規(guī)模圖像識別,大規(guī)模圖像識別和圖像檢索上都提升了現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)的性能。
  結(jié)構(gòu)穩(wěn)健的卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)在許多視覺識別任務(wù)中展現(xiàn)了最好的性能。然而

7、,卷積和池化操作的組合對輸入中有意義目標(biāo)的局部位置變化只顯示出較小的不變性。有時(shí),一些網(wǎng)絡(luò)使用數(shù)據(jù)增強(qiáng)(Dataaugmentation)的方法來訓(xùn)練網(wǎng)絡(luò),以將這種不變性編碼到網(wǎng)絡(luò)參數(shù)中,但這限制了模型學(xué)習(xí)目標(biāo)內(nèi)容的能力。一種更有效的方式是將對平移或旋轉(zhuǎn)的不變性添加到網(wǎng)絡(luò)架構(gòu)中,從而減輕了模型對參數(shù)學(xué)習(xí)的需要。為了使模型能夠?qū)W⒂趯W(xué)習(xí)其所描述的對象,而不受其位置等影響,我們提出在特征響應(yīng)圖中,通過對局部區(qū)塊進(jìn)行排序,然后再輸入進(jìn)下一層中

8、。當(dāng)區(qū)塊重排序結(jié)合卷積和池操作時(shí),我們對于處于不同位置的輸入圖像中的目標(biāo),獲得了一致的表達(dá)。我們證明了所提出的區(qū)塊排序模塊可以提高CNN對許多基準(zhǔn)任務(wù)的性能,包括MNIST數(shù)字識別、大規(guī)模圖像識別和圖像檢索等。
  序列的深層遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)特別是視頻分析中常用的長短時(shí)記憶網(wǎng)絡(luò)(LSTM)的最新發(fā)展已經(jīng)顯示出其對序列數(shù)據(jù)進(jìn)行建模的潛力,特別是在計(jì)算機(jī)視覺和自然語言處理領(lǐng)域。然而,對擁有多層LSTM的深層網(wǎng)絡(luò)

9、的訓(xùn)練效果相對于淺層網(wǎng)絡(luò)并沒有得到期望的提升,同時(shí)收斂速度也比較慢。這種困難源于LSTM的初始化方法,其中基于梯度的優(yōu)化通常會收斂于較差的局部解。針對此問題,我們探討了無監(jiān)督的LSTM初始化預(yù)訓(xùn)練機(jī)制,充分利用無監(jiān)督預(yù)訓(xùn)練的作用,指導(dǎo)后續(xù)的監(jiān)督訓(xùn)練。在本文中,我們提出了一種新穎的基于編碼器-解碼器的學(xué)習(xí)框架,以貪婪式的逐層訓(xùn)練的方式初始化多層LSTM,其中每個(gè)新增的LSTM層被訓(xùn)練以保留上一層得到的表示中的主要信息。使用我們的預(yù)訓(xùn)練方法

10、訓(xùn)練的多層LSTM勝過隨機(jī)初始化訓(xùn)練的的LSTM,在回歸(加法問題),手寫數(shù)字識別(MNIST),視頻分類(UCF-101)和機(jī)器翻譯WMT'14)等任務(wù)上都取得了更好的效果。此外,使用貪婪的逐層訓(xùn)練方法還將多層LSTM的收斂速度提高了4倍。
  基于共享隱表征的序列到序列學(xué)習(xí)序列學(xué)習(xí)是深度學(xué)習(xí)的流行研究領(lǐng)域,如視頻字幕和語音識別?,F(xiàn)有方法通過首先將輸入序列編碼為固定大小的向量,然后從向量解碼目標(biāo)序列來將該學(xué)習(xí)建模為映射過程。雖然

11、簡單直觀,但是這種映射模型是任務(wù)相關(guān)(task-specific)的,不能直接用于不同的任務(wù)。在本文中,我們?yōu)橥ㄓ煤挽`活的序列到序列學(xué)習(xí)提出了一個(gè)星狀框架,其中不同類型的媒體內(nèi)容(外圍節(jié)點(diǎn))可以被編碼到共享隱表征(shared latent representation,SLR),即中央節(jié)點(diǎn)中。這是受到人腦可以以不同的方式學(xué)習(xí)和表達(dá)抽象概念的啟發(fā)。SLR的媒介不變屬性可以被視為中間向量的高級正則化,強(qiáng)制它不僅捕獲每個(gè)單個(gè)媒體內(nèi)的隱式表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論