基于深度學習和遷移學習的環(huán)境聲音識別.pdf_第1頁
已閱讀1頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、作為一種感知周圍環(huán)境十分有效的方法,環(huán)境聲音識別(Enviorment Sound Recognition,ESR)被廣泛的應用在機器人導航、移動機器人、音頻檢索、音頻取證以及其它基于情景感知、可穿戴的應用中。目前,多種經典的分類器被廣泛的應用在ESR問題中,但其性能還遠未達到理想的水平,為了進一步提升ESR性能,本文首先引入了深度學習技術,深度神經網絡作為一種高性能、多層級的神經網絡,已經被廣泛證明在提取數據特征和建立識別模型方面具有

2、一定優(yōu)勢。聲音因采集時無方向要求、且始終蘊含環(huán)境信息等優(yōu)勢,在環(huán)境識別時扮演主要角色,但考慮到一般情況下采集音頻時容易獲取若干輔助的視頻信息,而且顯然多模態(tài)信息更有助于提升環(huán)境識別的準確率,所以本文在構建基于深度神經網的環(huán)境識別方法時,同時利用音頻特征和輔助視頻特征。此外,針對在實際應用中環(huán)境類別非常多,新的識別需求不斷涌現,針對新類別的數據標注和訓練開銷過大的問題,提出基于遷移學習的環(huán)境聲音識別方法,基于已建模的相似環(huán)境類,和新類別的

3、少量標注數據,學習得到新環(huán)境類別模型。
  本文將深度神經網絡應用在環(huán)境聲音識別問題中,為了充分利用聲音特征和輔助視頻特征,本文對如何融合兩種模態(tài)信息進行探討,提出兩種特征融合方法,分別為基于特征的融合以及基于模型的融合?;谔卣魅诤系沫h(huán)境聲音識別方法,將音頻特征和視頻特征直接拼接作為深度信念網絡(Deep Belief Network,DBN)的輸入,并通過訓練DBN進行環(huán)境場景的識別;基于模型融合的環(huán)境聲音識別方法分別對音頻信

4、息和輔助視頻信息建立DBN模型,并調至最優(yōu)性能,然后用一個新的DBN用來代替原有兩個DBN的輸出層以實現模型融合,最終通過訓練新的DBN進行環(huán)境聲音識別。實驗結果表明,基于模型融合的方法取得了最好的效果,識別性能相較于其它方法和基線系統(tǒng)有明顯的提升
  本文提出基于遷移學習的環(huán)境聲音建模方法,堆疊去噪自編碼網絡(Stacked Denoised AutoEncoder,SDA)的無監(jiān)督訓練較為簡單,并能良好的學習數據集的特征,為其

5、和遷移學習的融合提供了良好的基礎。本文在遷移學習的框架下,結合SDA網絡,通過衡量新環(huán)境類別的語料與現有環(huán)境語料之間的關系實現識別模型的遷移,實驗表明此方法能有效地區(qū)分新場景,準確率有明顯提升。在遷移學習理論框架下,反觀DBN的預訓練與微調過程,提出基于通用預訓練的方法。該方法采用擴大DBN預訓練數據集規(guī)模的策略,達到待識別數據只需在此通用預訓練基礎上進行快速的微調過程即可實現分類的目的。實驗結果表明,此方法可以顯著的提升待識別數據的性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論