版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、近年來,隨著計算機和互聯(lián)網(wǎng)的高速發(fā)展,人們的生活方式發(fā)生了巨大改變,人與計算機之間的交流也日益增多。作為人類最重要、最常用和最方便的信息交換方式—語音輸入,也得到了越來越多的科研人員的廣泛關(guān)注。隨著語音的人機交互技術(shù)在語音合成、自動語音識別(automatic speech recognition,ASR)等領(lǐng)域獲得了巨大成功,也同時伴隨著很多問題亟待解決,比如背景噪聲、混響等對語音質(zhì)量會產(chǎn)生極大的干擾,從而降低了語音的聽感以及可懂度,
2、對ASR的系統(tǒng)也會造成很大的影響,進而影響語音技術(shù)的實際應(yīng)用。如何從被干擾的語音中獲得較干凈、清晰的語音信號,成為語音信號處理領(lǐng)域的一個重要課題。而在這其中,語音分離是極為重要的一個方面,也成為了語音技術(shù)發(fā)展的迫切需求,受到了研究人員的重點關(guān)注。
進入21世紀(jì)以后,深度學(xué)習(xí)技術(shù)在信號處理域取得一系列重大突破,首先是多倫多大學(xué)的Hinton教授將深度模型引入在圖像編解碼和文本分類領(lǐng)域中,取得非常好的效果,再者是微軟的鄧力博士將深
3、度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)應(yīng)用在語音識別任務(wù)上,獲得了非常大的性能提升,隨后深度學(xué)習(xí)在語音,圖像和視頻領(lǐng)域都有非常廣泛的應(yīng)用,特別是工業(yè)界像谷歌,微軟,百度這樣的巨頭,都將深度學(xué)習(xí)應(yīng)用在他們的產(chǎn)品中,極大地促進了深度學(xué)習(xí)在學(xué)術(shù)中的研究。并且工業(yè)界的大規(guī)模成功應(yīng)用,還顯示了大數(shù)據(jù)在實現(xiàn)分類或識別任務(wù)上的巨大的潛力。而在語音分離任務(wù)上,能否用深度學(xué)習(xí)技術(shù)結(jié)合大數(shù)據(jù)在說話人獨立的條件下實現(xiàn)比較好的性能表現(xiàn)是本
4、論文的一個研究重點。
在各種語音分離的方法中,除了會利用到空域信息的麥克風(fēng)陣列技術(shù)以外,單通道語音分離是其中非常重要的一個領(lǐng)域,而其中沒有混合說話人先驗信息的說話人獨立方法是其中的一個難點。近年來,基于計算聽覺場景分析(computational auditory scene analysis,CASA)的方法在單通道語音分離上得到了成功的運用,但是這種方法會給目標(biāo)信號造成很大的畸變。而利用回歸的DNN能夠更好的保留目標(biāo)信號,
5、本文的主要工作就是利用深度學(xué)習(xí)技術(shù)在單通道條件下進行說話人獨立的語音分離。
首先,我們在異性說話人組合的情況下進行了說話人獨立深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建工作。能夠進行多說話人語音分離的一個重要理論基礎(chǔ)是混合的說話人的發(fā)音特性具有一定的區(qū)分性,比如不同的共振峰、頻率分布、相同音素的不同發(fā)音時長等。而男性和女性說話人由于發(fā)音器官具有天然明顯的不同特性,具有可分離的理論基礎(chǔ)。通過利用混合語音的對數(shù)功率譜(log-power spectra,
6、LPS)作為DNN模型的輸入特征,而將說話人的干凈語音特征作為輸出,訓(xùn)練DNN學(xué)習(xí)混合語音和干凈語音的非線性關(guān)系。
然后,本文提出了一個基于說話人組合檢測的說話人獨立單通道語音模型系統(tǒng)。首先通過利用一種計算說話人語音相似度的方法,將說話人聚類成4個不同的子類,并證明不同之類之間具有明顯的可分性。然后基于聚類結(jié)果,本文訓(xùn)練了一個有四輸出端的說話人組合檢測器,通過該檢測器網(wǎng)絡(luò)的輸出信號的能量關(guān)系,可以判斷當(dāng)前混合語音的說話人組合類
7、別。最后,根據(jù)檢測器的識別結(jié)果,利用不同的DNN語音分離器將混合語音進行分離。
最后,本文基于最大似然估計改進在回歸DNN模型的訓(xùn)練過程中采用的最小均方誤差準(zhǔn)則(Minimum Mean Square Error, MMSE)目標(biāo)函數(shù)。在最大似然估計的情況下,假設(shè)DNN的輸出錯誤信號服從零均值的多維高斯分布,提出了一種依次更新DNN參數(shù)和其輸出錯誤信號的分布函數(shù)的協(xié)方差矩陣的方法。進而可以發(fā)現(xiàn)MMSE準(zhǔn)則在以下假設(shè)的條件下等效
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于深度學(xué)習(xí)的單通道語音分離.pdf
- 基于序貫字典學(xué)習(xí)的單通道語音分離算法研究.pdf
- 基于深度學(xué)習(xí)的語音分離研究.pdf
- 基于稀疏分解的單通道混合語音分離算法研究.pdf
- 單通道語音分離關(guān)鍵技術(shù)研究.pdf
- 基于深度學(xué)習(xí)的有監(jiān)督語音分離方法研究.pdf
- 基于深度學(xué)習(xí)的短語音說話人識別研究.pdf
- 基于計算聽覺場景分析的雙說話人混合語音分離研究.pdf
- 基于稀疏表示和深度學(xué)習(xí)的欠定語音分離方法研究.pdf
- 基于麥克風(fēng)陣列的說話人跟蹤及語音分離實現(xiàn)技術(shù)的研究.pdf
- 基于盲源分離的單通道語音增強算法研究.pdf
- 基于計算聽覺場景分析的單通道語音盲分離技術(shù).pdf
- 基于深度神經(jīng)網(wǎng)絡(luò)的欠定語音分離方法研究.pdf
- 基于機器學(xué)習(xí)的欠定語音分離方法研究.pdf
- 基于深度學(xué)習(xí)的說話人識別研究.pdf
- 基于語音組成單位的文本無關(guān)說話人識別.pdf
- 基于空域濾波的語音分離研究.pdf
- 基于深度學(xué)習(xí)的說話人識別建模研究.pdf
- 基于文本無關(guān)的說話人識別.pdf
- 基于計算聽覺場景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語音分離.pdf
評論
0/150
提交評論