版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著科學(xué)技術(shù)的不斷進步,電話已經(jīng)成為人們?nèi)粘I钪胁豢苫蛉钡囊徊糠帧T谏矸菡J證技術(shù)研究領(lǐng)域,越來越多的研究人員開始關(guān)注如何使用電話語音進行身份認證,因為相對于其它身份認證技術(shù)來說,使用電話語音進行身份認證所需的設(shè)備簡單、成本低、易獲取,更重要的是在使用電話語音進行身份認證的過程中,用戶不需要接觸設(shè)備,只需要簡單的說一句話,便可完成認證,大大提高了用戶的接受率。另外,說話人確認技術(shù)還是語音識別技術(shù)研究領(lǐng)域的一個重要研究方向,所以說話人確認
2、技術(shù)的研究不僅具有重要的理論研究意義而且還具有廣泛的應(yīng)用前景。
目前在說話人確認研究領(lǐng)域中,主流的說話人建模方法都是基于概率統(tǒng)計模型的,其中最具代表性的概率統(tǒng)計說話人模型當(dāng)屬高斯混合模型(GaussianMixture Model,GMM)。高斯混合模型采用非常多的高斯概率密度函數(shù)分量,對說話人的語音特征分布進行了較好的描述,從而取得了不錯的效果;但說話人確認是一個二元分類問題,而高斯混合模型只是一種概率生成性模型,其區(qū)分能力
3、非常有限,所以需要尋找同時具有強大表征能力和很強區(qū)分能力的模型進行說話人建模。近年來,深度學(xué)習(xí)(Deep Learning,DL)理論在模式識別領(lǐng)域掀起了一股非常大的研究熱潮,其出發(fā)點是想構(gòu)建一個復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型來模擬人腦的思維方式,然后對數(shù)據(jù)進行分析和處理。目前深度學(xué)習(xí)理論所依托的實現(xiàn)載體是深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)。深度神經(jīng)網(wǎng)絡(luò)憑借多隱層的結(jié)構(gòu)特點,使得其具有很好的表征能力和區(qū)分能力,目前在模式
4、識別的諸多研究方向都取得了成功應(yīng)用。本文主要研究內(nèi)容就是將具有強大表征能力及區(qū)分能力的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于說話人確認系統(tǒng)中進行說話人建模,構(gòu)建基于深度神經(jīng)網(wǎng)絡(luò)的話者確認系統(tǒng),針對建模過程中深度神經(jīng)網(wǎng)絡(luò)輸入特征的選擇、網(wǎng)絡(luò)結(jié)構(gòu)以及網(wǎng)絡(luò)訓(xùn)練方法等關(guān)鍵問題進行了深入的研究,并對多種基于深度神經(jīng)網(wǎng)絡(luò)的說話人確認系統(tǒng)的結(jié)構(gòu)及性能進行對比。
首先,介紹了目前說話人確認技術(shù)研究領(lǐng)域最為經(jīng)典的概率統(tǒng)計模型—高斯混合模型,并對其原理進行了詳細闡述
5、。針對其應(yīng)用于說話人確認系統(tǒng)中使用的GMM-UBM結(jié)構(gòu)進行了深入的討論,并對GMM-UBM說話人模型訓(xùn)練過程中使用的MAP算法進行介紹,然后通過實驗分析了混合度的選取對GMM-UBM說話人確認系統(tǒng)整體性能的影響,同時構(gòu)建了本文研究所需的基線系統(tǒng)。
接著,對深度神經(jīng)網(wǎng)絡(luò)相關(guān)內(nèi)容展開了討論,介紹了深度神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,詳細闡述了深度神經(jīng)網(wǎng)絡(luò)的原理及其訓(xùn)練算法,并對深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中常出現(xiàn)的問題進行了重點討論。本文針對基于G
6、MM-UBM的說話人模型區(qū)分能力差,表征能力不足等問題,引入了深度神經(jīng)網(wǎng)絡(luò)進行說話人建模,構(gòu)建了基于DNN-SPK說話人確認系統(tǒng)。為了進一步的減弱語音倒譜中語義信息的干擾,采用GMM對語音的原始倒譜特征進行聚類變換,抽取原始倒譜特征的統(tǒng)計特征參數(shù),從而進一步突顯說話人的個性信息,然后將其與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,構(gòu)建基于GMM-DNN說話人確認系統(tǒng),大大提高了確認的效果。
最后,語音作為一種時序信號,當(dāng)前時刻的信息在一定程度上是受
7、其歷史信息影響的。采用DNN進行說話人建模時,DNN對語音歷史信息的記憶是非常有限的,所以引入了能夠記住長歷史信息的長短時記憶(Long Short TermMemory,LSTM)模型,構(gòu)建了基于LSTM-SPK說話人確認系統(tǒng),針對采用LSTM進行說話人建模過程中,模型結(jié)構(gòu)的選擇以及如何選取輸入特征參數(shù)和輸出說話人標(biāo)簽等關(guān)鍵問題進行詳細討論。另外,針對LSTM計算復(fù)雜度比較高的問題,探討了采用LSTMP模型替換LSTM模型進行說話人建
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于SVM的文本無關(guān)話者確認研究.pdf
- 基于話者統(tǒng)計特征和SVM的文本無關(guān)話者確認研究.pdf
- 與文本無關(guān)話者識別算法研究及其DSP系統(tǒng)實現(xiàn).pdf
- 文本無關(guān)的多說話人確認研究.pdf
- 基于GMM和SVM的文本無關(guān)的說話人確認方法研究.pdf
- 基于矢量量化的與文本無關(guān)的說話人確認系統(tǒng)的研究.pdf
- 文本無關(guān)說話人確認及其應(yīng)用研究.pdf
- 基于區(qū)分性說話人模型的與文本無關(guān)說話人確認研究.pdf
- 與文本無關(guān)的話者識別系統(tǒng)的研究與實現(xiàn).pdf
- 信道魯棒的與文本無關(guān)說話人確認系統(tǒng).pdf
- 與文本無關(guān)的說話人確認系統(tǒng)的信道魯棒性研究.pdf
- 基于文本無關(guān)的說話人識別.pdf
- 文本無關(guān)的說話人識別研究.pdf
- 基于SVM的與文本無關(guān)的說話人識別算法研究.pdf
- 基于文本無關(guān)的說話人識別技術(shù)研究.pdf
- 與文本無關(guān)的語種識別技術(shù)研究.pdf
- 基于文本無關(guān)的說話人識別技術(shù)的研究.pdf
- 與文本無關(guān)說話人識別技術(shù)的研究.pdf
- 基于VQ的文本無關(guān)說話人識別研究.pdf
- 基于GMM-SVM和多子系統(tǒng)融合的與文本無關(guān)的話者識別.pdf
評論
0/150
提交評論