版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、近年來語音信號處理已成為信號處理中比較引人注目的研究領(lǐng)域。但是當(dāng)前的研究中,無論是語音識別還是檢索,針對的都是單一類別的音頻文件,而在網(wǎng)絡(luò)實際應(yīng)用中,更多的情況是各種類別混合在一起的。為了完成對這一類數(shù)據(jù)的識別和檢索,就需要先對它們進行分類來提取出文件中各個不同類別的部分,然后再按照單一類別的情況進行處理,而這種分類技術(shù)就被統(tǒng)稱為場景語音分類技術(shù)。
結(jié)合相關(guān)文獻對場景語音分類算法的研究,本文得出目前這一領(lǐng)域的研究重點主要集
2、中在:一是盡量選取能夠在統(tǒng)計意義下有較高區(qū)分性的特征,并且選取的這一特征應(yīng)兼有低計算量的特點以符合實時語音處理的要求;二是在搭建聲學(xué)模型時,提出新的模型算法或者在原有算法中加以改進,提高分類的準(zhǔn)確率和執(zhí)行效率使得系統(tǒng)達到高穩(wěn)定性。
從這一思路出發(fā),在特征的選取上,文中先對三類音頻:語音、音樂及噪音文件分別完成時域及頻域的多種特征的提取,然后對這些特征在幀層次及片段層次的分布進行統(tǒng)計,最后通過分析得出多維特征子帶能量比比起其
3、他特征來說更能從幀層次上完成對三類音頻的分類,同時得出片段層次上沒有相關(guān)特征能夠完成分類要求。在模型的選取上,由于HMM模型和由它衍生而來的GMM模型能統(tǒng)計地吸收發(fā)音的聲學(xué)特性和時間上的變動。因此,在現(xiàn)有的各種分類識別系統(tǒng)中,它們已經(jīng)成為了最佳的識別模型;又由于GMM模型不像HMM那樣通過狀態(tài)轉(zhuǎn)移概率約束聲學(xué)特征類的時序變化,使得GMM比HMM的計算量要小的多,所以GMM比起后者更適合進行實時處理?;谏鲜隹紤],本文選用GMM模型來用于
4、場景語音分類。
基于對傳統(tǒng)GMM模型各個實現(xiàn)環(huán)節(jié)的深入研究,本文提出了一種基于類間權(quán)值調(diào)整的GMM語音分類算法。由于傳統(tǒng)的GMM模型只考慮類內(nèi)數(shù)據(jù)之間對分類建模的影響,而忽視了不同類間數(shù)據(jù)可能存在的相關(guān)性。這種相關(guān)性的存在可能會在類間數(shù)據(jù)的識別分類過程中產(chǎn)生一定的干擾,導(dǎo)致分類中出現(xiàn)誤判。為了避免產(chǎn)生誤判,本文在傳統(tǒng)的GMM模型參數(shù)進行類間權(quán)值調(diào)整,通過對那些容易產(chǎn)生干擾的兩類GMM模型參數(shù)對,可以通過對其權(quán)值進行削弱來降
5、低它們對識別結(jié)果的影響。反之,對于那些彼此之間接近相互獨立的,容易區(qū)分兩類數(shù)據(jù)的參數(shù)對,可以通過對其權(quán)值進行加強來提升它們對識別結(jié)果的影響。
由于本文在特征選取環(huán)節(jié)上只從幀層次上選取了子帶能量比這一特征來進行GMM建模,而沒有采用片段層次的特征,又由于最后的判決結(jié)果是針對于每一片段來進行的,這就導(dǎo)致了在實驗中的兩類模型得分近似一致而難以進行區(qū)分。為了彌補這一不足,本文對傳統(tǒng)的似然判決函數(shù)進行優(yōu)化,實現(xiàn)了對這類錯誤所在片段在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于計算聽覺場景分析的混合語音分離.pdf
- 基于計算聽覺場景分析的混合語音分離研究.pdf
- 基于計算聲場景分析的混疊語音分離研究.pdf
- 基于計算聽覺場景分析的單聲道語音分離研究.pdf
- 基于計算聽覺場景分析的單信道語音分離.pdf
- 基于計算聽覺場景分析的單聲道語音分離.pdf
- 基于語音生成和獲取中聲音分類學(xué)習(xí)的神經(jīng)模型研究.pdf
- 基于計算聽覺場景分析的雙說話人混合語音分離研究.pdf
- 基于計算聽覺場景分析的三通道語音分離研究.pdf
- 基于深度學(xué)習(xí)的語音分離研究.pdf
- 基于空域濾波的語音分離研究.pdf
- 基于fcm聚類算法的呼吸音分類識別研究
- 基于計算聽覺場景分析和深度神經(jīng)網(wǎng)絡(luò)的混響語音分離.pdf
- 基于概率主題模型的圖像場景分類研究.pdf
- 基于主題模型的動態(tài)場景分類.pdf
- 基于語音分析的身份辨認.pdf
- 基于dsp的語音分析系統(tǒng)
- 基于雙耳空間信息的語音分離研究.pdf
- 基于LDA主題模型的圖像場景分類研究.pdf
- 基于語義主題模型的圖像場景分類研究.pdf
評論
0/150
提交評論