個性化語音生成及其相關(guān)問題的研究.pdf_第1頁
已閱讀1頁,還剩110頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著語音信號處理技術(shù)的日趨成熟,說話人的個性語音信息受到人們越來越多的重視。個性化語音生成指的是生成具有特定目標(biāo)說話人個性特征的語音,它有著廣泛的應(yīng)用前景:如在語音合成領(lǐng)域用于合成個性化語音;在保密通信領(lǐng)域用作說話人身份的偽裝;在醫(yī)療衛(wèi)生領(lǐng)域用于受損語音的恢復(fù)等。說話人自適應(yīng)和語音轉(zhuǎn)換可以看作個性化語音生成最常用的兩種技術(shù),在很多情況下,說話人自適應(yīng)可以認(rèn)為是語音轉(zhuǎn)換的一種特殊情況。語音轉(zhuǎn)換指的是改變一個說話人的語音個性特征,使之具有目

2、標(biāo)說話人的語音個性特征,而語義信息保持不變的一種技術(shù)。本文主要圍繞著語音轉(zhuǎn)換的相關(guān)方法和技術(shù)展開探討,重點研究了語音頻譜特征的轉(zhuǎn)換方法,對于F0的映射方法也進(jìn)行了討論,同時,針對非對稱語音庫情況下的語音轉(zhuǎn)換也提出了切實有效的解決方案。論文的主要工作和創(chuàng)新點包括以下幾個方面:
  首先,本論文在對基于經(jīng)典高斯混合模型方法(Gaussian Mixture Model, GMM)的語音轉(zhuǎn)換方法的研究基礎(chǔ)上,針對其存在的過擬合、不連續(xù)、

3、過平滑等問題分別提出了相應(yīng)的改進(jìn)方法。在GMM模型訓(xùn)練階段,加入了不同高斯分量之問的相似度的約束條件,提高了建模的精度,從而在一定程度上能夠提高轉(zhuǎn)換函數(shù)的準(zhǔn)確性。當(dāng)訓(xùn)練數(shù)據(jù)過少而模型復(fù)雜度較高時,會產(chǎn)生較為嚴(yán)重的過擬合問題。為了解決過擬合問題,我們提出了兩種方法:主成分回歸方法(Principal ComponentsRegression,PCR)和核主成分回歸方法(Kernel Principal Components Regress

4、ion,KPCR)。相關(guān)實驗結(jié)果分析表明:由于特征轉(zhuǎn)換是基于幀進(jìn)行的,忽略了相鄰幀之間的相關(guān)性,在很大程度上會造成轉(zhuǎn)換后語音的不連續(xù);同時,由于高斯模型的加權(quán)平均效應(yīng)會造成轉(zhuǎn)換語音頻譜的過平滑。針對這兩個問題,本文從研究后驗概率信息的角度出發(fā),發(fā)現(xiàn)對于一幀語音頻譜特征,GMM模型的某一高斯分量總是占據(jù)主導(dǎo)地位,并且相鄰幀的最大后驗概率在不同高斯分量之間的變換是非??焖俚?,這在很大程度上造成了轉(zhuǎn)換語音的不連續(xù)性。針對不連續(xù)問題,本文采用自

5、適應(yīng)中值濾波對后驗概率進(jìn)行平滑;同時,針對過平滑問題,我們選擇后驗概率最高的兩個高斯分量對應(yīng)的映射函數(shù)作為轉(zhuǎn)換函數(shù)。這些算法在一定程度上解決了GMM語音轉(zhuǎn)換方法存在的過擬合、不連續(xù)和過平滑等問題,從而實現(xiàn)了提升轉(zhuǎn)換性能的目標(biāo)。
  其次,針對頻譜特征的轉(zhuǎn)換,本文利用支持向量回歸方法(Support Vector Regression,SVR)做了深入的研究,通過SVR方法構(gòu)建了源說話人和目標(biāo)說話人之間的非線性映射關(guān)系。由于傳統(tǒng)的S

6、VR方法是針對多維輸入單維輸出的情況提出的,而本文研究的頻譜特征轉(zhuǎn)換是一種多輸入多輸出的情況,針對這一問題,我們采用了多輸出SVR方法;同時,由于單一映射很難準(zhǔn)確描述不同說話人的頻譜特征之間的關(guān)系,進(jìn)而我們提出了GMM和SVR相結(jié)合的方法;最后,針對說話人語義和個性特征分離的情況,我們做了初步的分析討論,提取低階的頻譜特征來表達(dá)語義信息,同時提取高階的頻譜特征來表示說話人個性特征,通過SVR方法建立語義和說話人個性特征之間的映射關(guān)系。實

7、驗結(jié)果表明,SVR方法能夠取得比傳統(tǒng)GMM方法更好的轉(zhuǎn)換效果,同時基于說話人語義信息和個性特征分離的語音轉(zhuǎn)換方法是可行的。
  第三,目前的語音轉(zhuǎn)換主要是集中在頻譜特征轉(zhuǎn)換方法的研究上,但是韻律特征特別是基音頻率(F0)對語音轉(zhuǎn)換也至關(guān)重要。本文圍繞著F0轉(zhuǎn)換這一話題進(jìn)行了討論與研究,詳細(xì)分析了目前幾種主要的FO轉(zhuǎn)換方法。我們從頻譜特征和F0相關(guān)性的角度出發(fā),提出通過轉(zhuǎn)換后的頻譜特征對F0進(jìn)行預(yù)測;同時,為了進(jìn)一步提升F0轉(zhuǎn)換的準(zhǔn)

8、確度,進(jìn)一步提出了F0預(yù)測和高斯歸一化方法相融合的轉(zhuǎn)換方法。本算法在主客觀實驗中都取得了比傳統(tǒng)高斯歸一化和GMM等方法更好的效果。
  最后,現(xiàn)實條件下對稱語音數(shù)據(jù)很難錄制和直接獲取,在這種情況下,傳統(tǒng)的語音轉(zhuǎn)換方法很難直接運(yùn)用。針對這一問題,我們首先提出了一種基于說話人模型對齊的語音轉(zhuǎn)換方法,在這種方法里,通過對說話人模型分量進(jìn)行迭代對齊來訓(xùn)練得到頻譜特征轉(zhuǎn)換函數(shù),取得了明顯優(yōu)于傳統(tǒng)INCA語音轉(zhuǎn)換方法的效果。同時,目前的語音轉(zhuǎn)

9、換方法需要大量的源說話人和目標(biāo)說話人的語音數(shù)據(jù),在實際情況中大量的對稱語音數(shù)據(jù)很難獲取,針對這一情況,受到說話人識別中自適應(yīng)思想的啟發(fā),本文提出了基于模型自適應(yīng)技術(shù)的語音轉(zhuǎn)換方法。在這種方法里,首先訓(xùn)練得到背景說話人模型,然后通過MAP自適應(yīng)方法分別自適應(yīng)訓(xùn)練得到源說話人和目標(biāo)說話人的模型,接著利用自適應(yīng)說話人模型的均值和協(xié)方差等模型參數(shù),分別提出了基于高斯歸一化和模型均值映射的頻譜特征轉(zhuǎn)換方法。為了進(jìn)一步提高轉(zhuǎn)換函數(shù)的準(zhǔn)確度,進(jìn)而提出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論