版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、語(yǔ)音情感識(shí)別(Speech Emotion Recognition,SER)是目前情感計(jì)算、模式識(shí)別、信號(hào)處理和人機(jī)交互領(lǐng)域的熱門(mén)研究話題。SER的主要目的是對(duì)語(yǔ)音信號(hào)按照不同的情感進(jìn)行分類,比如“生氣”、“恐懼”、“厭惡”、“高興”等。在過(guò)去的幾年里,已經(jīng)提出了許多有效的方法來(lái)應(yīng)對(duì)SER中出現(xiàn)的問(wèn)題。在各種研究方法中,大部分是集中在一個(gè)單一的語(yǔ)音數(shù)據(jù)庫(kù)上進(jìn)行的。然而,在許多實(shí)際應(yīng)用情況下,用于訓(xùn)練的語(yǔ)料庫(kù)與測(cè)試語(yǔ)料庫(kù)存在非常大的差異,
2、例如訓(xùn)練和測(cè)試數(shù)據(jù)庫(kù)來(lái)自兩種(或更多種)不同的語(yǔ)言、說(shuō)話人、文化、分布方式、數(shù)據(jù)規(guī)模等。這就出現(xiàn)了一個(gè)重要的研究?jī)?nèi)容:跨數(shù)據(jù)庫(kù)(Cross-corpus)的語(yǔ)音情感識(shí)別。由于SER的研究涉及特征提取、特征優(yōu)選、分類器改進(jìn)、特征融合等多個(gè)技術(shù)部分,因此本文根據(jù)其特點(diǎn),針對(duì)跨數(shù)據(jù)庫(kù)語(yǔ)音情感識(shí)別相關(guān)的關(guān)鍵技術(shù)進(jìn)行研究。本研究主要內(nèi)容包括:
?、裴槍?duì)跨庫(kù)語(yǔ)音情感特征優(yōu)選分類,提出了帶有無(wú)限成分?jǐn)?shù)的t分布混合模型(iSMM)。它可以直接對(duì)
3、多種語(yǔ)音情感樣本進(jìn)行有效的識(shí)別。與傳統(tǒng)的高斯混合模型(GMM)相比,基于混合t分布的語(yǔ)音情感模型能有效處理樣本特征空間中存在異常值的問(wèn)題。首先,t分布混合模型對(duì)用于測(cè)試的非典型情感數(shù)據(jù)能夠保持魯棒性。其次,針對(duì)高維空間引起的數(shù)據(jù)高復(fù)雜度和訓(xùn)練樣本不足的問(wèn)題,將全局隱空間加入情感模型。這種方法使樣本空間被劃分的成分?jǐn)?shù)量為無(wú)限,形成一個(gè)iSMM情感模型。此外,該模型可以自動(dòng)確定最佳的成分?jǐn)?shù)量,同時(shí)滿足低復(fù)雜性,進(jìn)而完成多種情感特征數(shù)據(jù)的分類
4、。為驗(yàn)證所提出的iSMM模型對(duì)于不同情感特征分布空間的識(shí)別效果,本文在3個(gè)數(shù)據(jù)庫(kù)上進(jìn)行仿真實(shí)驗(yàn),分別是:表演型語(yǔ)料庫(kù)DES、EMO-DB和自發(fā)型語(yǔ)料庫(kù)FAU。它們都是通用的語(yǔ)音情感數(shù)據(jù)庫(kù),且具有高維特征樣本和不同的空間分布。在這種實(shí)驗(yàn)條件下,驗(yàn)證了各個(gè)模型對(duì)于特征異常值和高維數(shù)據(jù)的優(yōu)選效果以及模型本身的泛化性。結(jié)果顯示iSMM相比其它對(duì)比模型,保持了更穩(wěn)定的識(shí)別性能。因此說(shuō)明本文提出的基于無(wú)限t分布的情感模型,在處理不同來(lái)源的語(yǔ)音數(shù)據(jù)時(shí)
5、具有較好的魯棒性,且對(duì)帶有離群值的高維情感特征具有良好的優(yōu)選識(shí)別能力。
⑵結(jié)合K近鄰、核學(xué)習(xí)方法、特征線重心法和LDA算法,提出了用于情感識(shí)別的LDA+kernel-KNNFLC方法。首先針對(duì)過(guò)大的先驗(yàn)樣本特征數(shù)目造成的計(jì)算量龐大問(wèn)題,采用重心準(zhǔn)則學(xué)習(xí)樣本距離,改進(jìn)了核學(xué)習(xí)的K近鄰方法;然后加入LDA對(duì)情感特征向量?jī)?yōu)化,在避免維度冗余的情況下,更好的保證了類間情感信息識(shí)別的穩(wěn)定性。對(duì)于跨庫(kù)領(lǐng)域的研究,關(guān)注了獨(dú)立數(shù)據(jù)庫(kù)中不同類別
6、間邊界擬合度過(guò)高導(dǎo)致的識(shí)別性能差異;通過(guò)對(duì)特征空間再學(xué)習(xí),所提出的分類方法優(yōu)化了情感特征向量的類間區(qū)分度,適合于不同語(yǔ)料來(lái)源的情感特征分類。在包含高維全局統(tǒng)計(jì)特征的兩個(gè)語(yǔ)音情感數(shù)據(jù)庫(kù)上進(jìn)行了仿真實(shí)驗(yàn)。通過(guò)降維方案、情感分類器和維度參數(shù)進(jìn)行多組實(shí)驗(yàn)對(duì)比分析,結(jié)果表明:LDA+kernel-KNNFLC方法在同條件下識(shí)別性能有顯著提升,具有相對(duì)穩(wěn)定的情感類別間分類能力。
⑶針對(duì)跨庫(kù)條件下情感特征類別的改進(jìn)(擴(kuò)充)研究,提出了基于聽(tīng)
7、覺(jué)注意模型的語(yǔ)譜圖特征提取方法。模型模擬入耳聽(tīng)覺(jué)特性,能有效探測(cè)語(yǔ)譜圖上變化的情感特征。同時(shí),利用時(shí)頻原子對(duì)模型進(jìn)行改進(jìn),取得頻率特性信號(hào)匹配的優(yōu)勢(shì),從時(shí)域上提取情感信息。在語(yǔ)音情感識(shí)別技術(shù)中,由于噪聲環(huán)境、說(shuō)話方式和說(shuō)話人特質(zhì)等原因,會(huì)造成特征空間分布不匹配的情況。從語(yǔ)音學(xué)上分析,該問(wèn)題多存在于跨數(shù)據(jù)庫(kù)情感識(shí)別任務(wù)中。訓(xùn)練的聲學(xué)模型和用于測(cè)試的語(yǔ)句樣本之間的錯(cuò)位,會(huì)使語(yǔ)音情感識(shí)別性能急劇下降。語(yǔ)譜圖的特征能從圖像的角度對(duì)現(xiàn)有情感特征進(jìn)
8、行有效的補(bǔ)充。聽(tīng)覺(jué)注意機(jī)制使模型能提取跨語(yǔ)音數(shù)據(jù)庫(kù)中的顯著性特征,提高語(yǔ)音情感識(shí)別系統(tǒng)的情感辨識(shí)能力。仿真實(shí)驗(yàn)部分利用文章所提出的方法在跨庫(kù)情感樣本上進(jìn)行特征提取,再通過(guò)典型的分類器進(jìn)行識(shí)別。結(jié)果顯示:與國(guó)際通用的標(biāo)準(zhǔn)方法相比,語(yǔ)譜圖情感特征的識(shí)別性能提高了約9個(gè)百分點(diǎn),從而驗(yàn)證了該方法對(duì)不同數(shù)據(jù)庫(kù)具有更好的魯棒性。
?、壤蒙疃葘W(xué)習(xí)領(lǐng)域的深度信念模型,提出了基于深度信念網(wǎng)絡(luò)的特征層融合方法。將語(yǔ)音頻譜圖中隱含的情感信息作為圖像
9、特征,與傳統(tǒng)聲學(xué)情感特征融合。研究解決了跨數(shù)據(jù)庫(kù)語(yǔ)音情感識(shí)別中,將不同尺度上提取的情感特征相結(jié)合的技術(shù)難點(diǎn)。利用STB/Itti模型對(duì)語(yǔ)譜圖進(jìn)行分析,從顏色、亮度、方向三個(gè)角度出發(fā)提取語(yǔ)譜圖特征;然后研究改進(jìn)了DBN網(wǎng)絡(luò)模型,并利用其對(duì)傳統(tǒng)聲學(xué)特征與語(yǔ)譜圖特征進(jìn)行了特征層融合,擴(kuò)充了特征子集的尺度,提升了情感表征能力。通過(guò)在ABC數(shù)據(jù)庫(kù)和多個(gè)中文數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)驗(yàn)證,特征融合后的新特征子集相比傳統(tǒng)的語(yǔ)音情感特征,其跨數(shù)據(jù)庫(kù)識(shí)別性能獲得了明
10、顯提升。
⑸研究了由跨數(shù)據(jù)庫(kù)條件下不同語(yǔ)言的使用和大量非特定說(shuō)話人引起的SER模型特征自適應(yīng)問(wèn)題。根據(jù)前面章節(jié)所介紹的跨庫(kù)語(yǔ)音情感識(shí)別的內(nèi)容,對(duì)特征參數(shù)失真、語(yǔ)譜圖特征構(gòu)造、建模算法對(duì)比、在線優(yōu)化等方面進(jìn)行了自適應(yīng)相關(guān)的研究,并對(duì)具體的實(shí)驗(yàn)性能進(jìn)行了比較分析。首先,討論了現(xiàn)有的語(yǔ)音情感識(shí)別自適應(yīng)方法。然后,對(duì)于跨庫(kù)的情況,進(jìn)一步研究了自適應(yīng)說(shuō)話人加性特征失真的情況,并給出模型方案。接著,為研究多說(shuō)話人自適應(yīng)問(wèn)題給SER系統(tǒng)帶來(lái)
11、的影響,對(duì)其過(guò)程進(jìn)行建模,將高斯混合模型與學(xué)生t分布模型兩種統(tǒng)計(jì)方法進(jìn)行對(duì)比討論。再分別利用各自適應(yīng)方案來(lái)獲取包括語(yǔ)譜圖特征在內(nèi)的特征函數(shù)集。此外,還使用了一些在線數(shù)據(jù)對(duì)特征函數(shù)進(jìn)行了快速優(yōu)化。最后,在四種不同語(yǔ)言的數(shù)據(jù)庫(kù)上(包括:德語(yǔ)、英語(yǔ)、中文和越南語(yǔ))驗(yàn)證了各自適應(yīng)方案的有效性。實(shí)驗(yàn)結(jié)果表明:改進(jìn)的自適應(yīng)方案具有良好的說(shuō)話人特征自適應(yīng)效果,尤其在處理大量未知說(shuō)話人的情況下顯示了較好的模型參數(shù)遷移能力。此外,對(duì)于由跨數(shù)據(jù)庫(kù)中不同語(yǔ)言
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 語(yǔ)音情感識(shí)別若干關(guān)鍵技術(shù)研究.pdf
- 實(shí)用語(yǔ)音情感識(shí)別若干關(guān)鍵技術(shù)研究.pdf
- 語(yǔ)音情感識(shí)別若干關(guān)鍵技術(shù)研究博士論文
- 語(yǔ)音情感識(shí)別的關(guān)鍵技術(shù)研究.pdf
- 語(yǔ)音情感識(shí)別關(guān)鍵技術(shù)研究.pdf
- 語(yǔ)音識(shí)別系統(tǒng)若干關(guān)鍵技術(shù)研究.pdf
- 普通話語(yǔ)音情感識(shí)別關(guān)鍵技術(shù)研究.pdf
- 語(yǔ)音識(shí)別關(guān)鍵技術(shù)研究.pdf
- 漢語(yǔ)語(yǔ)音識(shí)別應(yīng)用系統(tǒng)中的若干關(guān)鍵技術(shù)研究.pdf
- 虹膜識(shí)別若干關(guān)鍵技術(shù)研究.pdf
- 虹膜識(shí)別的若干關(guān)鍵技術(shù)研究.pdf
- 孤立詞語(yǔ)音識(shí)別的關(guān)鍵技術(shù)研究.pdf
- 時(shí)空數(shù)據(jù)庫(kù)若干關(guān)鍵技術(shù)研究.pdf
- 內(nèi)存數(shù)據(jù)庫(kù)若干關(guān)鍵技術(shù)研究.pdf
- 全文數(shù)據(jù)庫(kù)若干關(guān)鍵技術(shù)研究.pdf
- 文檔數(shù)據(jù)庫(kù)若干關(guān)鍵技術(shù)研究.pdf
- 雙模態(tài)情感識(shí)別關(guān)鍵技術(shù)研究.pdf
- 手寫(xiě)維吾爾文字識(shí)別若干關(guān)鍵技術(shù)研究.pdf
- MicroRNA識(shí)別中的若干關(guān)鍵技術(shù)研究.pdf
- 非特定人孤立詞語(yǔ)音識(shí)別系統(tǒng)若干關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論