2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩66頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、人類的語音作為人與人之間溝通的重要手段和情感表達的重要媒介,已經(jīng)成為人工智能的重要研究方向。在傳統(tǒng)的語音情感識別中,如何提取最具判別性的特征已成為很多研究者關(guān)注的內(nèi)容,其中一個重要的挑戰(zhàn)就是在情感特征提取過程中把情感相關(guān)因素和情感無關(guān)因素(如環(huán)境、說話人等的差異)進行分離,使提取的情感特征具有更強的泛化性。傳統(tǒng)的語音情感識別有一個前提:訓練數(shù)據(jù)和測試數(shù)據(jù)來自同一個語料庫,也就是兩者具有相同的數(shù)據(jù)分布。但是,由于語音數(shù)據(jù)是從不同的設備和記

2、錄環(huán)境下獲取的,它們在語言、情感的種類、標記方案等方面存在很大的差異,這時候訓練數(shù)據(jù)和測試數(shù)據(jù)就具有不同的數(shù)據(jù)分布,傳統(tǒng)的語音情感識別方法已經(jīng)不能很好地解決這個問題。域適應,作為一種特殊的遷移學習方法,被證明可以有效地解決不同域之間數(shù)據(jù)分布存在差異的問題。
  本文針對傳統(tǒng)的語音情感識別,提出了可鑒別語音情感特征學習方法;針對跨庫的語音情感識別,分別提出了基于先驗共享的半監(jiān)督域適應方法,和基于標簽監(jiān)督和特征分解的無監(jiān)督域適應方法。

3、具體研究內(nèi)容如下:
  1)提出可鑒別語音情感特征學習方法。主要目的是對情感相關(guān)因素和情感無關(guān)因素進行分離,從而提取情感相關(guān)的特征。該方法包括四個步驟。首先,對語音數(shù)據(jù)進行預處理,得到語譜特征。然后進行無監(jiān)督特征學習,從語譜特征中提取若干個小塊進行無監(jiān)督預訓練,得到核(權(quán)重和偏置),利用不同尺寸的小塊就能訓練不同尺寸的核,然后對整個輸入語譜特征利用核進行卷積、池化,并堆疊不同尺寸的池化特征,得到一個初步的粗糙特征表示。接著進行半監(jiān)

4、督特征學習,將粗糙特征作為輸入并映射成兩部分,一部分和情感相關(guān),另一部分和情感無關(guān)。總的損失函數(shù)由四部分組成:重構(gòu)損失函數(shù)、正交損失函數(shù)、判別損失函數(shù)和認證損失函數(shù)。通過正交損失函數(shù),將情感相關(guān)的特征和情感無關(guān)的特征進行初步的劃分。接下來對情感相關(guān)的特征進行一些約束。通過判別損失函數(shù),增大不同種類情感的情感相關(guān)特征之間的距離;通過認證損失函數(shù),減小同一種類情感的情感特征之間的距離。最后,將半監(jiān)督特征學習得到的情感相關(guān)特征作為一段音頻的最

5、終特征表示,結(jié)合相應的情感標簽,進行分類器的訓練。實驗在INTERSPEECH2009情感挑戰(zhàn)賽的五類任務上進行評估,利用該方法學習得到的情感相關(guān)特征的識別率明顯高于在同等條件下使用傳統(tǒng)聲學特征的識別率。
  2)提出基于先驗共享的語音情感遷移學習方法。主要目的是希望通過共享先驗,使得目標域中有標簽樣本比較少的那些類,能夠從源域中相關(guān)的類獲得一些有用的信息,從而改善目標域的分類性能。提出的模型是一個兩層的神經(jīng)網(wǎng)絡模型,第一層是特征

6、提取層,第二層是softmax分類器。第二層參數(shù)其實是各個類的分類器參數(shù),在每類都有充足有標簽樣本的情況下,各個類的分類器參數(shù)一般都是獨立的,但在半監(jiān)督域適應下,目標域中的每個類只有很少的有標簽樣本,只用這些有標簽樣本不足以訓練一個性能出色的分類器,因此本方法對相關(guān)的類的分類器參數(shù)加上一個共同的先驗(也就是相關(guān)類的分類器權(quán)重向量從同一個分布中產(chǎn)生)。該方法包括三個步驟。首先,對語音數(shù)據(jù)預處理,得到一個384維特征。然后,利用源域和目標域

7、的無標簽數(shù)據(jù)進行預訓練共享隱藏層自動編碼器,用于初始化模型的第一層參數(shù)。最后,利用源域和目標域的有標簽數(shù)據(jù)進行訓練整個兩層模型。實驗中源域采用ABC或者Emo-DB,目標域采用FAU AEC,在INTERSPEECH2009情感挑戰(zhàn)賽的兩類任務上進行評估。實驗結(jié)果表明,在目標域有標簽樣本比較少的情況下,提出的基于先驗共享方法的召回率要高于沒有先驗共享的方法,并且高于傳統(tǒng)的機器學習方法。
  3)提出基于標簽監(jiān)督和特征分解的語音情感

8、遷移學習方法。主要目的是同時學習具有域不變性和情感判別性的特征,來彌補域之間的差異,并且學到任務相關(guān)的特征。該方法所提出的模型是一個前向神經(jīng)網(wǎng)絡模型,包括三個部分:特征提取,情感標簽預測,域標簽預測。首先將輸入數(shù)據(jù)解開成兩部分:情感相關(guān)特征和情感無關(guān)特征,然后將情感相關(guān)特征進行層次非線性轉(zhuǎn)換得到高層情感特征,進一步采用高層特征進行情感標簽和域標簽的預測。實驗中源域采用ABC或者Emo-DB,目標域采用FAU AEC,在INTERSPEE

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論