基于子空間的語音增強 畢業(yè)論文_第1頁
已閱讀1頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p>  畢業(yè)設(shè)計(論文)任務(wù)書</p><p> 畢業(yè)設(shè)計(論文)題目:基于子空間語音增強算法的研究畢業(yè)設(shè)計(論文)要求及原始數(shù)據(jù)(資料):論文要求:第一周:看語音增強的原理,了解子空間語音增強的方法。第二周:熟悉子空間語音增強的步驟。第三周:用特征值分解法實現(xiàn)子空間分解的步驟。第四周:找Matlab程序?qū)崿F(xiàn)子空間語音增強。第五周:Matlab仿真,實現(xiàn)語音增強。第六周:了解論文整體結(jié)構(gòu),寫出論文大

2、綱。第七周:寫第一章緒論。第八周:寫第二章語音增強基礎(chǔ)知識。第九,十周:寫第三章子空間語音增強算法。第十一周:完成論文剩余部分。第十二周:完成論文初稿。第十三,十四周:對論文進行有針對性的調(diào)整及修改。第十五,十六周:在老師的指導(dǎo)下,進一步完善課題的體系結(jié)構(gòu),最終完稿。</p><p> 論文原始數(shù)據(jù):隨著語音技術(shù)研究的深入和實際應(yīng)用的增多,各種語音處理系統(tǒng)都面臨著進一步提高性能的問題。語音增強是其中的關(guān)鍵技術(shù)之一

3、。早在20世紀60年代語音增強這個課題就已引起人們的注意,此后40年人們一直鍥而不舍地進行這方面的研究。隨著數(shù)字信號處理理論的成熟,70年代曾形成一個研究高潮,取得了一些基礎(chǔ)性成果,并使語音增強發(fā)展成為語音信號數(shù)字處理的一個重要分支。進入80年代后,VLSI技術(shù)的發(fā)展為語音增強的實時實現(xiàn)提供了可能。近年來人們正在探索將人工智能、隱含馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)等技術(shù)應(yīng)用于語音增強,并取得了一定進展。以及針對人的聽覺感知系統(tǒng)的生理特性研究,語言

4、學(xué)中上下文聯(lián)想智能的研究等,都在進一步推動著語音增強的研究。就目前來說,語音增強的方法分為兩大類。第一類是時域方法,例如子空間的方法;另一類是頻域方法,例如減譜法、最小均方誤差(MMSE)估計和維納濾波法等。這兩類方法各有其優(yōu)點和缺點:子空間的方法提供了一種在語音信號失真和殘留噪聲之間進行控制的機制,但是計算量較大。另一方面,頻域方法的計算量較小,但是在信號失真和殘留噪聲的控制上還沒有一個理論機制;減譜法具有計算量小的特點,而且<

5、/p><p> 畢業(yè)設(shè)計(論文)主要內(nèi)容:經(jīng)典的檢測理論中有一項信號子空間處理技術(shù)。在M類信號進行檢測時,構(gòu)造由M類信號張成的信號子空間,并在子空間中使用M個經(jīng)過KL變換后的分量實現(xiàn)對信號的檢測。譜估計和陣列信號處理大量使用了這種信號子空間處理技術(shù)。語音信號處理的大量實驗表明,語音矢量的協(xié)方差矩陣有很多零特征值,這說明干凈語音信號矢量的能量分布在它對應(yīng)空間的某個子集中。而語音信號處理中,噪聲方差通常都假設(shè)己知,且嚴格

6、正定。噪聲矢量存在于整個帶噪信號張成的空間中。因此帶噪語音信號的矢量空間可以認為由一個信號加噪聲的子空間和一個純噪聲的子空間構(gòu)成??梢岳眯盘栕涌臻g處理技術(shù),消除純噪聲子空間,并對語音信號進行估計,實現(xiàn)語音增強。子空間方法是通過空間分解,將整個空間劃分為兩個獨立子空間,即噪聲子空間和疊加噪聲的信號子空間,然后對噪聲子空間和信號子空間進行處理以實現(xiàn)語音增強。具體章節(jié)安排如下:緒論。介紹本次課題研究的目的和意義,簡述基于子空間語音增強算法研

7、究的發(fā)展歷程以及論文的整體結(jié)構(gòu)。第二章 語音增強的基礎(chǔ)知識。介紹語音增強方法分類,語音特性,噪聲分類及特點以及語音增強算法概述。第三章 子空間語音增強算法。</p><p> 主要參考文獻(資料):[1]張雄偉,陳亮,楊吉斌.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機械工業(yè)出版社,2003: 248-266.[2]張剛,張雪英,馬建芬.語音處理與編碼[M].北京:兵器工業(yè)出版社,2000:5

8、5-57.[3]王華奎,張立毅.數(shù)字信號處理理論及應(yīng)用[M].太原:太原理工大學(xué)出版社,2005:182-203.[4]Li Ye,Cui Huijuan,Tang Kun.Speech enhancement algorithm based on spectralsubtraction[J].Qinghua Daxue Xuebao/Journal of Tsinghua University, 2006(46):1685-1

9、687.[5]Martin Rainer.Speech enhancement based on minimum mean-square error estimationand supergaussian priors[J].IEEE Transactions on Speech and Audio Pr</p><p>  基于子空間語音增強算法的研究</p><p>&l

10、t;b>  摘 要</b></p><p>  基于子空間的語音增強是通過空間分解,將整個空間劃分為兩個獨立子空間,即噪聲子空間和疊加噪聲的信號子空間,然后對噪聲子空間和信號子空間進行處理以實現(xiàn)語音增強。本文的主要內(nèi)容包括以下幾點:</p><p> ?。?)簡要介紹了語音增強算法的目的、意義、國內(nèi)外發(fā)展狀況,并給出了有關(guān)基礎(chǔ)知識。</p><p>

11、;  (2)主要研究了基于時域約束估計器(TDC)和頻域約束估計器(SDC)的子空間語音增強方法。從原理進行分析,并分別進行了實驗仿真。結(jié)果表明:采用時域約束估計器(TDC)得到的增強語音增強效果優(yōu)于頻域約束估計器(SDC)。并且在輸入信噪比較小的情況下,采用時域約束估計器(TDC)得到的輸出信噪比,效果更好于頻域約束估計器(SDC)。</p><p>  關(guān)鍵詞:語音增強,子空間,KL變換,特征值/奇異值分解&

12、lt;/p><p>  SUBSPACE BASED SPEECH ENHANCEMENT </p><p><b>  ALGORITHM</b></p><p><b>  ABSTRACT</b></p><p>  Speech enhancement based on subspace dec

13、omposition through space, the whole space is divided into two separate sub-space, ie the noise subspace and signal subspace noise adding, and then the noise subspace and signal subspace speech enhancement processing to a

14、chieve. The main contents include the following:</p><p>  (1) briefly introduced the purpose of speech enhancement algorithm, meaning, domestic and international development, and gives information on the bas

15、ics.</p><p>  (2) The main constraint based on time-domain estimator (TDC) and frequency domain constraint estimator (SDC) subspace speech enhancement. In principle, analysis and simulation experiments were

16、carried out. The results showed that: The time-domain constrained estimator (TDC) enhanced speech enhancement by frequency domain constraints better than the estimator (SDC). And the input SNR is relatively small, constr

17、ained by time domain estimator (TDC) of the output signal to noise ratio, the better es</p><p>  KEY WORDS: Speech enhancement, signal subspace, Karhuen-Loeve Transform(KIT), eigenvalue decomposition (EVD)&l

18、t;/p><p><b>  目 錄</b></p><p><b>  摘 要I</b></p><p>  ABSTRACTII</p><p><b>  第一章 緒論1</b></p><p>  1.1本次課題研究的目的和意義1</p

19、><p>  1.2國內(nèi)外研究現(xiàn)狀2</p><p>  1.3語音增強算法簡介3</p><p>  1.4本論文的結(jié)構(gòu)安排4</p><p>  第二章 語音增強的基礎(chǔ)知識5</p><p>  2.1 語音增強方法分類5</p><p>  2.2 語音特性5</p>

20、<p>  2.3 噪聲分類及特點6</p><p>  2.4 語音增強算法概述7</p><p>  2.5 語音增強的新發(fā)展9</p><p>  第三章 子空間語音增強算法12</p><p>  3.1 信號子空間原理12</p><p>  3.1.1 語音信號的線性模型12<

21、/p><p>  3.1.2 信號與噪聲子空間13</p><p>  3.2 語音信號估計15</p><p>  3.2.1時域約束估計器15</p><p>  3.2.2頻域約束估計器17</p><p>  3.3 子空間語音增強方法19</p><p>  第四章 TDC和

22、SDC的語音增強實驗仿真21</p><p>  4.1用時域約束估計器(TDC)的子空間語音增強方法進行實驗仿真21</p><p>  4.2用頻域約束估計器(SDC)的子空間語音增強方法進行實驗仿真24</p><p>  4.3 結(jié)果比較及分析27</p><p>  第五章 全文總結(jié)與工作展望29</p>&

23、lt;p>  5.1全文總結(jié)29</p><p>  5.2工作展望29</p><p>  參 考 文 獻31</p><p><b>  致 謝34</b></p><p><b>  緒論</b></p><p>  1.1本次課題研究的目的和意義<

24、/p><p>  實際環(huán)境中,語音總會受到外界環(huán)境噪聲的干擾,這些噪聲包括從周圍環(huán)境,傳輸媒介中引入的噪聲,電器設(shè)備的噪聲以及其他說話人的干擾等等。環(huán)境噪聲會影響語音質(zhì)量,嚴重的情況下語音將完全淹沒到噪聲中,無法分辨。語音質(zhì)量的下降會使語音處理系統(tǒng)的性能急劇惡化。比如,語音識別系統(tǒng)在實驗室環(huán)境中可取得相當好的效果,但在噪聲環(huán)境中,尤其是在強噪聲環(huán)境中使用時,系統(tǒng)的識別率將受到嚴重影響。低速語音編碼同樣會受到噪聲的影響

25、。由于語音生成模型是低速率語音編碼的基礎(chǔ),當語音受到噪聲干擾時,提取的模型參數(shù)將很不準確,重建的語音質(zhì)量急劇惡化。此時,采用語音增強技術(shù)進行預(yù)處理,將有效的改善系統(tǒng)性能。</p><p>  語音增強的主要目標是從帶噪語音信號中提取盡可能純凈的原始語音。然而,由于干擾通常都是隨機的,從帶噪語音中提取完全純凈的語音幾乎不可能。在這種情況下,語音增強的目的主要有兩個:一是改進語音質(zhì)量,消除背景噪聲,使聽者樂于接受,不

26、感覺疲勞;二是提高語音可懂度,方便聽者理解。這兩個目的往往不能兼得,到目前為止還沒有哪種語音增強系統(tǒng)可以同時很好地改善語音質(zhì)量和可懂度兩個指標。目前有一些對低信噪比帶噪語音進行語音增強的方法,可以顯著的降低背景噪聲,改進語音質(zhì)量,但并不能提高語音的可懂度,甚至略有下降。衡量語音增強的效果分別涉及語音的下觀度量和客觀度量兩個方面,有主觀測試和客觀測試兩種方法可用。主觀測試方法包括平均意見得分(MOS)判斷韻字測試(DRT)和判斷滿意度測量

27、(DAM)等??陀^測試方法主要根據(jù)增強語音的時域波形或頻域語譜,給出客觀的數(shù)值度量。例如一種常用的方法是采用信噪比來度量,此時信噪比的定義是原始語音信號功率與歸一化后的增強語音和原始語音之差的功率比。同時采用Itakura距離來測試。</p><p>  語音增強不但與語音信號數(shù)字處理理論有關(guān),而且涉及到人的聽覺感知和語音學(xué)。再者,噪聲來源眾多,隨應(yīng)用場合而異,它們的特性也各不相同。即使在實驗室仿真條件下,也難以

28、找到一種通用的語音增強算法能適用各種噪聲環(huán)境。必須針對不同噪聲環(huán)境,采用不同的語音增強對策。</p><p>  1.2國內(nèi)外研究現(xiàn)狀</p><p>  語音增強是在噪聲環(huán)境下用以提高語音通信系統(tǒng)質(zhì)量的一個重要技術(shù)。隨著語音技術(shù)研究的深入和實際應(yīng)用的增多,各種語音處理系統(tǒng)都面臨著進一步提高性能的問題,語音增強是其中的關(guān)鍵技術(shù)之一,已有幾十年的研究發(fā)展歷史。其研究起與20世紀60年代,隨著

29、數(shù)字信號理論的成熟,在70年代曾形成一個理論高潮,取得了一些基礎(chǔ)性成果,并使語音增強發(fā)展成為語音信號處理的一個重要分支。</p><p>  1978年,Lim和Oppenheim提出了基于維納濾波的語音增強方法。</p><p>  1979年,Boll提出了譜相減方法來抑制噪聲。</p><p>  1980年,Maulay和Malpss提出了軟判決噪聲抑制方法

30、。</p><p>  1984年,Ephraim和Malah提出了基于MMSE短時幅度譜估計的語音增強方法。</p><p>  1987年,Paliwal把卡爾曼濾波引入語音增強領(lǐng)域。</p><p>  1995年.Ephraim提出了基于信號子空間分解的語音增強方法。</p><p>  近年來,基于子空間的語音增強技術(shù)受到許多研究者

31、的重視,該方法可減少信號的失真和人為噪聲的引入。子空間技術(shù)將帶噪語音信號看成向量空間的一部分,并將此向量空間劃分成兩個相互正交的子空間:信號子空間和噪聲了空間。去除噪聲子空間的信號分量可以提高帶噪信號的語音質(zhì)量,進一步從信號子空間中估計出高質(zhì)量的語音信號。</p><p>  Ephraim and Van-Trees提出了一套有效的子空間語音增強系統(tǒng),利用特征值分解(EVD)和KL變換分解來進行信號空間的劃分,

32、并針對白噪聲背景下的帶噪語音,提出了有效的時域和頻域的線性估計算法。后來的學(xué)者將該方法擴展到對于含有色噪聲的語音增強處理上。Rezayee和Gazor基于噪聲能量譜的近似對角化提出了一種時域的次優(yōu)估計算法;Hu和Loizou提出聯(lián)合對角化的方法來處理有色噪聲;Lev-Ari和Ephraim利用預(yù)白化方法擴展了其早期的算法來進行有色噪聲背景下的語音增強。</p><p>  隨著語音技術(shù)研究的深入和實際應(yīng)用的增多,

33、各種語音處理系統(tǒng)都面臨著進一步提高性能的問題。語音增強是其中的關(guān)鍵技術(shù)之一。早在20世紀60年代語音增強這個課題就已引起人們的注意,此后40年人們一直鍥而不舍地進行這方面的研究。隨著數(shù)字信號處理理論的成熟,70年代曾形成一個研究高潮,取得了一些基礎(chǔ)性成果,并使語音增強發(fā)展成為語音信號數(shù)字處理的一個重要分支。進入80年代后,VLSI技術(shù)的發(fā)展為語音增強的實時實現(xiàn)提供了可能。近年來人們正在探索將人工智能、隱含馬爾可夫模型、神經(jīng)網(wǎng)絡(luò)等技術(shù)應(yīng)用

34、于語音增強,并取得了一定進展。以及針對人的聽覺感知系統(tǒng)的生理特性研究,語言學(xué)中上下文聯(lián)想智能的研究等,都在進一步推動著語音增強的研究。</p><p>  就目前來說,語音增強的方法分為兩大類。第一類是時域方法,例如子空間的方法;另一類是頻域方法,例如減譜法、最小均方誤差(MMSE)估計和維納濾波法等。這兩類方法各有其優(yōu)點和缺點:子空間的方法提供了一種在語音信號失真和殘留噪聲之間進行控制的機制,但是計算量較大。另

35、一方面,頻域方法的計算量較小,但是在信號失真和殘留噪聲的控制上還沒有一個理論機制;減譜法具有計算量小的特點,而且在語音信號失真和殘留噪聲的控制方面提供了簡單的控制機制。但是因為在處理的結(jié)果中存在音樂噪聲,因此達不到令人滿意的效果;MMSE 和維納濾波的方法的計算量都比較適中,但是沒有提供在語音信號的失真和殘留噪聲之間進行控制的機制。</p><p>  1.3語音增強算法簡介</p><p&g

36、t;  由于噪聲來源眾多,隨應(yīng)用場合而異,它們的特性也各不相同,難以找到一種通用的語音增強算法適用于各種噪聲環(huán)境。而且語音增強不但與語音信號數(shù)字處理理論有關(guān),還涉及到人的聽覺感知和語音學(xué),所以必須針對不同的噪聲,采取不同的語音增強對策。幾十年來人們在語音增強方面做了很多不懈的探索,總結(jié)出適應(yīng)不同情況的各種增強方法。</p><p>  語音增強算法可從信號輸入的通道數(shù)上分為單通道的語音增強算法與多通道的語音增強算

37、法。單通道語音系統(tǒng)在實際應(yīng)用中較為常見,如電話,手機等。這種情況下語音與噪聲同時存在一個通道中,語音信息與噪聲信息必須從同一個信號中得出。一般這種語音系統(tǒng)下要求噪聲要比較平穩(wěn),以便在非語音段對噪聲進行估計,再依據(jù)估計出來的噪聲對帶噪聲的語音段進行處理。如果語音系統(tǒng)是一個多通道的語音系統(tǒng),各個通道之間存在著某些相關(guān)的特性,這些相關(guān)特性對語音增強的處理十分有利。如在自適應(yīng)噪聲對消法的語音增強方法中,采用了兩個話筒作為輸入,一個采集帶噪的語音

38、信號,另一個用來采集噪聲。從噪聲通道所采集的噪聲直接當作帶噪語音中的噪聲,并將它從帶噪聲語音信號中減去就可得到純凈的語音。另一種多通道的語音增強算法是采用陣列信號,這種方法采用多個以一定方式排列的采集設(shè)備接收信號。由于不同獨立的信號源與各個采集設(shè)備之間的距離不同,最后在各個接收設(shè)備中的合成信號也會不同,再根據(jù)這些信號將各個獨立信號分離出來。</p><p>  1.4本論文的結(jié)構(gòu)安排</p><

39、;p>  介紹子空間語音增強的目的和意義以及發(fā)展現(xiàn)狀</p><p>  介紹語音增強的基礎(chǔ)知識,包括介紹:語音增強方法分類,語音特性,噪聲分類及特點,子空間語音增強概述,語音增強的新發(fā)展。</p><p>  介紹子空間語音增強算法,包括介紹:信號子空間原理,語音信號估計,子空間語音增強方法,子空間與維納濾波相結(jié)合的語音增強方法,子空間和掩蔽效應(yīng)相結(jié)合的語音增強方法</p&g

40、t;<p>  介紹算法實現(xiàn)及仿真結(jié)果</p><p><b>  總結(jié)與展望</b></p><p><b>  語音增強的基礎(chǔ)知識</b></p><p>  2.1 語音增強方法分類</p><p><b>  1.參數(shù)方法</b></p>&

41、lt;p>  此類方法主要依賴于使用的語音生成模型(例如AR模型),需要提取模型參數(shù)(如基音周期、LPC系數(shù)),常常使用迭代方法。采用濾波器模型典型的有梳狀濾波器、維納濾波器、卡爾曼濾波器等。</p><p><b>  2.非參數(shù)方法</b></p><p>  該方法不需要從帶噪信號中估計模型參數(shù),因此這種方法的應(yīng)用范圍較廣。但由于沒有利用可能的語音統(tǒng)計信息

42、,故結(jié)果一般不是最優(yōu)化的。這類方法包括譜減法、自適應(yīng)濾波法等。</p><p><b>  3.統(tǒng)計方法</b></p><p>  該方法較充分的利用了語音和噪音的統(tǒng)計特性,一般要建立模型庫,需要訓(xùn)練過程獲得初始統(tǒng)計參數(shù),它與語音識別系統(tǒng)的聯(lián)系很密切。如最小均方誤差估計MMSE、聽覺掩蔽效應(yīng)等。</p><p><b>  4.其它

43、方法</b></p><p>  如小波變換、離散余弦變換(DCT)、人工神經(jīng)網(wǎng)絡(luò)等。這些方法不像前三類方法那樣成熟,可以概括地稱為非主流方法。實際使用中常常根據(jù)具體的環(huán)境噪聲和語音特性將不同方法結(jié)合起來應(yīng)用,通過方法互補取得更好的語音增強效果。 </p><p><b>  2.2 語音特性</b></p><p>  1.語音是

44、時變的、非平穩(wěn)的隨機過程</p><p>  人類發(fā)音系統(tǒng)生理結(jié)構(gòu)的變化速度是有一定限度的,在一段時間內(nèi)(10-30 ms),人的聲帶和聲道形狀是相對穩(wěn)定的,因而語音的短時譜具有相對穩(wěn)定性,所以可利用短時譜的這種平穩(wěn)性來分析語音。</p><p>  2.語音可分為濁音和清音兩大類</p><p>  濁音在時域上呈現(xiàn)出明顯的周期性。在頻域上有共振峰結(jié)構(gòu),而且能量大

45、部分集中在較低頻段內(nèi);而清音段沒有明顯的時域和頻域特征,類似于白噪聲。在語音增強研究中,可利用濁音的周期性特征,采用梳狀濾波器提取語音分量或者抑制非語音信號,而清音則難以與寬帶噪聲區(qū)分。</p><p>  3.語音信號可以用統(tǒng)計分析特性來描述</p><p>  由于語音是非平穩(wěn)的隨機過程,所以長時間的時域統(tǒng)計特性在語音增強的研究中意義不大。語音的短時譜幅度的統(tǒng)計特性是時變的,只有當分析

46、幀長趨于無窮大時,才能近似認為其具有高斯分布。高斯分布模型是根據(jù)中心極限定理得到的,將高斯模型應(yīng)用于有限幀長只是一種近似的描述。在寬帶噪聲污染的語音增強中,可將這種假設(shè)作為分析的前提。</p><p>  4.語音感知對語音增強研究有重要作用</p><p>  人耳對語音的感知主要是通過語音信號頻譜分量幅度獲得的,人耳對頻率高低的感受近似與該頻率的對數(shù)值成正比。共振峰對語音的感知十分重要

47、,特別是第二共振峰比第一共振峰更為重要。</p><p>  2.3 噪聲分類及特點</p><p>  根據(jù)與輸入語音信號的關(guān)系,噪聲可分為加性噪聲和非加性噪聲兩類??紤]到加性噪聲更普遍且易于分析問題,并且對于部分非加性噪聲,如乘積性噪聲或卷積性噪聲,可以通過同態(tài)變換而成為加性噪聲。</p><p>  加性噪聲大致可分為周期性噪聲、沖激噪聲和寬帶噪聲:</

48、p><p><b>  1.周期性噪聲</b></p><p>  周期性噪聲的特點是有許多離散的窄譜峰,它往往來源于發(fā)動機等周期運轉(zhuǎn)的機械,如50或60Hz交流聲會引起周期性噪聲。周期性噪聲引起的問題可以通過功率譜發(fā)現(xiàn),并通過濾波或變換技術(shù)將其去掉。</p><p><b>  2.沖激噪聲</b></p>&

49、lt;p>  沖激噪聲表現(xiàn)為時域波形中突然出現(xiàn)的窄脈沖,它通常是放電的結(jié)果。消除這種噪聲可根據(jù)帶噪語音信號幅度的平均值確定閾值,當信號幅度超過這一閾值時判為沖激噪聲,然后進行消除。</p><p><b>  3.寬帶噪聲</b></p><p>  寬帶噪聲的來源很多,如熱噪聲、氣流(如風、呼吸)噪聲及各種隨機噪聲源等,量化噪聲也可視為寬帶噪聲。由于寬帶噪聲與

50、語音信號在時域和頻域上完全重疊,因而消除它最為困難,這種噪聲只有在語音間歇期才單獨存在。對于平穩(wěn)的寬帶噪聲,通常認為是白色高斯噪聲;不具有白色頻譜的噪聲,可以先進行白化處理。對于非平穩(wěn)的寬帶噪聲,情況就更為復(fù)雜一些。</p><p><b>  4.同聲道語音干擾</b></p><p>  在實際生活中經(jīng)常遇到多人同時說話的情況,此時不需要的語音就形成了同聲道干擾。

51、人耳可以根據(jù)需要分辨出其中某個人的聲音,這種能力稱為“雞尾酒會效應(yīng)”。這種能力來源于人的雙耳效應(yīng)和人類語音中包含的“聲紋”特征,這是人體內(nèi)部語音理解機理的一種感知能力表現(xiàn)。通常情況下語音經(jīng)雙耳輸入,人們根據(jù)兩路輸入的不同時延特性進行分離。同時由于人的發(fā)音器官生理構(gòu)造的差異,每個人都有自身獨特的“聲紋”,因此,即使雙耳效應(yīng)不顯著,人耳也可以借助聲紋對信號進行分離。</p><p><b>  5.背景噪聲

52、</b></p><p>  背景噪聲破壞了信號原有的聲學(xué)特征及模型參數(shù),因此減弱了不同語音間的差別,使語音質(zhì)量下降,可懂度降低。強噪聲會使人產(chǎn)生聽覺疲勞,從而影響人耳的聽覺特性。同時,較強的背景噪聲也會使講話人的發(fā)音方式發(fā)生改變,即使發(fā)相同的語音,其語音的特征參數(shù)也會與安靜環(huán)境下的發(fā)音有所不同。這種效應(yīng)稱為“Lombard”效應(yīng)。</p><p>  2.4 語音增強算法概述

53、</p><p>  語音增強一般都作為預(yù)處理或前端處理模塊存在于語音處理系統(tǒng)中。由于噪聲特性各異,語音增強的方法也各不相同。近40年來,人們研究了各種語音增強算法,盡管語音增強在理論上并沒有完全解決,還有待發(fā)展,但某些算法己證實是有效果的口傳統(tǒng)的方法大體可以分為四類:噪聲對消法、諧波增強法、基于參數(shù)估計的語音再合成和基于短時譜估計的增強算法.</p><p><b>  1.噪

54、聲對消法</b></p><p>  噪聲對消法的基本原理是從帶噪語音中減去噪聲,這一原理顯而易見,但問題是如何得到噪聲的復(fù)制品。如果可以用兩個話筒(或多個話筒)的采集系統(tǒng),一個采集帶噪語音,另一個(或多個)采集噪聲,則這一任務(wù)比較容易解決。將帶噪語音序列和噪聲序列分別經(jīng)過傅里葉變換得到的頻譜分量相減,然后加上帶噪語音頻譜分量的相位,再經(jīng)過傅里葉反變換恢復(fù)為時域信號。在強背景噪聲時,這種方法可以得到很

55、好的消除噪聲效果。如果采集到的噪聲足夠“逼真”,甚至可以在時域上直接與帶噪語音相減。</p><p>  噪聲對消法可以用于平穩(wěn)噪聲相消,也可以用十準平穩(wěn)噪聲。采用噪聲對消時,兩個話筒之間必須要有相當?shù)木嚯x度,但采集到的兩路信號之間不可避免地會有時間差,因此實時采集到的兩路信號中所包含的噪聲段是不相同的,回聲及其他可變衰減特性也將影響所采集噪聲的“純凈”性,因而采集到的噪聲必須經(jīng)過數(shù)字濾波器,以得到盡可能接近帶噪

56、語音中的噪聲。通常,這需要采用自適應(yīng)濾波器,使相減噪聲與帶噪語音中的噪聲一致,其原理類似于回波抵消器。</p><p><b>  2.諧波增強法</b></p><p>  語音信號的濁音段有明顯的周期性,利用這一特點,可以采用自適應(yīng)梳狀濾波器來提取語音分量,抑制噪聲。</p><p>  梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對語音進行傅里葉變換后可

57、以鑒別出需要提取的各次諧波分量,然后經(jīng)傅里葉變換恢復(fù)為時域信號。梳狀濾波器不但可以增強語音信號,也可以用于抑制各種噪聲干擾,包括消除同聲道的其他語音的干擾。</p><p>  3.基于短時譜估計的增強算法</p><p>  語音是非平穩(wěn)隨機過程,但在10-30ms的分析幀內(nèi)可以近似看成平穩(wěn)的,如果能從帶噪語音的短時譜中估計出“純凈”語音的短時譜,即可達到增強的目的。很多的語音增強系統(tǒng)都

58、是根據(jù)語音短時譜和噪聲譜的區(qū)別,采用短時譜估計方法從帶噪信號中估計原始語音。由于噪聲也是隨機過程,因此這種估計只能建立在統(tǒng)計模型基礎(chǔ)上。</p><p>  4.基于語音生成模型的增強算法</p><p>  眾所周知,語音的發(fā)聲過程可以簡化為激勵源作用于一個線性時變?yōu)V波器,激勵源可以分濁音和清音兩類,濁音由氣流通過聲帶產(chǎn)生。時變?yōu)V波器則是聲道的模型。通常認為聲道模型是一個全極點濾波器,濾

59、波器參數(shù)可以通過線性預(yù)測分析得到,但若考慮到鼻腔的共鳴作用,采用零極點模型更為合適。顯然,如果能夠知道激勵參數(shù)和聲道濾波器參數(shù),就能利用語音生成模型合成得到“純凈”語音,這種方法的關(guān)鍵在于如何從帶噪語音中準確地估計語音模型的參數(shù)(包括激勵參數(shù)和聲道參數(shù)),這種增強方法稱為分析-合成法。</p><p>  2.5 語音增強的新發(fā)展</p><p>  除了這些傳統(tǒng)的方法外,近些年也出現(xiàn)了許

60、多新的語音增強算法,比如基于神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型和聽覺感知模型等的語音增強算法。</p><p>  1. 基于神經(jīng)網(wǎng)絡(luò)的語音增強</p><p>  語音增強在一定意義上也是一種說話人區(qū)分問題,只不過區(qū)分的是背景中的噪聲,因此可以利用神經(jīng)網(wǎng)絡(luò)等技術(shù)來實現(xiàn)語音的增強。經(jīng)過多年的發(fā)展,人們已提出了一系列應(yīng)用于語音增強的神經(jīng)網(wǎng)絡(luò)方法。例如20世紀80年代中期Tamura和Waibel等人就

61、利用了四層的全連接BP網(wǎng)來從各種平穩(wěn)和非平穩(wěn)噪聲中提取語音。</p><p>  神經(jīng)網(wǎng)絡(luò)在語音增強中的應(yīng)用主要有以下兩個方面:</p><p>  時域濾波:時域濾波的方法基于測試語音和噪聲環(huán)境的分布和訓(xùn)練時相同,且分布保持不變的假設(shè),需要利用帶噪語音和干凈的目標語音分別進行訓(xùn)練,得到合適的預(yù)測神經(jīng)元模型。為得到語音的最大似然估計,在擴展的卡爾曼濾波過程中,使用訓(xùn)練得到的預(yù)測神經(jīng)元模型,

62、將噪聲抑制。</p><p>  變換域濾波:變換域分類使用帶噪語音和干凈的目標語音在變換域中對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練。變換域根據(jù)需要可以選擇為頻譜域、倒譜域、Mel倒譜域等。SNR或其他一些測度也可以作為網(wǎng)絡(luò)的輸入。這種方法的前提是SNR估計是正確的,巨語音、噪聲的統(tǒng)計分布是特定的。利用訓(xùn)練得到的神經(jīng)元,構(gòu)造可以對語音和噪聲進行分類的分類器,即可實現(xiàn)語音增強。</p><p>  2. 基于H

63、MM的語音增強</p><p>  為了更好地描述信號的非平穩(wěn)性,可以采用基于狀態(tài)空間的變換方法,對不同的語音和噪聲信號建立不同的模型。目前主要有兩種轉(zhuǎn)換方法,一種是構(gòu)造分類器,利用分類器對當前信號極性最佳匹配。另一種方法就是利用隱馬爾可夫模型(HMM)使用這種方法,HMM的各個狀態(tài)可以對語音、噪聲信號有所不同的區(qū)域進行充分的建模,另外,由于要準確地將噪聲估計出來,必須保證在只有噪聲信號的情況下HMM也可以正確地

64、進行分類。此時,利用HMM可以對狀態(tài)轉(zhuǎn)移概率進行建模,將可能為噪聲的信號部分濾除就可以做到語音增強?;贖MM的方法也可以和擴展的卡爾曼濾波器聯(lián)合使用。</p><p>  3. 基于聽覺感知的語音增強</p><p>  研究人員發(fā)現(xiàn),無論在多么惡劣的環(huán)境下,人耳總能在極大的程度上對語音信號中的噪聲進行抑制,以提取到感興趣的信息。而語音增強的效果最終也是通過人的主觀感受體現(xiàn)的,因此隨著對

65、人聽覺系統(tǒng)生理的研究深入,基于聽覺感知的語音增強算法得到了長足的發(fā)展。</p><p>  人耳的聽覺主要特性:</p><p>  (1) 人耳對語音的感知是通過語音信號中各個頻譜分量幅度獲取的,它對各頻譜分量的相位不敏感。</p><p>  (2) 人耳對頻譜分量強度的感受是頻率和能量譜的二元函數(shù),響度與頻譜幅度的對數(shù)成正比。</p><p

66、>  (3) 人耳對頻率高低的感受與頻率的對數(shù)值近似成正比關(guān)系。</p><p>  (4) 人耳有掩蔽效應(yīng),即強信號對弱信號有掩蓋的抑制作用。掩蔽的程度滿足聲音強度與頻率的二元函數(shù)關(guān)系,對頻率臨近分量的掩蔽要比頻差大的分量有效得多。</p><p>  (5) 短時譜中的共振峰對語音感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對語音信號進行一定程度的高通濾波不會對可懂度

67、造成影響。</p><p>  (6) 人耳在多人同時說話時可以分辨出需要聆聽的聲音。</p><p>  近年來許多語音增強算法都利用了聽覺特性,例如模仿噪聲掩蔽效應(yīng),當信號能量低于噪聲能量時,令所有濾波器的輸出等于噪聲電平?;蛘邔⒄Z音譜分成符合人耳聽覺特性的子帶(利用Bark子波變換等),在每個子帶中分別估計噪聲特性和濾波以增強語音。</p><p>  4.

68、基于多分辨率分析的語音增強</p><p>  假設(shè)輸入信號受白噪聲干擾,此時,其產(chǎn)生的Lipschitz指數(shù)是負的?;诙喾直媛史治隹芍鶕?jù)連續(xù)尺度上子波變換的極大性可以區(qū)分信號的屬J勝。如果子波變換模極大值處的幅度隨尺度s減小而急劇增大,則表明所對應(yīng)的Lipschitz指數(shù)是負的,它由噪聲產(chǎn)生,應(yīng)予消除。在信號具有正Lipschitz指數(shù)處,噪聲加入的是負Lipschitz。此時信號與噪聲的和可能為負數(shù)。如

69、果帶噪信號極大值處的幅度比噪聲要大,則在大尺度上信號產(chǎn)生的模極大值就可以從噪聲產(chǎn)生的模極大值中區(qū)分出來,當尺度減小時,它們的幅度增長很少。</p><p>  在輸入信號的子波變換域中,對微分過零點處的信號刪除其隨尺度減少而幅度平均增長的所有極大點,或者在當前尺度上終止的極大點,也可以實現(xiàn)降噪的目的。</p><p>  隨著信號處理理論的發(fā)展,其他各種利用語音分類知識的有限迭代算法、變換

70、域去噪算法,如小波去噪(小波域內(nèi)區(qū)分污染語音的清濁音,分別用門限進行不同的處理,然后將去噪后的小波系數(shù)反變換)等新技術(shù)正在逐步應(yīng)用到語音信號處理中。</p><p>  除了上面提及的語音增強算法外,基于子空間的語音增強算法近年來有了很大發(fā)展,在提高帶噪語音的語音質(zhì)量和可懂度方面表現(xiàn)出很大的優(yōu)越性。子空間語音增強算法極大地避免了人為附加噪聲的產(chǎn)生,比如在短時譜估計算法中不可避免的“音樂噪聲’,。子空間增強算法是將

71、語音信號看成K維向量空間,并將帶噪信號分解為不相關(guān)的信號空間和噪聲空間,以此消除噪聲。這種方法主要利用基于特征值分解的KL變換對語音信號進行分解,通過對信號失真誤差和殘留噪聲兩種判別函數(shù)的控制以平衡語音質(zhì)量和可懂度。KL變換是最小均方誤差意義下的最優(yōu)變換。我們已經(jīng)對“基于子空間的增強算法”進行了仿真實驗,結(jié)果表明此方法要明顯優(yōu)于短時幅度譜分析的方法。主要表現(xiàn)在對語音的破壞性小,巨幾乎不會造成其它算法容易產(chǎn)生的“音樂噪聲”。</p&

72、gt;<p>  由于子空間算法具有上述提到的優(yōu)點,因此我們采用子空間技術(shù)進行語音增強。本文對基于子空間的語音增強算法進行了系統(tǒng)和深入的研究。</p><p><b>  子空間語音增強算法</b></p><p>  經(jīng)典的檢測理論中有一項信號子空間處理技術(shù)。在M類信號進行檢測時,構(gòu)造由M類信號張成的信號子空間,并在子空間中使用M個經(jīng)過KL變換后的分量

73、實現(xiàn)對信號的檢測。譜估計和陣列信號處理大量使用了這種信號子空間處理技術(shù)。</p><p>  語音信號處理的大量實驗表明,語音矢量的協(xié)方差矩陣有很多零特征值,這說明干凈語音信號矢量的能量分布在它對應(yīng)空間的某個子集中。而語音信號處理中,噪聲方差通常都假設(shè)己知,且嚴格正定。噪聲矢量存在于整個帶噪信號張成的空間中。因此帶噪語音信號的矢量空間可以認為由一個信號加噪聲的子空間和一個純噪聲的子空間構(gòu)成??梢岳眯盘栕涌臻g處理

74、技術(shù),消除純噪聲子空間,并對語音信號進行估計,實現(xiàn)語音增強。子空間方法是通過空間分解,將整個空間劃分為兩個獨立子空間,即噪聲子空間和疊加噪聲的信號子空間,然后對噪聲子空間和信號子空間進行處理以實現(xiàn)語音增強。</p><p>  3.1 信號子空間原理</p><p>  在信號與噪聲子空間分解算法中先對信號進行一些假設(shè):</p><p>  1. 噪聲與語音信號都是

75、零均值的隨機過程。</p><p>  2. 認為語音信號在短時內(nèi)是平穩(wěn)的。</p><p>  3. 噪聲與語音信號是正交的。</p><p>  4. 噪聲是一個隨機的白噪聲。</p><p>  5. 所有信號的相關(guān)矩陣是各態(tài)歷經(jīng)的,即可以用時間平均來代替統(tǒng)計平均。</p><p>  3.1.1 語音信號的線性

76、模型</p><p>  設(shè)語音信號s通過一無失真通道,受到加性噪聲n的污染。則帶噪語音 y 可以用下式表示:</p><p><b>  (3-1)</b></p><p>  這里,,,信號觀測的長度為K ,因此向量s,n, y 可以視為空間的一部分。</p><p>  語音增強系統(tǒng)就是要利用這一單通道的帶噪信號恢

77、復(fù)出原始純凈語音。設(shè)信號與噪聲都假定為零均值的隨機過程。幀長為K 的純凈語音信號其線性模型如下式所示:</p><p><b>  (3-2)</b></p><p>  其中,是零均值隨機變量序列,是 K 維基向量,且線性獨立,即矩陣V 的秩等于M 。</p><p>  3.1.2 信號與噪聲子空間</p><p>

78、  設(shè)K維帶噪語音向量表示為:</p><p><b>  (3-3)</b></p><p><b>  其協(xié)方差矩陣為:</b></p><p><b>  (3-4)</b></p><p>  這里,是噪聲向量的協(xié)方差矩陣。在白噪聲的情況下,即。對進行特征值分解,即。這

79、里是特征向量組成的正交矩陣。為的特征值矩陣。由于矩陣的所有特征值全為,則矩陣的特征向量即為矩陣和的特征向量。矩陣的秩為M ,則具有M個正的特征值和K-M個零特征值。不失一般性,假定的 M個正特征值是,其相應(yīng)的特征向量為。為方便起見,假定以降序排列,即。特征值分解(3-4)式中的三個協(xié)方差矩陣,可得:</p><p><b>  (3-5)</b></p><p>  

80、因此矩陣的特征值分解由下式給出:</p><p>  (3-6) </p><p><b>  (3-7)</b></p><p><b>  (3-8)</b></p><p>  矩陣的特征值分解由下式給出:</p><p><

81、b>  (3-9)</b></p><p><b>  (3-10)</b></p><p><b>  (3-11)</b></p><p>  和其對應(yīng)的特征向量分別稱為矩陣的主特征值和主特征向量。令,為 K × M維矩陣,由矩陣的主特征向量組成,即:</p><p>

82、;<b>  (3-12)</b></p><p>  由于矩陣U是矩陣的特征向量矩陣,因而U 是正交矩陣,所以有:</p><p><b>  (3-13)</b></p><p>  容易看出矩陣是冪矩陣和哈密頓矩陣,根據(jù)正交投影矩陣的定義,這是一個正交投影矩陣,它將信號投影到由的列向量所張成的子空間中。因此即為投影到

83、該子空間的正交投影矩陣,而且有spanU = spanV,我們稱這一子空間為信號子空間。與其互補的正交子空間是由矩陣的列向量所張成的子空間即為噪聲子空間,是投影到噪聲子空間的正交投影矩陣。</p><p>  根據(jù)(3-13)式,帶噪語音向量z可以分解為:</p><p><b>  (3-14)</b></p><p>  這里認是向量 y

84、到信號子空間的正交投影,是向量y到噪聲子空間的正交投影。此處兩個投影的系數(shù)向量和分別來自即向量 y 的KL變換。在這里,由于有:</p><p><b>  (3-15)</b></p><p><b>  (3-16)</b></p><p><b>  (3-17)</b></p>

85、<p>  即向量中的語音信號能量為零,在估計純凈語音信號時,此向量可以被去除掉。</p><p>  3.2 語音信號估計</p><p>  子空間語音增強算法是從帶噪語音中估計出純凈語音信號,有兩種線性估計器。時域約束估計器(TDC)和頻域約束估計器(SDC)。</p><p>  3.2.1時域約束估計器</p><p> 

86、 時域約束估計器(TDC)是一種線性估計器,約束每一幀的噪聲殘差能量在一門限值下使得信號失真最小。在加性噪聲干擾的信號模型中,假設(shè)語音信號和噪聲信號互不相關(guān),設(shè)帶噪語音為:</p><p><b>  (3-18)</b></p><p>  其中,Y ,S 和 N 分別為 k 維帶噪語音矢量、純凈語音矢量和噪聲信號矢量,令,和分別表示Y ,S 和 N 的協(xié)方差矩陣,

87、令是純凈語音Y的線性估計, H 為k×k維線性估計矩陣。則估計值與真實值的誤差由下式給出:</p><p><b>  (3-19)</b></p><p>  其中,和分別表示語音信號的失真和增強后殘留的噪聲,相應(yīng)的能量分別為:</p><p><b>  (3-20)</b></p><p

88、><b>  (3-21)</b></p><p>  求解下面時域約束條件(TDC)下的方程,就可以得到優(yōu)化的線性估計器:</p><p><b>  (3-22)</b></p><p>  這里。在可接受的噪聲殘差水平下,該估計矩陣能夠最小化語音信號失真。</p><p>  對于參數(shù)α

89、>1的情況,依然可得到最優(yōu)估計器H=I滿足式(3-22)的約束方程,并給出最小的信號失真,但是殘留噪聲最大。對于(3-22)式的約束最優(yōu)化問題可以用Lagrange乘子法來解決,滿足如下的Lagrang梯度方程:</p><p><b>  (3-23)</b></p><p><b>  (3-24)</b></p><

90、;p>  由梯度可以求得最優(yōu)估計器為:</p><p><b>  (3-25)</b></p><p><b>  在白噪聲的情況下:</b></p><p><b>  (3-26)</b></p><p>  這里μ 是Lagrange算子,由(3-24)式得:&l

91、t;/p><p><b>  (3-27)</b></p><p>  將(3-21)式和(3-26)式代入(3-27),可得參數(shù)μ必須滿足的條件,即參數(shù)μ和α 的關(guān)系為:</p><p><b>  (3-28)</b></p><p>  因此,由(3-26)式和(3-28)式可以看出,最優(yōu)估計矩陣

92、實際上是一個具有可調(diào)噪聲輸入水平的Wiener濾波器。</p><p>  對(3-26)式中的協(xié)方差矩陣應(yīng)用特征值分解,即,可將最優(yōu)估計器改寫如下:</p><p><b>  (3-29)</b></p><p><b>  (3-30)</b></p><p><b>  可得:

93、 </b></p><p><b>  (3-31)</b></p><p><b>  其中:</b></p><p><b>  (3-32)</b></p><p>  根據(jù)和式(3-31),可通過對帶噪信號進行KL變換:即左乘矩陣,再將變換的結(jié)果乘以一個增益

94、矩陣G ,然后對所得結(jié)果進行 KL 逆變換即左乘矩陣U,最后可得到增強的語音信號。</p><p>  從而,純凈語音的估計為:</p><p><b>  (3-33)</b></p><p>  3.2.2頻域約束估計器</p><p>  頻域約束估計器(SDC)是一種線性估計器,該估計器保持每一頻譜分量處的噪聲殘

95、差能量在一給定門限值下使得信號失真最小??梢宰寶埐钚盘柕念l譜與語音頻譜相似,這樣得到的殘差信號可以被語音信號所掩蔽。假設(shè)殘差信號的第K個頻譜分量為,當 k =1M時,約束的能量小于或等于 ,其中 ;當 k=M+1,,K時,噪聲子空間中的信號能量為零,因此的能量為零。</p><p>  由上述可得求頻域約束估計器(SDC)的最優(yōu)化方法,即:</p><p><b>  (3-34

96、)</b></p><p><b>  (3-35)</b></p><p><b>  (3-36)</b></p><p>  采用類似于時域約束的優(yōu)化過程,可以證明最優(yōu)估計矩陣H滿足下面的梯度方程:</p><p><b>  (3-37)</b></p

97、><p>  其中, ,是Lagrange算子的對角矩陣。定義</p><p>  ,將的特征值分解代入(3-37)式,可得:</p><p><b>  (3-38)</b></p><p>  如果Q是對角矩陣,對角線上元素為:</p><p><b>  (3-39)</b>

98、;</p><p>  則殘差信號頻譜能量的估計值為:</p><p><b>  (3-40)</b></p><p>  如果(3-35)式中的等號成立,則:</p><p><b>  (3-41)</b></p><p><b>  (3-42)</b

99、></p><p>  當時,根據(jù)和式(3-41)與式(3-42),就可以得到最優(yōu)估計矩陣。由于估計矩陣是線性的,且已知輸入、輸出信號的頻譜,因此其增益可由的值確定。其中,輸入噪聲為白噪聲,其頻譜為,輸出殘差噪聲的非零頻譜為。理論上的選擇可以和信號與噪聲相獨立。在這種情況下信號和噪聲的二階統(tǒng)計量只在KL變換中影響估計器的性能??梢园聪率竭x取:</p><p><b>  (

100、3-43)</b></p><p>  其中,是一個經(jīng)驗常數(shù)。和Y相似,v的值也確定了噪聲抑制程度和信號失真程度。當v增大時,殘差噪聲下降,而信號失真增大。</p><p>  從而,純凈語音的估計為:</p><p><b>  (3-44)</b></p><p>  3.3 子空間語音增強方法</

101、p><p>  子空間語音增強算法就是通過含噪語音分解為語音子空間和噪聲子空間,并</p><p>  將含噪聲語音投影到語音子空間中,以該投影作為語音信號的估計值。本文采用了時域估計約束器和頻域約束估計器的方法。并且假定語音信號僅僅位于信號子空間中,因此,僅用信號子空間中的語音信號分量來估計原始的語音信號。</p><p>  這里我們討論如何應(yīng)用子空間增強算法從帶噪

102、語音中估計出純凈語音信號,采用兩種線性估計器。一種為時域約束估計器,該線性估計器約束每一幀的噪聲殘差能量在一門限值下使得信號的失真最小;一種為頻域約束估計器,該線性估計器保持每一頻譜分量處的噪聲殘差能量在一給定門限值下使得信號失真最小。</p><p>  時域約束估計器(TDC)和頻域約束估計器(SDC)增強方法原理</p><p>  時域約束估計器(TDC)和頻域約束估計器(SDC)

103、的子空間語音增強方法原理圖為:</p><p>  圖3.1 子空間語音增強原理圖</p><p>  時域約束估計器(TDC)和頻域約束估計器(SDC)增強方法具體步驟:</p><p>  步驟1:帶噪語音進行KL變換,得到子空間域中的帶噪語音的特征向量U和特 </p><p><b>  征值。</b></p

104、><p>  步驟2:估計噪聲特征值,一般取帶噪語音前3000點求其方差的平均值作</p><p>  為噪聲的特征值估計值。</p><p>  步驟3:帶噪語音特征值減去噪聲特征值,得純凈語音特征值,由(3-32) </p><p>  得到時域約束估計器(TDC)增益G,由(3-43)可以得到頻域約束估計器 </p><

105、p><b>  (SDC)增益G。</b></p><p>  步驟4:由KL逆變換可得最優(yōu)估計器。由可得純凈語音的估計</p><p><b>  。</b></p><p>  TDC和SDC的語音增強實驗仿真</p><p>  根據(jù)時域(頻域)約束條件,推導(dǎo)出語音信號失真最小情況下的線

106、性最優(yōu)估計器。由于采用了不同的約束條件,使得使用時域和頻域兩種不同的約束條件語音增強的效果會有差別。所以用MATLAB對高斯白噪聲背景下的時域約束估計器(TDC)和頻域約束估計器(SDC)的子空間語音增強方法進行實驗仿真,并對結(jié)果進行比較分析。</p><p>  4.1用時域約束估計器(TDC)的子空間語音增強方法進行實驗仿真</p><p><b>  實驗所用數(shù)據(jù):<

107、/b></p><p>  語音為錄制的,內(nèi)容為“畢業(yè)論文”(.wav)格式語音,噪聲為高斯白噪聲,語音信號的幀長為80,幀疊為50%,計算Toeplitz協(xié)方差矩陣時用到的前后相鄰的幀數(shù)為4。</p><p>  2. 仿真所選標準:波形圖,信噪比。</p><p>  3. 仿真結(jié)果如下:</p><p> ?。?)對SNR=0的帶

108、噪語音,采用時域約束估計器(TDC)的算法得到增強后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.1 SNR=0的帶噪語音TDC實驗仿真結(jié)果</p><p>  語音增強前后SNR的比較:</p><p>  SNR before =-0.0494</p><p>  S

109、NR after = 9.8197</p><p> ?。?)對SNR=5的帶噪語音,采用時域約束估計器(TDC)的算法得到增強后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.2 SNR=5的帶噪語音TDC實驗仿真結(jié)果</p><p>  語音增強前后SNR的比較:</p><

110、;p>  SNR before =4.9602</p><p>  SNR after =13.2505</p><p> ?。?)對SNR=10的帶噪語音,采用時域約束估計器(TDC)的算法得到增強后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.3 SNR=10的帶噪語音TDC實驗仿真結(jié)

111、果</p><p>  語音增強前后SNR的比較:</p><p>  SNR before =9.9850</p><p>  SNR after =16.6114</p><p> ?。?)對SNR=15的帶噪語音,采用時域約束估計器(TDC)的算法得到增強后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5

112、,u=4;</p><p>  圖4.4 SNR=15的帶噪語音TDC實驗仿真結(jié)果</p><p>  語音增強前后SNR的比較:</p><p>  SNR_before =15.0329</p><p>  SNR_after =19.5112</p><p> ?。?)對SNR=20的帶噪語音,采用時域約束估計器

113、(TDC)的算法得到增強后仿真結(jié)果如下:</p><p>  參數(shù)選擇:v=0.5,u=4;</p><p>  圖4.5 SNR=20的帶噪語音TDC實驗仿真結(jié)果</p><p>  語音增強前后SNR的比較:</p><p>  SNR before =20.0011</p><p>  SNR after =21

114、.5044</p><p>  4.2用頻域約束估計器(SDC)的子空間語音增強方法進行實驗仿真</p><p><b>  1.實驗所用數(shù)據(jù):</b></p><p>  語音為錄制的,內(nèi)容為“畢業(yè)論文”(.wav)格式語音,噪聲為5dB的高斯白噪聲,語音信號的幀長為80,幀疊為50%,計算Toeplitz協(xié)方差矩陣時用到的前后相鄰的幀數(shù)為2

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論