版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、語音端點檢測的方法,演講者:劉德體,語音端點檢測的目的和意義基于短時能量和短時平均過零率的端點檢測基于倒譜特征的端點檢測基于熵的端點檢測基于復雜性的端點檢測(KC復雜性和C0復雜性)不同語音端點檢測方法的實驗結果對比,語音端點檢測的目的和意義,目的 語音信號端點檢測技術其目的就是從包含語音的一段信號中準確地確定語音的起始點和終止點,區(qū)分語音和非語音信號,它是語音處理技術中的一個重要方面。意義 有效
2、的端點檢測技術不僅能在語音識別系統(tǒng)中減少數(shù)據(jù)的采集量,節(jié)約處理時間,還能排除無聲段或噪聲段的干擾,提高語音識別系統(tǒng)的性能,而且在語音編碼中還能降低噪聲和靜音段的比特率,提高編碼效率。,基于短時能量和短時平均過零率的端點檢測,短時能量 語音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語音段的能量比噪聲段能量大,語音段的能量是噪聲段能量疊加語音聲波能量的和。在信噪比很高時,那么只要計算輸入信號的短時能量或短時平均幅度就能夠把語音段
3、和噪聲背景區(qū)分開。這是僅基于短時能量的端點檢測方法。 信號{x(n)}的短時能量定義為: 語音信號的短時平均幅度定義為: 其中w(n)為窗函數(shù)。,短時平均過零率 短時過零表示一幀語音信號波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時域分析中最簡單的一種。對于連續(xù)語音信號,過零意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值的改變符號稱
4、為過零。過零率就是樣本改變符號次數(shù)。 信號{x(n)}的短時平均過零率定義為: 式中,sgn為符號函數(shù),即:,過零率有兩類重要的應用:第一,用于粗略地描述信號的頻譜特性;第二,用于判別清音和濁音、有話和無話。從上面提到的定義出發(fā)計算過零率容易受低頻干擾,特別是50Hz交流干擾的影響。解決這個問題的辦法,一個是做高通濾波器或帶通濾波,減小隨機噪聲的影響;另一個有效
5、方法是對上述定義做一點修改,設一個門限T,將過零率的含義修改為跨過正負門限。 于是,有定義:,檢測方法 利用過零率檢測清音,用短時能量檢測濁音,兩者配合。首先為短時能量和過零率分別確定兩個門限,一個是較低的門限數(shù)值較小,對信號的變化比較敏感,很容易超過;另一個是比較高的門限,數(shù)值較大。低門限被超過未必是語音的開始,有可能是很短的噪聲引起的,高門限被超過并且接下來的自定義時間段內的語音超過低門限,意味著信號
6、開始。 此時整個端點檢測可分為四段:靜音段、過渡段、語音段、結束。實驗時使用一個變量表示當前狀態(tài)。靜音段,如果能量或過零率超過低門限,就開始標記起始點,進入過渡段。過渡段當兩個參數(shù)值都回落到低門限以下,就將當前狀態(tài)恢復到靜音狀態(tài)。而如果過渡段中兩個參數(shù)中的任一個超過高門限,即被認為進入語音段。處于語音段時,如果兩參數(shù)降低到門限以下,而且總的計時長度小于最短時間門限,則認為是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù),否則標一記
7、結束端點。,數(shù)字“4”的短時能量與平均過零率,基于倒譜特征的端點檢測,概念 信號倒譜的一種定義是信號的能量譜密度函數(shù)S(ω)的對數(shù)的傅里葉反變換,或者可以將信號s(n)的倒譜c(n)看成是logS(ω)的傅里葉級數(shù)展開,即: 式中Cn=C-n為實數(shù),通常稱為倒譜系數(shù),且,對于一對譜密度函數(shù)S(w)與S’(w) ,利用Parseval定理,其對數(shù)譜的均方距離可用倒譜距離表示:
8、 式中,Cn與C’n分別代表譜密度函數(shù)S(w)與S’(w)的倒譜系數(shù)。,方法: 倒譜距離的測量法步驟類似于基于能量的端點檢測,只是將倒譜距離代替短時能量來作為特征參數(shù)。首先,假定前幾幀信號是背景噪聲,計算這些幀的倒譜系數(shù),利用前幾幀倒譜系數(shù)的平均值可估計背景噪聲的倒譜系數(shù),噪聲倒譜系數(shù)的近似值可按下述規(guī)則進行更新,即當前幀被認為是非語音幀: 式中 為噪聲倒譜系數(shù)的近似值,
9、 為當前測試幀的倒譜系數(shù),p為調節(jié)參數(shù)。 倒譜距離可用下式近似計算: 式中 對應于 的噪聲倒譜系數(shù),計算所有測試幀與背景噪聲之間的倒譜距離可得到倒譜距離軌跡類似于基于能量的端點檢測過程利用倒譜距離軌跡可檢測語音的端點。,基于熵的端點檢測,基于信息熵的檢測方法 對于離散型信源,當它由若干隨機事件所組成時,隨機事件出現(xiàn)的不確定度用其出現(xiàn)的概率來描述。事件出現(xiàn)的可能性愈小,概率就愈
10、小,·而所含信息量卻愈大;相反,事件出現(xiàn)可能性愈大,概率就愈大,而所含信息量卻愈小。則信源提供的平均信息量為: 這里所定義的H(x)就是信息熵。,由于語音信號的幅度相對于背景噪聲而言其幅度的動態(tài)范圍大。因此可以認為語音信號在范圍(一M,M)中的隨機事件大,也就是熵值大,而無聲狀態(tài)(信號中只含噪聲)的幅度小、分布相對集中,因而熵值小。 按照以上原理,在構造出了熵函數(shù)之后就可只計算出每幀信號
11、的信息熵(幅度熵)。假設語音信號S(n)的幀長為N,在一幀語音中最大幅度值與最小幅度值分別為M、一M,分別統(tǒng)計這一區(qū)域中S(n)=Si,Si∈(一M,M)出現(xiàn)的次數(shù)ni,并將比例ni/N作為出現(xiàn)Si這一值的概率:Pi= ni/N。將Pi代入前面的熵函數(shù)公式,即可得到語音信號的熵函數(shù)曲線。背景噪聲信號的幅度熵的值較小而濁音信號的幅度熵值比較大,因此可以進行端點檢測。首先通過實驗確定一個閾值h,然后對每幀語音的熵值進行比較,認為熵值大于等于
12、h時為語音幀,小于h則為無聲幀,即可檢測出語音信號的端點。,基于譜熵的檢測方法 譜熵方法與信息嫡方法有著相似之處,信息熵方法是在時域內對信號進行熵值統(tǒng)計和計算,譜熵檢測方法是從語音信號的頻域來進行計算,然后從頻譜分布概率來進行語音端點的檢測。 譜熵的計算方法如下:首先通過快速傅立葉變換(FFT)得到每一幀信號的頻譜,其中每個頻譜向量的系數(shù)表明了該幀信號在該頻率點的大小分布。然后計算每個頻譜分量在每幀總能量中
13、所占的比例,將其作為信號能量集中在某頻率點的概率,其概率密度函數(shù)定義為: 式中,S(fi)是fi的能量,Pi是相應的概率密度,N是FTF中頻率成分的所有點數(shù)。由于語音信號的絕大部分能量集中200Hz~350OHZ之間,所以,為了集中計算譜熵以增加語音和非語音在概率密度函數(shù)中的區(qū)分性,我們把200HZ~3500Hz之外的頻率分量置為0,即:,相應的每一幀的譜熵定義如下: 通過熵函數(shù)就可以計算每幀
14、語音信號的譜熵,并跟閾值比較,就可以檢測出語音的起止點。,基于復雜性的端點檢測(KC復雜性和C0復雜性),復雜性,Kolmogorov復雜度 即KC復雜性,它可以用來衡量序列的復雜程度如何,LemPel和Ziv定義了由有限集合的元素所構成的有限序列的復雜度C(n),它反映了序列接近隨機的程度,按有限序列從頭開始反復進行以下操作:每次添加一個元素構成一個檢驗子串,如果該子串在除去最后添加的那個元素之前所構成的序列中已出現(xiàn)過,
15、那么所構成的新序列的復雜度保持不變,并繼續(xù)添加元素,直到由上述相繼添加元素所構成的添加子串在除去最后添加的那個元素之前所形成的整個序列中從未出現(xiàn)過為止,此時整個序列的復雜度增加一,當往后繼續(xù)添加元素時重新建立新的檢驗子串,如此反復進行,直到結束。如果最后一個檢驗子串在除去末尾一個元素之前的序列中出現(xiàn)過,復雜度也仍然加一。,具體來說,分以下幾個步驟: 假如有一數(shù)列(x1,x2,…xn),首先求得這個數(shù)列的平均值m,再把這個數(shù)
16、列重構。大于平均值m的值,令它們?yōu)?,小于平均值m的,令之為0,這樣,就構成了(S1,S2,…Sn)新的(0,1)序列。 在這樣的(0,1)序列中已形成的一串字符S=s1,s2,…sr后,再加稱之為Q的一個或一串字符Sr+1或者(Sr+1,Sr+2,…Sr+k),得到SQ,令SQπ是一串字符SQ減去最后的一個字符,再看Q是否屬于SQπ字符串中已有的“字句”。如果已經(jīng)有過,那么把這個字符加在后面稱之為“復制”,如果沒有出現(xiàn)過
17、,則稱之為“插入”,“插入”時用一個“.”把前后分開;下一步則把“.”前面的所有字符看成S,再重復如上步驟。,例如,序列0010的復雜度可以由下列步驟而得: 第一個符號永遠是插入:0. S=0,Q=0,SQ=00,SQπ=0,Q屬于SQ→0.0 S=0,Q=01,SQ=001,SQπ=00,Q不屬于SQ→0.01. S=001,Q=0,SQ=0010,SQπ=001,Q屬于SQ→0.01.0,這時 C(
18、n)=3。 如符號列0000…應是最簡單的,它的形式應是0.00000…,C(n)=2。符號列01010101…應是0.1.0101…,C(n)=3。 如上所述,就得到用“.”分成段的字符串。分成了段的數(shù)目就定義為“復雜度”C(n)。,根據(jù)Lmapel和Ziv的研究,對幾乎所有的x屬于[0,1]區(qū)間的c(n)都會趨向一個定值: 其中b(n)是隨機序列的漸進行為,用它來使c(n)歸一化,稱為
19、“相對復雜度”。 定義相對復雜度: 通常就是用這個函數(shù)來表達時間序列的復雜性變化。從這種算法可以看出,完全隨機的序列C(n)值趨向于1,而有規(guī)律的周期運動的C(n)值則趨向于0。,檢測方法 (1)對語音信號進行分幀、加窗,求解FFT變換,得其頻率分量 x(k); (2)重構語音信號,首先根據(jù) ,其中1≤k<N求得語音
20、信號頻譜均值,然后按照如下公式進行語音重構 (3)對重構后的語音信號x’(k)按所示流程圖分別求出每幀的KC復雜 度。,C0復雜性 一般認為復雜運動可以是由規(guī)則運動和隨機運動混合而成的。隨機運動所占的分額,就是C0復雜性描述的基礎。假設有一復雜運動的時間序列x(t),它包含了規(guī)則運動部分的時間序列及隨機運動時間序列。它們是怎樣組成x(t)的是一個復雜過程。假設規(guī)則運動部分時間序列為xl(t),它
21、與x(t)的關系為函數(shù)f(x),于是有: 從x(t)中去掉x1(t),剩余部分就是隨機運動部分。簡單的,設有一變換g(x),使得: A0代表了整個復雜運動時間序列的某種量度,而A1則代表了隨機運動部分時間序列所占的份額。,由此,可定義復雜性為: 顯然,當x1(t)在x(t)中所占份額很大時,C0趨向于O。說明系統(tǒng)的動力學行為幾乎是規(guī)則的不含隨機成分。反之,當x1(t)所占
22、份額很小而隨機運動部分時間序列所占的份額很大時,C0趨向于1時,說明系統(tǒng)的動力學幾乎是完全隨機的。所以,隨著C0的增加,意味著動力學中的隨機成分增加。,步驟 (1)對x(n)作離散傅立葉變換F(●),有: X(k)=F[x(n)] (2)可求出幅度譜的平均值 , k為頻域變量,N為X(k)的長度,即k的最大值。大于平均值的頻率成分被認為
23、是規(guī)則部分的貢獻,小于或等于平均值的成分則是隨機部分的貢獻,這里只取規(guī)則部分的貢獻。,(3)對規(guī)則部分貢獻的頻譜X’(k)作傅立葉反變換 ,即得 x1(n)。 所以有: 至此,求得了x1(n),即規(guī)則部分時間序列。 (4)利用公式 求得復雜度C0 。,不同語音端點檢測方法的實驗結果
24、對比,實驗條件(1)英文數(shù)據(jù)庫,(2)中文數(shù)據(jù)庫(3)孤立詞庫,中文數(shù)據(jù)庫的采集由學生,都說普通話,個別人略帶地方色彩。因語音信號主要集中在300一3400Hz,所以采用44100Hz的采樣率,采樣位數(shù)16位,采樣通道選用立體聲,每人讀5次,每次通讀十個詞語一遍。共有250個有效測試session共有830MB的數(shù)據(jù)量。說話內容選擇的詞語考慮到了漢語中各個元音、輔音、摩擦音、爆破音和鼻音等各個不同的漢語因素。,孤立詞中文數(shù)據(jù)
25、庫采集由50名大學學生,一般發(fā)音標準,個別人略帶地方色彩,語音信號主要集中在300一3400Hz,采用44100Hz的采樣頻率,采樣位數(shù)16位,采樣通道選用立體聲,讀26個英文字母,每次讀一個英文字母,每人每個字母讀2次。共有2600個有效測試孤立session,共有200MB的數(shù)據(jù)量。,實驗結果,實驗結果分析 在高信噪比的條件下,上述方法大部分都能正常工作,端點檢測的準確率都比較高,但是隨著信噪比的降低,基于能量和基
26、于倒譜距離的語音端點檢測方法檢測準確率急速降低,在低信噪比條件,這兩種方法顯然已經(jīng)不能正常的工作。下面再看另外幾種的比較:,(1)在穩(wěn)定白噪聲條件下,SNR從30dB下降到0dB的過程中,C0復雜度優(yōu)于KC復雜度,KC復雜度優(yōu)于譜熵。在30dB時,三種方法檢測準確度都可以達到100%,但在OdB時,譜熵只有57%的準確率,KC有70%的準確率,而C0復雜度還能達到82%的準確率。 (2)在非穩(wěn)定噪聲中的辦公室噪音條件下,C0復雜
27、度優(yōu)于譜熵,譜熵優(yōu)于KC復雜度。在30dB時,三種方法檢測準確度都可以達到100%,但在0dB時,KC復雜度和譜熵都只有40%左右的準確率,而C0復雜度還是有65%的準確率。 所以用譜熵,KC復雜度和C0復雜度進行端點檢測的方法都適用于信噪比較小的環(huán)境下的語音端點檢測,但當信噪比降到一定程度時,譜熵,KC復雜度將不適用,而基于C0復雜性特征的端點檢測法能夠有效的克服噪聲環(huán)境對語音端點檢測系統(tǒng)的影響,適合強健語音識別系統(tǒng)的要求。,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 語音端點檢測方法研究.pdf
- 帶噪語音端點檢測方法的研究.pdf
- 語音信號端點檢測方法的研究.pdf
- 噪聲背景下的語音端點檢測方法研究.pdf
- 基于HMM的噪聲語音端點檢測方法研究.pdf
- 基于長時特征的語音端點檢測方法研究.pdf
- 低信噪比環(huán)境下語音端點檢測方法研究.pdf
- 語音端點檢測技術研究.pdf
- 語音通信中語音端點檢測技術的研究.pdf
- 基于統(tǒng)計模型的語音端點檢測.pdf
- 噪聲環(huán)境下語音信號端點檢測的方法研究.pdf
- 基于卷積神經(jīng)網(wǎng)絡的語音端點檢測方法研究.pdf
- 漢語連續(xù)語音端點檢測技術的研究.pdf
- 語音信號端點檢測算法研究.pdf
- 強噪聲環(huán)境下語音信號端點檢測方法研究.pdf
- 帶噪語音端點檢測算法的研究.pdf
- 自適應的語音端點檢測技術研究.pdf
- 語音信號端點檢測算法的研究.pdf
- 基于音頻和視覺特征的語音端點檢測.pdf
- 語音信號端點檢測的技術研究.pdf
評論
0/150
提交評論