htkbook第二篇htk深度探索

上傳人：奔*** IP屬地：河北更新時間：2024-03-16 格式：doc 頁數(shù)：38 大?。?.18MB 人氣指數(shù)：12 舉報 版權(quán)申訴

已閱讀1頁，還剩37頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、第一章第一章 HTK 基礎(chǔ) 基礎(chǔ)1.5 識別和識別和 Viterbi 解碼解碼前面介紹了 HMM 參數(shù)估計所使用的 BW 算法。在前向算法中，表示的是對于特定模型 M，觀察到向量 o1 到 ot，并且在時刻 t 處于狀態(tài) j 的概率。這是一個確定的值，通過累加所有的前一個狀態(tài)到狀態(tài) j 的轉(zhuǎn)移，可以得到前向概率的計算方式這里介紹 Viterbi 算法。識別，基于最大似然的狀態(tài)序列，這種方法可以很好地用于連續(xù)語音，如果使用總概率

2、就很難做到。這個概率的計算，本質(zhì)上和前向概率的計算一樣，只不過，前向概率在每一步都是求和操作，這里每一步都是一次最大化操作。對于給定的模型 M，假定表示給定模型 M，觀察到向量 o1 到 ot，并且在時刻t 處于狀態(tài) j 的概率最大，就是這個最大概率。這個概率可以使用下面的迭代公式計算。也許要問了，難道這個值不是固定的嗎？怎么還存在一個最大概率？難道還有其它值嗎？答：在前向概率計算中，每個觀察向量都對每個狀態(tài)作出某種程度的貢獻，

3、這個程度，也就是該觀察向量，處于狀態(tài) i 的概率。假設(shè)有 N 個狀態(tài)，那么每個時間點 t 的觀察向量，都對 N 個狀態(tài)有所貢獻，因此對每一個狀態(tài)，需要將每個時間點的貢獻累積起來，計算均值和協(xié) 方差。但是，每個時間點 t 的觀察向量，對每個狀態(tài)的貢獻程度是不同的，肯定有一個最大的概率，也就是說，最可能對應(yīng)的是哪個狀態(tài)？這樣，就認為這個觀察向量只屬于此狀態(tài)，只用于此狀態(tài)的參數(shù)計算。這就是 Viterbi 算法的思想。上面公式的含義，是

4、對于所有的狀態(tài) i∈N，求時間 t 處觀察向量概率最大的狀態(tài) j。在時間 t 處，觀察到 o1 到 ot，并且處于某狀態(tài)的概率是所有狀態(tài)中的最大值。這么理解也不完全正確。對于任何狀態(tài) j∈N，在每個時間 t 處，都可以計算的值，也就是說，每個狀態(tài)都有這個值。最大化操作，實際上是針對前一個時間點 t-1 的，要找一個 t-1 時刻使得最大的狀態(tài) i，使用這個狀態(tài) i 的和 aij 的乘積，作為比較依據(jù)，取一個最大值得 i。這里的

5、最大化操作，是針對狀態(tài) i 的，也就是說，從一個唯一的 t-1 時刻的狀態(tài) i，來得到狀態(tài) j 的值。以上理解錯誤，最大化操作還是針對時間 t 的，也就是當(dāng)前步驟的。大可能性。那么對所有模型進行取最大值，就能得到 O 所對應(yīng)的模型了。即M = argmax{ P(O|Mi) }問題：對于連續(xù)語音識別，假設(shè)有 50 個模型，那么對于觀察到的數(shù)據(jù) O，求其對應(yīng)的模型序列。如果按照上面的算法，就要首先把 50 個模型所組成的模型序列都排列

6、出來，共有 50 的 50 次方個，比宇宙中所有物質(zhì)的原子數(shù)目還要多??！根本無法為每個模型序列計算上面的最大似然概率，進而無法在這 50 的 50 次方個模型序列中尋找具有最大似然概率的那個序列。那么怎樣將上述的 Viterbi 算法引用到多個模型連續(xù)識別中呢？答：看下面。如果知道觀察數(shù)據(jù) O 的每個音素的邊界，即可以將 O 分成一段段的，每一段對應(yīng) 50 個模型中的一個，那么上述問題很好解決，對每一段進行單獨識別即可，每一段是孤

7、立詞識別，為該段數(shù)據(jù)計算 50 個模型的最大似然概率，取最大者即可。1.6 連續(xù)詞語音識別連續(xù)詞語音識別現(xiàn)在回到圖 1.1 所示意的語音識別模型，可以清楚地知道，連續(xù)語音識別僅僅需要將多個 HMM 連接起來，而這個連接而成的 HMM 模型序列中的每個模型，都對應(yīng)了其隱藏的符號，這個符號可能是一個單詞，那么這稱為“連接詞語音識別”，這個符號也可能是一個音素，那么這稱為“連續(xù)語音識別”。另外，在每個模型中包括首尾兩個不可觀察的狀態(tài)

8、的原因，現(xiàn)在應(yīng)該也清楚了，這是多個 HMM 模型連接在一起的粘合劑。然而，依然有一些難點。由孤立詞過渡到連續(xù)詞，對于模型訓(xùn)練算法 Baum-Welch 算法來說，所作的修改很小，只需要把所有模型連接成一個大模型，然后使用 HERest 的所謂 “嵌入式”訓(xùn)練即可，原理和過程和 HRest 中類似。然而，對于 Viterbi 識別算法來說，需要進行重大的擴展，這也是 HVite 中所做的。在 HTK 中，使用了 Viterbi 算法的

9、一個變種，叫做“令牌傳送模型” “令牌傳送模型”，Token Passing Model。簡單地說，令牌傳送模型采用了狀態(tài)路徑對齊狀態(tài)路徑對齊的概念。想象一下，一個 HMM 中的每個狀態(tài) j 在時間 t 處，都擁有一個可移動的令牌，這個令牌中的信息，包含最大似然概率 ψj(t)，那么這個令牌就可以表示從 o1 到 ot 這個部分觀察向量序列，和模型的匹配程度，限制條件是在時刻 t 必須處于狀態(tài) j。這樣，上面的路徑增長算法就可以

10、使用新的“令牌傳送”算法替代，這個算法也是在每個時間點 t 處執(zhí)行，其中的關(guān)鍵步驟是：1. 將狀態(tài) i 處的令牌，傳送到和狀態(tài) i 相連的每個狀態(tài) j，然后遞增上面的最大似然概率，使用對數(shù)運算時，遞增的數(shù)值是 log[aij ] + log[bj(o(t)]。2. 在每個狀態(tài)處，都檢查令牌的值，只保留具有最大似然概率的那個令牌，丟棄其它的。使用令牌傳送模型的好處是，它可以非常容易地擴展到連續(xù)語音識別的情況中。假設(shè)允許出現(xiàn)的 HMM

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

本站為文檔C2C交易模式，即用戶上傳的文檔直接被用戶下載，本站只是中間服務(wù)平臺，本站所有文檔下載所得的收益歸上傳人(含作者)所有。眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對上載內(nèi)容本身不做任何修改或編輯。若文檔所含內(nèi)容侵犯了您的版權(quán)或隱私，請立即通知眾賞文庫，我們立即給予刪除！

備案號: 經(jīng)營許可證編號:浙ICP備20018660號

/ 38

  0
 分享

復(fù)制分享文檔地址

http://r1worldwide.com/shtml/view-7555022.html

復(fù)制

下載本文檔

htkbook第二篇htk深度探索

文檔簡介

溫馨提示

最新文檔

評論

htkbook第二篇htk深度探索

文檔簡介

溫馨提示

最新文檔

評論

免費下載