連續(xù)語音識別系統(tǒng)的研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩67頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、語音識別技術,也被稱為自動語音識別(ASR),其目標是讓機器聽懂人類的語言。經(jīng)過半個多世紀的發(fā)展,隨著ASR技術研究的不斷突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。以語音識別技術開發(fā)出的產(chǎn)品應用領域非常廣泛,如語音撥號、語音文檔檢索、語音聊天助手,同聲翻譯、智能家居、醫(yī)療服務、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會的每個行業(yè)和各個方面。近些年來,隨著Siri的走紅,類似Siri、搜狗語音助手這樣利用語音實現(xiàn)控制,語義理解的系

2、統(tǒng)開始大量涌現(xiàn)。而ASR作為這類系統(tǒng)的入口,很大程度上決定了這類應用的質(zhì)量。沒有一個好的語音識別系統(tǒng)做支撐,再好的助手也只能是個擺設。所以ASR作為實現(xiàn)人機自由交互的關鍵技術是非常值得深入研究的。本文主要分析研究隱馬爾科夫模型(HMM)原理和深度神經(jīng)網(wǎng)絡(DNN)原理在語音識別中的應用,并以HMM工具包(HTK)為平臺,搭建一個IP語音撥號識別系統(tǒng)。本文所做的工作與貢獻總結(jié)如下:
  1.概述語音識別的研究背景與意義以及國內(nèi)外發(fā)展

3、現(xiàn)狀。介紹語音信號的預處理,深入研究語音識別中涉及到的關鍵技術。
  2.制作語音數(shù)據(jù)庫。編寫腳本生成25個隨機文本,每個文本包含50句隨機IP格式的英文句子,分配給25人(12男13女)錄音,共錄制1250句。其中1000句作為訓練樣本(或稱為語料),250句作為測試樣本。錄音數(shù)據(jù)全部統(tǒng)一采用windows系統(tǒng)中常用的WAV格式保存。
  3.在HTK平臺上搭建一個IP語音撥號系統(tǒng),使用錄制的1000句語料訓練出四種類型的

4、模型,單因素HMM模型,三音素HMM模型,綁定狀態(tài)三因素HMM模型,以及DNN-HMM模型。分別使用這四種模型測試250句樣本,對比它們各自的單詞識別率和句子識別率,其中DNN-HMM模型的單詞和句子識別率在四種模型中均為最高,說明神經(jīng)網(wǎng)絡模型相對于傳統(tǒng)的隱馬爾科夫模型而言,對語音的擬合性更強。但DNN-HMM模型屬于深度模型,復雜度很高,相同的數(shù)據(jù)在訓練和解碼過程均需要較長的時間,所以它對硬件的計算能力有更高的要求。
  4.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論