自動(dòng)語(yǔ)音識(shí)別技術(shù)是一種將人的語(yǔ)音轉(zhuǎn)換為文本的技術(shù)。語(yǔ)音識(shí)別是一個(gè)多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等眾多學(xué)科緊密相連。由于語(yǔ)音信號(hào)的多樣性和復(fù)雜性,語(yǔ)音識(shí)別系統(tǒng)只能在一定的限制條件下獲得滿(mǎn)意的性能,或者說(shuō)只能應(yīng)用于某些特定的場(chǎng)合。
自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition 簡(jiǎn)稱(chēng)“ASR“),技術(shù)的目標(biāo)是讓計(jì)算機(jī)能夠“聽(tīng)寫(xiě)”出不同人所說(shuō)出的連續(xù)語(yǔ)音,也就是俗稱(chēng)的“語(yǔ)音聽(tīng)寫(xiě)機(jī)”,是實(shí)現(xiàn)“聲音”到“文字”轉(zhuǎn)換的技術(shù)。 自動(dòng)語(yǔ)音識(shí)別也稱(chēng)為語(yǔ)音識(shí)別(Speech Recognition)或計(jì)算機(jī)語(yǔ)音識(shí)別(Computer Speech Recognition)。
語(yǔ)音識(shí)別是研究如何采用數(shù)字信號(hào)處理技術(shù)自動(dòng)提取以及決定語(yǔ)音信號(hào)中最基本、最有意義的信息的一門(mén)新興的邊緣學(xué)科。它是語(yǔ)音信號(hào)處理學(xué)科的一個(gè)分支。
語(yǔ)音識(shí)別系統(tǒng)的性能大致取決于以下4類(lèi)因素:
1. 識(shí)別詞匯表的大小和語(yǔ)音的復(fù)雜性;
2. 語(yǔ)音信號(hào)的質(zhì)量;
3. 單個(gè)說(shuō)話(huà)人還是多說(shuō)話(huà)人;
4. 硬件。
分類(lèi)
自動(dòng)語(yǔ)音識(shí)別通常有以下幾種分類(lèi)方法:
(1)按系統(tǒng)的用戶(hù)情況分:特定人和非特定人識(shí)別系統(tǒng);
(2)按系統(tǒng)詞匯量分:小詞匯量、中詞匯量和大詞匯量系統(tǒng);
(3)按語(yǔ)音的輸入方式分:孤立詞、連接詞、連續(xù)語(yǔ)音系統(tǒng)等;
(4)按輸入語(yǔ)音的發(fā)音方式分:朗讀式、口語(yǔ)(自然發(fā)音)式;
(5)按輸入語(yǔ)音的方言背景情況分:普通話(huà)、方言背景普通話(huà)、方言語(yǔ)音識(shí)別系統(tǒng);
(6)按輸入語(yǔ)音的情感狀態(tài)分;中性語(yǔ)音、情感語(yǔ)音識(shí)別系統(tǒng)。
基本原理
訓(xùn)練(Training):預(yù)先分析出語(yǔ)音特征參數(shù),制作語(yǔ)音模板,并存放在語(yǔ)音參數(shù)庫(kù)中。
識(shí)別(Recognition):待識(shí)語(yǔ)音經(jīng)過(guò)與訓(xùn)練時(shí)相同的分析,得到語(yǔ)音參數(shù)。將它與庫(kù)中的參考模板一一比較,并采用判決的方法找出最接近語(yǔ)音特征的模板,得出識(shí)別結(jié)果。
失真測(cè)度(Distortion Measures):在進(jìn)行比較時(shí)要有個(gè)標(biāo)準(zhǔn),這就是計(jì)量語(yǔ)音特征參數(shù)矢量之間的“失真測(cè)度”。
主要識(shí)別框架:基于模式匹配的動(dòng)態(tài)時(shí)間規(guī)整法(DTW)和基于統(tǒng)計(jì)模型的隱馬爾可夫模型法(HMM)。