公務(wù)員期刊網(wǎng) 精選范文 語音識(shí)別范文

語音識(shí)別精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的語音識(shí)別主題范文,僅供參考,歡迎閱讀并收藏。

語音識(shí)別

第1篇:語音識(shí)別范文

【關(guān)鍵詞】語言識(shí)別;隱含馬爾可夫模型

一、語言的實(shí)質(zhì)

人們平時(shí)在說話時(shí),腦子是一個(gè)信息源;人們的喉嚨(聲帶),空氣,就是如電線和光纜般的信道;聽眾耳朵的就是接收端(信宿),而聽到的聲音就是傳送過來的信號(hào);語言在這一過程中充當(dāng)信息載體的角色,即消息。這就是人類通過語言交流的實(shí)質(zhì)。

二、語音識(shí)別

語音識(shí)別是指從語音到文本的轉(zhuǎn)換,即讓計(jì)算機(jī)能夠把人發(fā)出的有意義的話音變成書面子語言。通俗地說就是讓機(jī)器能夠聽懂人說的話。所謂聽懂,有兩層意思,一是指把用戶所說的話逐詞逐句轉(zhuǎn)換成文本;二是指正確理解語音中所包含的要求,作出正確的應(yīng)答。

三、HMM原理

隱馬爾可夫模型(HMM)可以用五個(gè)元素來描述,包括2個(gè)狀態(tài)集合和3個(gè)概率矩陣:

1.隱含狀態(tài)S

是馬爾可夫模型中實(shí)際所隱含的狀態(tài),這些狀態(tài)之間滿足馬爾可夫性質(zhì)。這些狀態(tài)通常無法通過直接觀測(cè)而得到。

2.可觀測(cè)狀態(tài)O

在模型中與隱含狀態(tài)相關(guān)聯(lián),可通過直接觀測(cè)而得到,可觀測(cè)狀態(tài)的數(shù)目不一定要和隱含狀態(tài)的數(shù)目一致。

3.初始狀態(tài)概率矩陣π

表示隱含狀態(tài)在初始時(shí)刻t=1的概率矩陣,(例如t=1時(shí),P(S1)=p1、P(S2)=P2、P(S3)=p3,則初始狀態(tài)概率矩陣 π=[p1 p2 p3].

4.隱含狀態(tài)轉(zhuǎn)移概率矩陣A。

描述了HMM模型中各個(gè)狀態(tài)之間的轉(zhuǎn)移概率。其中Aij = P( Sj | Si ),1≤i,,j≤N.

表示在 t 時(shí)刻、狀態(tài)為 Si 的條件下,在 t+1 時(shí)刻狀態(tài)是 Sj 的概率。

5.觀測(cè)狀態(tài)轉(zhuǎn)移概率矩陣 B

令N代表隱含狀態(tài)數(shù)目,M代表可觀測(cè)狀態(tài)數(shù)目,則:

Bij=P(Oi | Sj), 1≤i≤M,1≤j≤N.

表示在 t 時(shí)刻、隱含狀態(tài)是 Sj 條件下,觀察狀態(tài)為Oi的概率。

總結(jié):一般的,可以用λ=(A,B,π)三元組來簡(jiǎn)潔的表示一個(gè)隱馬爾可夫模型。隱馬爾可夫模型實(shí)際上是標(biāo)準(zhǔn)馬爾可夫模型的擴(kuò)展,添加了可觀測(cè)狀態(tài)集合和這些狀態(tài)與隱含狀態(tài)之間的概率關(guān)系。

當(dāng)人們觀測(cè)到語音信號(hào)o1,o2,o3時(shí),要根據(jù)這組信號(hào)推測(cè)出發(fā)送的句子s1,s2,s3。顯然,人們應(yīng)該在所有可能的句子中找最有可能性的一個(gè)。用數(shù)學(xué)語言來描述,就是在已知o1,o2,o3,...的情況下,求使得條件概率:

P(s1,s2,s3,...|o1,o2,o3....)達(dá)到最大值的那個(gè)句子s1,s2,s3,...。例如,當(dāng)人們聽見(ni shi shui a),按經(jīng)驗(yàn)、語言環(huán)境就能判斷出對(duì)方所說的是“你是誰啊”的概率最大,而不是其他的句子。

四、HMM基本步驟

對(duì)HMM來說,有如下三個(gè)重要假設(shè),盡管這些假設(shè)是不現(xiàn)實(shí)的。

假設(shè)1:馬爾可夫假設(shè)(狀態(tài)構(gòu)成一階馬爾可夫鏈)

P(Xi | Xi-1…X1)=P(Xi | Xi-1)

假設(shè)2:不動(dòng)性假設(shè)(狀態(tài)與具體時(shí)間無關(guān))

P(Xi+1 | Xi)=P(Xj+1 | Xj),?坌i,j

假設(shè)3:輸出獨(dú)立性假設(shè)(輸出僅與當(dāng)前狀態(tài)有關(guān))

P(O1,…,OT | X1,…,XT)=?裝P(Ot | Xt)

隱藏的狀態(tài)和可觀察到的狀態(tài)之間有一種概率上的關(guān)系,也就是說某種隱藏狀態(tài)H被認(rèn)為是某個(gè)可以觀察的狀態(tài)O1是有概率的,假設(shè)為 P(O1 | H)。如果可以觀察的狀態(tài)有3種,那么很顯然 P(O1 | H)+P(O2 | H)+ P(O3 | H)=1。

這樣,我們也可以得到一個(gè)另一個(gè)矩陣,稱為混淆矩陣 (confusion matrix)。這個(gè)矩陣的內(nèi)容是某個(gè)隱藏的狀態(tài)被分別觀察成幾種不同的可以觀察的狀態(tài)的概率。

下圖明確的表示出模型的演化,其中綠色的圓圈表示隱藏狀態(tài),紫色圓圈表示可觀察到狀態(tài),箭頭表示狀態(tài)之間的依存概率,一個(gè)HMM可用一個(gè)5元組{N,M,π,A,B}表示,其中N表示隱藏狀態(tài)的數(shù)量,我們要么知道確切的值,要么猜測(cè)該值,M表示可觀測(cè)狀態(tài)的數(shù)量,可以通過訓(xùn)練集獲得,π={πi}為初始狀態(tài)概率,A={aij}為隱藏狀態(tài)的轉(zhuǎn)移矩陣Pr(xt(i) | xt-1(j)),B={bik}表示某個(gè)時(shí)刻因隱藏狀態(tài)而可觀察的狀態(tài)的概率,即混淆矩陣,Pr(ot(i) | xt(j))。在釤轉(zhuǎn)移矩陣和混淆矩陣中的每個(gè)概率都是時(shí)間無關(guān)的,即當(dāng)系統(tǒng)演化時(shí),這些矩陣并不隨時(shí)間改變。對(duì)于一個(gè)N和M固定的HMM來說,用λ={π,A,B}表示HMM參數(shù)。

在正常的馬爾可夫模型中,狀態(tài)對(duì)于觀察者來說是直接可見的。這樣狀態(tài)的轉(zhuǎn)換概率便是全部的參數(shù)。而在隱馬爾可夫模型中,狀態(tài)并不是直接可見的,但受狀態(tài)影響的某些變量則是可見的。每一個(gè)狀態(tài)在可能輸出的符號(hào)上都有一概率分布。因此輸出符號(hào)的序列能夠透露出狀態(tài)序列的一些信息。

五、向前向后算法

下面介紹前向后向算法的參數(shù)學(xué)習(xí)過程,在學(xué)習(xí)的過程中,不斷更新HMM的參數(shù),從而使得P(O | λ)最大。我們假設(shè)初始的 HMM 參數(shù)為λ={π,A,B},首先計(jì)算前向變量?琢和后向變量 ?茁,再根據(jù)剛剛介紹的公式計(jì)算期望?孜和ζ,最后,根據(jù)下面的3個(gè)重估計(jì)公式更新HMM參數(shù)。

參考文獻(xiàn):

第2篇:語音識(shí)別范文

關(guān)鍵詞:語音識(shí)別;語音截止頻率;最大似然線性回歸;模型自適應(yīng)

1 引言

在實(shí)際應(yīng)用場(chǎng)合,語音識(shí)別系統(tǒng)往往會(huì)受到說話人的改變、信道失真、環(huán)境噪聲等各種語音變異性的干擾,從而導(dǎo)致預(yù)先訓(xùn)練的聲學(xué)模型與實(shí)際環(huán)境下提取的聲學(xué)特征之間存在較大的差異。因而需要對(duì)聲學(xué)模型或聲學(xué)特征進(jìn)行補(bǔ)償,減小環(huán)境失配的影響,提高語音識(shí)別系統(tǒng)在實(shí)際環(huán)境下的識(shí)別性能。

模型自適應(yīng)是一種減小環(huán)境失配的有效方法,它通過測(cè)試環(huán)境下的自適應(yīng)數(shù)據(jù)調(diào)整預(yù)先訓(xùn)練的聲學(xué)模型的參數(shù),使之與當(dāng)前環(huán)境相匹配。一般來說,聲學(xué)模型包含較多的參數(shù),如果每個(gè)參數(shù)都獨(dú)立更新,則需要大量的自適應(yīng)數(shù)據(jù),這在實(shí)際應(yīng)用中很難做到。因此,通常假設(shè)聲學(xué)模型的若干個(gè)高斯單元共享同一個(gè)環(huán)境變換關(guān)系,將這些高斯單元的自適應(yīng)數(shù)據(jù)合并,估計(jì)同一組變換參數(shù)。最大似然線性變換[1](MLLR: Maximum Likelihood Linear Regression)是一種常用的模型自適應(yīng)算法,它假設(shè)測(cè)試環(huán)境聲學(xué)模型與訓(xùn)練環(huán)境聲學(xué)模型之間符合仿射變換關(guān)系,只需要通過仿射變換將訓(xùn)練環(huán)境聲學(xué)模型每個(gè)高斯單元的均值和方差變換到測(cè)試環(huán)境,即可得到測(cè)試環(huán)境聲學(xué)模型。

在諧波噪聲模型中,語音可以分解為一系列正弦諧波與噪聲的疊加。在大部分語音幀中,諧波僅僅分布在頻譜的低頻段,因此可以將語音的頻譜劃分為兩個(gè)不同的部分:低頻諧波部分和高頻非周期部分,這兩個(gè)部分的分界頻率就稱為語音截止頻率。確定語音截止頻率的主要方法有分析綜合法、譜域方法和時(shí)域方法[2]。在大多數(shù)應(yīng)用場(chǎng)合下,背景噪聲是寬帶的,它會(huì)同時(shí)影響語音的低頻段和高頻段。但在低頻諧波部分,語音的能量一般遠(yuǎn)大于該頻段的噪聲能量,噪聲的影響較??;而在高頻非周期部分,語音的能量很小,更易受噪聲影響,通常會(huì)被噪聲覆蓋。因而可以認(rèn)為含噪語音的低頻段是有用的語音諧波,而高頻段主要是噪聲信息。這樣,在語音識(shí)別中,根據(jù)環(huán)境噪聲的類型和信噪比,估計(jì)當(dāng)前環(huán)境下的語音截止頻率,僅用語音的低頻諧波部分構(gòu)建聲學(xué)特征,可以得到更好的識(shí)別效果。

文章提出了一種基于語音截止頻率的最大似然線性回歸算法。在該算法中,首先從測(cè)試環(huán)境下的少量自適應(yīng)數(shù)據(jù)中提取當(dāng)前測(cè)試環(huán)境的語音截止頻率,并用其作為頻率上限,提取語音的特征參數(shù);然后,將聲學(xué)模型每個(gè)高斯單元的均值向量和協(xié)方差矩陣從倒譜域變換到對(duì)數(shù)譜域,根據(jù)語音截止頻率,忽略高頻分量,再變換回倒譜域;最后,根據(jù)測(cè)試環(huán)境下的少量自適應(yīng)數(shù)據(jù),利用MLLR算法對(duì)聲學(xué)模型的參數(shù)進(jìn)行調(diào)整,使其與當(dāng)前環(huán)境相匹配。

2 基于語音截止頻率的最大似然線性回歸算法

2.1 訓(xùn)練過程

在訓(xùn)練階段,首先用Mel濾波器組將語音的有效頻譜劃分為N個(gè)Mel頻帶,設(shè)第i個(gè)Mel頻帶的上限頻率為fi,這N個(gè)上限頻率即為語音截止頻率的取值范圍。然后,為每個(gè)語音單元的發(fā)音樣本提取倒譜特征參數(shù),訓(xùn)練生成該語音單元的聲學(xué)模型。在語音識(shí)別中,聲學(xué)模型一般為隱馬爾可夫模型(HMM: Hidden Markov Model),其每個(gè)狀態(tài)的概率密度函數(shù)用一個(gè)高斯混和模型(GMM: Gaussian Mixture Model)來描述。這些預(yù)先訓(xùn)練得到的聲學(xué)模型可能與實(shí)際應(yīng)用環(huán)境并不匹配,因此在測(cè)試階段需要對(duì)其參數(shù)進(jìn)行調(diào)整后,才能用于語音識(shí)別。

2.2 測(cè)試過程

2.2.1 確定語音截止頻率

用譜域方法從測(cè)試環(huán)境下的少量自適應(yīng)數(shù)據(jù)中提取測(cè)試語音頻譜的截止頻率,并將其映射到Mel頻帶的上限頻率fi上,用與其最接近的Mel頻帶上限頻率作為當(dāng)前測(cè)試環(huán)境的語音截止頻率。

2.2.2 特征提取

用當(dāng)前測(cè)試環(huán)境的語音截止頻率作為頻率上限,提取測(cè)試語音的倒譜特征參數(shù),即只保留截止頻率以下的Mel頻帶,忽略其以上的Mel頻帶。特征提取的步驟包括:聲學(xué)預(yù)處理、快速傅里葉變換、Mel濾波、取對(duì)數(shù)、離散余弦變換和時(shí)域差分。

2.2.3 高斯降維

因?yàn)樵谔卣魈崛≈懈鶕?jù)語音截止頻率對(duì)語音的特征參數(shù)進(jìn)行了降維,為了與特征參數(shù)一致,聲學(xué)模型每個(gè)高斯單元的均值向量與協(xié)方差矩陣也必須降維。將每個(gè)語音單元聲學(xué)模型的均值向量和協(xié)方差矩陣從倒譜域變換到對(duì)數(shù)譜域,根據(jù)語音截止頻率,忽略均值和方差的高頻Mel分量,再變換回倒譜域,即可得到與測(cè)試環(huán)境特征參數(shù)的頻率范圍一致的聲學(xué)模型。

2.2.4 模型變換

由于背景噪聲、信道失真、說話人的改變等各種因素的影響,高斯降維后的聲學(xué)模型可能與實(shí)際測(cè)試環(huán)境并不匹配,甚至相差很遠(yuǎn)。為了減小環(huán)境失配的影響,需要對(duì)聲學(xué)模型的參數(shù)進(jìn)一步調(diào)整。首先通過聚類算法將聲學(xué)模型的高斯單元?jiǎng)澐譃槿舾深悾僭O(shè)每一類的全部高斯單元符合同一個(gè)仿射變換關(guān)系。然后,將每一類全部高斯單元的自適應(yīng)數(shù)據(jù)合并,根據(jù)最大似然準(zhǔn)則估計(jì)該類仿射變換的參數(shù)。得到變換參數(shù)后,對(duì)聲學(xué)模型各類高斯單元的均值向量和協(xié)方差矩陣進(jìn)行變換,即可得到測(cè)試環(huán)境聲學(xué)模型。測(cè)試環(huán)境聲學(xué)模型的狀態(tài)初始概率分布、狀態(tài)轉(zhuǎn)移概率矩陣和高斯混和系數(shù)與訓(xùn)練環(huán)境聲學(xué)模型一致。

2.2.5 語音識(shí)別

得到測(cè)試環(huán)境聲學(xué)模型后,即可對(duì)當(dāng)前測(cè)試環(huán)境下提取的特征參數(shù)進(jìn)行聲學(xué)解碼,得到識(shí)別結(jié)果。

3 結(jié)束語

語音識(shí)別系統(tǒng)在實(shí)際應(yīng)用中不可避免地要受到背景噪聲的干擾,而噪聲主要影響語音的高頻非周期部分,因此在噪聲環(huán)境下僅用語音頻譜的低頻諧波部分進(jìn)行語音識(shí)別可以取得更好的識(shí)別效果。文章將語音截止頻率用于聲學(xué)模型的參數(shù)自適應(yīng),提出了一種基于語音截止頻率的最大似然線性回歸算法,從測(cè)試環(huán)境下的少量自適應(yīng)數(shù)據(jù)中提取當(dāng)前測(cè)試環(huán)境的語音截止頻率,提取測(cè)試語音的特征參數(shù),并將聲學(xué)模型每個(gè)高斯單元的均值和方差從倒譜域變換到對(duì)數(shù)譜域,根據(jù)語音截止頻率忽略其高頻分量,再變換回倒譜域,然后利用MLLR算法對(duì)聲學(xué)模型的參數(shù)進(jìn)一步調(diào)整,得到測(cè)試環(huán)境聲學(xué)模型?;谡Z音截止頻率的最大似然線性回歸算法優(yōu)于傳統(tǒng)的MLLR算法,在噪聲補(bǔ)償中具有更好的魯棒性。

參考文獻(xiàn)

第3篇:語音識(shí)別范文

關(guān)鍵詞: 語音識(shí)別;DHMM;Viterbi;嵌入式系統(tǒng);ARM

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2012)04-0126-020引言

隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,各種各樣的應(yīng)用層出不窮,其中使用語音與計(jì)算機(jī)程序進(jìn)行交互成為了最近熱門的研究方向。語音作為人類與計(jì)算機(jī)之間無形的連接方式,可以使人們方便、快捷地控制和使用計(jì)算機(jī)。語音識(shí)別技術(shù)是能夠讓原來非智能的計(jì)算設(shè)備理解人類思想的高科技技術(shù),融合了信號(hào)處理、人工智能以及自動(dòng)化等多學(xué)科、多領(lǐng)域的研究成果,是目前實(shí)現(xiàn)人工智慧的主要途徑之一。

根據(jù)不同的分類標(biāo)準(zhǔn),語音識(shí)別可分為不同的種類,例如依據(jù)識(shí)別對(duì)象的不同,可分為特定人語音識(shí)別及非特定人語音識(shí)別;又根據(jù)人類的講話方式可分為孤立詞識(shí)別、連接詞識(shí)別以及連續(xù)語音識(shí)別。不同的識(shí)別系統(tǒng)雖然在語音識(shí)別過程中步驟相似,但根據(jù)不同系統(tǒng)的需求及特點(diǎn)其實(shí)現(xiàn)方式及具體細(xì)節(jié)是不同的[1]。

嵌入式技術(shù)的迅猛進(jìn)步,使得語音識(shí)別技術(shù)的應(yīng)用更加廣泛,不再局限于實(shí)驗(yàn)室以及大型場(chǎng)合;其已經(jīng)被嵌入各種移動(dòng)設(shè)備,為人們對(duì)移動(dòng)設(shè)備的操作方式提供了一種嶄新途徑和使用體驗(yàn)。本文就針對(duì)移動(dòng)設(shè)備的特點(diǎn),設(shè)計(jì)了一種面向非特定人的孤立詞語音識(shí)別系統(tǒng)。

1語音識(shí)別的工作原理

原始的自然語音信號(hào)中不僅含有人體自身的聲音信號(hào),同樣也包含了大量的雜音、噪聲等混雜在一起的隨機(jī)干擾信號(hào),尤其作為移動(dòng)、嵌入式設(shè)備被使用者隨身攜帶使用,會(huì)有更多的環(huán)境噪聲信號(hào)。針對(duì)大量噪聲的數(shù)據(jù)計(jì)算以及嵌入式設(shè)備有限的計(jì)算資源,為保證系統(tǒng)的對(duì)自然語言的正確識(shí)別率,并且有效減少處理原始語音信號(hào)的大量數(shù)據(jù)密集計(jì)算,有必要研究語音信號(hào)的預(yù)處理技術(shù),以期高效提取語音特征參數(shù),并選取合適的壓縮算法進(jìn)行語音數(shù)據(jù)壓縮,之后再進(jìn)行語音的模式匹配[2]。

如圖1所示,人本身的語音信號(hào)從語音錄入設(shè)備進(jìn)入后,將進(jìn)行預(yù)處理、端點(diǎn)檢測(cè)、特征提取,轉(zhuǎn)換為可以對(duì)比的信號(hào)參數(shù),然后將特征參數(shù)通過選取的特征匹配方法與參考樣例庫(kù)中的模板樣例進(jìn)行語言匹配,選擇符合度最大的語言樣例進(jìn)行相應(yīng)處理,得出識(shí)別結(jié)果。

2系統(tǒng)硬件設(shè)計(jì)

系統(tǒng)的硬件結(jié)構(gòu)示意圖如圖2所示。

系統(tǒng)的處理核心采用了韓國(guó)三星公司的一款基于ARM 920T內(nèi)核的S3C2440微處理器;此款處理器中的CMOS宏單元和存儲(chǔ)單元采用了0.18um電子工藝,內(nèi)部總線采用Advanced Microcontroller Bus Architecture(AMBA)新型總線結(jié)構(gòu),具備出色的全靜態(tài)設(shè)計(jì),利用了多項(xiàng)低功耗技術(shù),系統(tǒng)架構(gòu)精簡(jiǎn),特別為價(jià)格和功耗敏感的應(yīng)用而精心打造。除此之外,它特別為各種外設(shè)準(zhǔn)備了豐富的中斷處理資源,包括總計(jì)共有60個(gè)中斷源(其中包括5個(gè)定時(shí)器硬中斷,9個(gè)串口中斷,24個(gè)外部中斷,1個(gè)看門狗定時(shí)器,4個(gè)DMA,2個(gè)ADC,1個(gè)LCD,1個(gè)電池故障,1個(gè)IIC,2個(gè)SPI,1個(gè)SDI,2個(gè)USB,1個(gè)NAND FLASH口,2個(gè)視頻口和1個(gè)AC97音頻口),這些中斷既可以使用電平/邊沿觸發(fā)模式進(jìn)行外部中斷的觸發(fā),也可以使用軟件編程的方式改變邊沿/電平觸發(fā)極性,能夠?yàn)榫o急中斷請(qǐng)求提供快速中斷(FIQ)服務(wù)[3]。

系統(tǒng)工作時(shí),人的語音信號(hào)經(jīng)過MIC輸入,并通過濾波、去噪等操作后,在S3C2440上執(zhí)行語音特征提取、語音模式匹配算法,最終輸出結(jié)果;系統(tǒng)中的USB接口可以方便系統(tǒng)外擴(kuò)各種標(biāo)準(zhǔn)USB外設(shè),以便使用語音識(shí)別結(jié)果進(jìn)行各種設(shè)備控制。

3系統(tǒng)軟件設(shè)計(jì)

3.1 Linux內(nèi)核移植移植Linux內(nèi)核一般分為幾個(gè)固定的步驟,目前較為流行快速開發(fā)方法通常先在內(nèi)核的處理器架構(gòu)目錄下,選擇與目標(biāo)開發(fā)板硬件結(jié)構(gòu)最接近的并且各種配置較為完善的開發(fā)板目錄作為移植模板。接著針對(duì)本開發(fā)板與目標(biāo)開發(fā)板的硬件具體差別,進(jìn)行對(duì)應(yīng)的修改或使用前人的移植補(bǔ)丁進(jìn)行升級(jí)。針對(duì)本開發(fā)板,我們使用了穩(wěn)定的Linux-2.6.15內(nèi)核進(jìn)行移植,考慮到本系統(tǒng)的具體硬件配置,最后選擇了SMDK2440開發(fā)板模板作為移植的目標(biāo)開發(fā)板模板。在編譯和配置內(nèi)核前,建議使用menuconfig或其它配置工具對(duì)內(nèi)核進(jìn)行適當(dāng)?shù)牟眉?,還可以進(jìn)一步編寫配置腳本。嵌入式Linux內(nèi)核的裁減類似于PC上Linux內(nèi)核的裁減,主要的工作是根據(jù)硬件和系統(tǒng)需求增添需要支持的模塊,并除去無用的功能模塊,以使Linux內(nèi)核與目標(biāo)硬件系統(tǒng)緊密相依,但要注意嵌入式Linux內(nèi)核的特征是小、精、有效。內(nèi)核的編譯則通常是通過修改根目錄以及其它子目錄下的Makefile,以及在預(yù)編譯前設(shè)置編譯參數(shù)值時(shí)進(jìn)行選定,或是使用編譯工具[4]。

最后,使用make工具生成U-boot可以識(shí)別的uImage引導(dǎo)程序鏡像文件。uImage鏡像文件通過U-Boot引導(dǎo)程序從FLASH中取出并解壓縮,裝入內(nèi)存后,Linux內(nèi)核便取得系統(tǒng)控制權(quán)。

Linux內(nèi)核移植的整個(gè)過程如圖3所示。

3.2 系統(tǒng)軟件設(shè)計(jì)整個(gè)系統(tǒng)軟件結(jié)構(gòu)如圖4所示。面向終端用戶的軟件形勢(shì)分為兩種:web插件和普通的軟件界面;web插件可以使用在瀏覽器中,方面用戶控制網(wǎng)頁(yè)瀏覽。下面是命令解析層Command layer,負(fù)責(zé)解釋兩種界面發(fā)送的命令,調(diào)用相應(yīng)的程序接口并返回執(zhí)行后的結(jié)果。功能模塊Function modules主要封裝軟件API,負(fù)責(zé)提供各種常用的功能服務(wù)。控制模塊Control modules負(fù)責(zé)管理和控制語音識(shí)別引擎,建立語音樣例庫(kù)以及調(diào)整語音設(shè)備引擎的內(nèi)部參數(shù),將來還可以加入新的語音模式匹配算法。再下面一層是統(tǒng)一APIs層,主要對(duì)核心語音識(shí)別引擎進(jìn)行簡(jiǎn)單的API封裝,同時(shí)預(yù)留了將來要擴(kuò)展的功能接口,以便后續(xù)的功能升級(jí)和代碼維護(hù);最下面的就是核心語音識(shí)別引擎,主要提供模式匹配算法以及對(duì)底層系統(tǒng)級(jí)的控制功能。

3.3 語音識(shí)別算法本語音識(shí)別系統(tǒng)的識(shí)別任務(wù)主要為針對(duì)設(shè)備持有者的小詞匯量孤立詞的語音識(shí)別,功能較為簡(jiǎn)單,需要使用者進(jìn)行一定量的訓(xùn)練后,系統(tǒng)對(duì)應(yīng)建立語音樣例庫(kù),然后針對(duì)每次的聲音進(jìn)行模式匹配即可,所以算法的重點(diǎn)在于模式匹配算法。綜合計(jì)算性能需要、存儲(chǔ)資源消耗以及價(jià)格成本考慮,目前流行的DHMM語言識(shí)別模型對(duì)本系統(tǒng)較為合適。DHMM模型是一種隨機(jī)統(tǒng)計(jì)過程,通過大量的模板訓(xùn)練過程提取語音特征,可滿足語音實(shí)時(shí)變化且識(shí)別實(shí)時(shí)性要求較高的應(yīng)用場(chǎng)合。

本系統(tǒng)采用了當(dāng)前性價(jià)比較高的Viterbi算法實(shí)現(xiàn)DHMM模型。Viterbi算法可以由如下公式描述[5]:

?啄t(i)=■p(s1,s2,…,st=si,O1,O2,…,Ot|?姿)

其中,?啄t(i)為被識(shí)別語音序列t時(shí)刻的最大概率密度;其中t時(shí)刻前經(jīng)過的語音狀態(tài)序列為s1,s2,...st,且t時(shí)刻狀態(tài)為si,對(duì)應(yīng)輸出觀察符序列為O1,O2,...Ot。

4結(jié)束語

人類與計(jì)算機(jī)之間的交流的方式經(jīng)過了按鍵輸入、鍵盤輸入、手寫輸入以及觸摸輸入的階段,但這已經(jīng)不能滿足人們對(duì)于便捷、快速輸入的更高需求,而語音識(shí)別技術(shù)的發(fā)展和應(yīng)用,使得人們看到了計(jì)算機(jī)輸入的未來趨勢(shì)。相信隨著電子技術(shù)和信號(hào)處理技術(shù)的進(jìn)一步提高,語音輸入將會(huì)廣泛應(yīng)用于各種計(jì)算機(jī)以及嵌入式設(shè)備中。

參考文獻(xiàn):

[1]馬莉,黨幼云.特定人孤立詞語音識(shí)別系統(tǒng)的仿真與分析[J].西安工程科技學(xué)院學(xué)報(bào),2007,(03).

[2]邢銘生,朱浩,王宏斌.語音識(shí)別技術(shù)綜述[J].科協(xié)論壇(下半月),2010,(03).

[3]涂剛,陽(yáng)富民等.嵌入式操作系統(tǒng)綜述[J].計(jì)算機(jī)應(yīng)用研究,2000,17(11):4-6.

第4篇:語音識(shí)別范文

關(guān)鍵詞:嵌入式系統(tǒng);語音識(shí)別;隱馬爾可夫;智能家居

中圖分類號(hào):TP316.9

文獻(xiàn)標(biāo)識(shí)碼:A

DOI:10.3969/j.issn.1003-6970.2015.07.021

0 引言

隨著計(jì)算機(jī)的發(fā)展,智能家居在近幾年也得到了大家的重視,智能家居利用各種通信、網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)家居設(shè)備集成,為用戶提供了更加舒適高效的環(huán)境。近幾年人們對(duì)智能家居的便利程度提出了更高的要求,同時(shí)語音識(shí)別技術(shù)也進(jìn)一步的發(fā)展,但是語音在智能家居中的應(yīng)用還是相對(duì)較少,一般還要依靠遙控、手機(jī)等中控設(shè)備。語言是信息交流的重要手段,語音識(shí)別可以用聲音來控制設(shè)備完成一些特定的命令,減少用戶如手機(jī),遙控等中控設(shè)備的依賴,使生活更加方便。

本文通過對(duì)語音識(shí)別技術(shù)與嵌入式控制技術(shù)的研究,用語音命令實(shí)現(xiàn)直接管控從而可以取代以往利用手機(jī)或者遙控方式來控制的方法,方便操作而又能提高效率。本系統(tǒng)基于NL6621板與語音芯片VS1003實(shí)現(xiàn)語音采集,并采用當(dāng)今語音識(shí)別領(lǐng)域的主流技術(shù)一一隱馬爾科夫模型(Hidden Markov Model,HMM)算法實(shí)現(xiàn)對(duì)人語音命令的識(shí)別主要是進(jìn)行模型訓(xùn)練和匹配。實(shí)驗(yàn)證明在多個(gè)語音樣本對(duì)系統(tǒng)的訓(xùn)練識(shí)別下,系統(tǒng)在非特定人、孤立詞語識(shí)別上具有良好的效果。

1 語音識(shí)別與智能家居

1.1 語音識(shí)別技術(shù)

語音識(shí)別技術(shù)本質(zhì)上是一種模式匹配識(shí)別的過程,是機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變成相應(yīng)的文本文件或命令的技術(shù)。根據(jù)模式匹配過程語音識(shí)別系統(tǒng)可以如下圖表示。語音識(shí)別系統(tǒng)可以分為:特定人和非特定人的識(shí)別、獨(dú)立詞和連續(xù)詞的識(shí)別等,無論哪種識(shí)別系統(tǒng)識(shí)別過程都主要包括了語音信號(hào)預(yù)處理、特征提取、訓(xùn)練等。分別通過對(duì)信號(hào)的預(yù)處理分析和計(jì)算建立模板,當(dāng)對(duì)語音進(jìn)行識(shí)別時(shí),需要將輸入的語音與系統(tǒng)中存放的語音進(jìn)行比較從而得到識(shí)別結(jié)果。

1.2 語音識(shí)別算法

人的言語過程是一個(gè)雙重隨機(jī)過程。因?yàn)檎Z音信號(hào)本身是一個(gè)可觀察的序列,而它又是由大腦里的不可觀察的、根據(jù)言語需要和語法知識(shí)狀態(tài)選擇所發(fā)出的音素(詞、句)的參數(shù)流,大量實(shí)驗(yàn)表明,隱馬爾可夫模型(HMM)的確可以非常精確地描述語音信號(hào)的產(chǎn)生過程。隱馬爾可夫模型是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程,采用HMM進(jìn)行語音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算,根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。一階離散馬爾可夫模型可表示為:有N個(gè)狀態(tài),Sl,S2... SN,存在一個(gè)離散的時(shí)間序列t=0,t=1…在每個(gè)時(shí)刻t,系統(tǒng)只能處于唯一一個(gè)狀態(tài)qt,下一個(gè)時(shí)刻所處的狀態(tài)是隨機(jī)出現(xiàn)的,當(dāng)前狀態(tài)qt只與前面相鄰的一個(gè)狀態(tài)qt-l有關(guān), 與其他狀態(tài)無關(guān),用表達(dá)式

HMM語音識(shí)別的一般過程:

1.前向后向算法計(jì)算

已知觀測(cè)序列 和模型 ,如何有效的計(jì)算在給定模型條件下產(chǎn)生觀測(cè)序列O的概率

2.Baum-Welch算法求出最優(yōu)解 :

(1)初始化

(2)迭代計(jì)算

(3)最后計(jì)算

3.Viterbi算法解出最佳狀態(tài)轉(zhuǎn)移序列:

已知觀測(cè)序列 和模型 ,如何選擇在某種意義上最佳的狀態(tài)序列。

(1)初始化

(2)迭代計(jì)算:

4.根據(jù)最佳狀態(tài)序列對(duì)應(yīng)的九給出候選音節(jié)或聲韻母

5.通過語言模型形成詞和句子

2 基于NL6621嵌入式硬件設(shè)計(jì)

語音識(shí)別的硬件平臺(tái)主要包括中央處理器NL6621,可讀寫存儲(chǔ)器,聲卡芯片vs1003以及一些設(shè)備,硬件體系結(jié)構(gòu)如圖2所示。

主系統(tǒng)使用新岸線公司的NL6621。MCU采用的最高主頻為160MHz,支持802.llb/g/n/i/e/p和Wi-Fidirect,BSS STA,軟AP,WiFi保護(hù)設(shè)置以及WMM-PS和WPA/WPA2安全協(xié)議。codec芯片是vs1003,它與核心控制器NL6621的數(shù)據(jù)通信是通過SPI總線方式進(jìn)行的。它集成了麥克風(fēng)輸入接口,音頻輸出接口,對(duì)話筒輸入或者線路輸入進(jìn)行IMA ADPCM編碼,能有效的接受和播放音頻信息。

硬件電路實(shí)現(xiàn):VS1003通過xCS、xDCS引腳的置高或低來確認(rèn)是哪一個(gè)接口處于傳送狀態(tài)。通過串行命令接口(SCI)和串行數(shù)據(jù)接口(SDI)來接收NL6621的控制命令和數(shù)據(jù),通過SCI HDAT1來獲取語音流;VS1003的功能控制,如初始化、軟復(fù)位、暫停、音量控制、播放時(shí)間的讀取等,均是通過SCI口寫入特定寄存器實(shí)現(xiàn)的。兩條SCI指令之間要通過DREQ引腳信號(hào)判斷上一次處理是否完成。

3 基于NL6621嵌入式軟件設(shè)計(jì)

軟件設(shè)計(jì)主要包括兩部分實(shí)現(xiàn)軟件控制嵌入式系統(tǒng)和基于HMM技術(shù)的語音識(shí)別算法編寫,基本的軟件架構(gòu)如圖3所示。

針對(duì)嵌入式系統(tǒng)控制部分,包括硬件初始化以及采集音頻信號(hào)。主要是使用NL6621提供的軟件開發(fā)包,利用SDK編寫應(yīng)用程序,包括硬件管腳初始化,波特率匹配,錄音文件配置,WiFi配置,錄音,音頻文件格式轉(zhuǎn)化、程序編寫完成后需要用燒寫工具進(jìn)行燒寫。系統(tǒng)啟動(dòng)后,先初始化硬件模塊。然后系統(tǒng)開始工作,通過語音輸入設(shè)備MIC采集語音,并通過聲卡VS1003輸入語音。當(dāng)系統(tǒng)監(jiān)聽到語音輸入,開始語音識(shí)別,判斷識(shí)別是否正確,若正確,將命令發(fā)送給執(zhí)行設(shè)備,入耳不正確,給出相應(yīng)

的錯(cuò)誤提示,不執(zhí)行語音命令。判斷識(shí)別是否結(jié)束,如果結(jié)束則退出,否則繼續(xù)下一輪的識(shí)別?;贖MM技術(shù)的語音識(shí)別算法編寫,還包括了語音預(yù)處理,特征值提取和匹配識(shí)別的部分。主要的原理如圖4所示,輸入語音經(jīng)過預(yù)處理后,語音信號(hào)的特征被提取出來,首先在此基礎(chǔ)上建立所需的模板,這個(gè)建立模板的過程稱為訓(xùn)練過程。根據(jù)語音識(shí)別整體模型,將輸入的語音信號(hào)特征與存在的語音模板(參考模式)進(jìn)行比較,找出一系列最優(yōu)的與輸入的語音相匹配的模板。然后,根據(jù)此模板號(hào)的定義,通過查表就可以給出計(jì)算機(jī)的識(shí)別結(jié)果。采用HMM進(jìn)行語音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算。根據(jù)訓(xùn)練集數(shù)據(jù)計(jì)算得出模型參數(shù)后,測(cè)試集數(shù)據(jù)只需分別計(jì)算各模型的條件概率(Viterbi算法),取此概率最大者即為識(shí)別結(jié)果。除訓(xùn)練時(shí)需運(yùn)算量較大外,識(shí)別時(shí)的運(yùn)算量?jī)H有模式匹配法的幾分之一。

第5篇:語音識(shí)別范文

【關(guān)鍵詞】語音識(shí)別;簡(jiǎn)單模板匹配;預(yù)處理;特征提取

1 語音識(shí)別技術(shù)原理

語音識(shí)別是為了讓機(jī)器“懂”我們的語言,準(zhǔn)確無誤地識(shí)別出我們發(fā)出語音內(nèi)容,并且做出符合語音內(nèi)容的一系列動(dòng)作,執(zhí)行我們的意圖。分析人類語言交流通信的過程,可以啟發(fā)我們的研究思路。對(duì)人類語音通信流程[1-2]分析如圖1。

由人類語音通信流程框圖可以看出,人類發(fā)出語音過程如圖左半部分,語音理解過程如圖右半部分。語音識(shí)別包括兩種含義,一是:將人類說的話轉(zhuǎn)換成文字,二是:在充分理解口述語音的基礎(chǔ)上,不僅僅是將語音轉(zhuǎn)換為文字信息,而且對(duì)語音內(nèi)容也要作出正確響應(yīng)[3]。在此,本文認(rèn)為語音識(shí)別和語音理解意義等同,所以可用圖1右側(cè)部分流程可將語音識(shí)別過程。

目前語音識(shí)別技術(shù)應(yīng)用中大部分都是小詞匯量,詞語間相互獨(dú)立基于簡(jiǎn)單模板匹配工作原理的識(shí)別模式。針對(duì)這種典型的語音識(shí)別模式,原理流程路線圖[4]如圖2所示:

1.1 基于發(fā)音模型的語音信號(hào)產(chǎn)生模型

語音信號(hào)的產(chǎn)生是語音識(shí)別技術(shù)的基石,在語音信號(hào)處理的大部分過程中對(duì)語音信號(hào)產(chǎn)生模型有很強(qiáng)的依賴性。本文研究過程中,首先對(duì)人類發(fā)音過程進(jìn)行了解:人類發(fā)音流程是首先肺部收縮,迫使氣流通過聲門和聲道引起音頻震蕩產(chǎn)生[3]。根據(jù)人的聲道三種不同激勵(lì)方式,分別對(duì)應(yīng)產(chǎn)生了三種被大家熟知的發(fā)音類型,分別是濁音,摩擦音或清音,爆破音。

語音信號(hào)可看做由線性系統(tǒng)受到激勵(lì)信號(hào)的激勵(lì)輸出產(chǎn)生。如圖3是基于發(fā)音模型的語音信號(hào)產(chǎn)生模型流程圖:

如圖3建立的語音信號(hào)產(chǎn)生模型中認(rèn)為濁音是周期為N0的沖激信號(hào),且N0=fs/F0(其中F0是基音頻率,fs是采樣頻率)。清音認(rèn)為是一個(gè)均值為0,幅值是正態(tài)分布的波形信號(hào)。參數(shù)Av,Au分別用來調(diào)節(jié)濁音和清音的幅值。

從已有語音識(shí)別技術(shù)研究結(jié)果可知,窗函數(shù)類型眾多,使用不同形式的窗函數(shù)對(duì)短時(shí)分析處理語音信號(hào)結(jié)果有很大的影響。已知目前應(yīng)用最廣泛的窗函數(shù)是漢明窗,結(jié)合仿真實(shí)驗(yàn)分析可以看出:高斯窗函數(shù)的橫向主瓣寬度最小,但其縱向旁瓣高度最高;漢明窗函數(shù)的橫向主瓣寬度最寬,縱向旁瓣高度是三種窗函數(shù)中最低的。

2.3 端點(diǎn)檢測(cè)

語音信號(hào)的起始點(diǎn)是語音信號(hào)處理的關(guān)鍵分界點(diǎn),端點(diǎn)檢測(cè)的目的就是找到連續(xù)語音信號(hào)中的信號(hào)起始點(diǎn)。常用的端點(diǎn)檢測(cè)方法有兩種,分別是短時(shí)平均能量和短時(shí)過零率[6]。當(dāng)下流行的端點(diǎn)檢測(cè)方法是短時(shí)平均能量和短時(shí)過零率兩者的結(jié)合,稱這種方法為雙門限端點(diǎn)檢測(cè)算法[7]。

在實(shí)際問題中通常采用兩者結(jié)合解決問題。本文同樣是采用兩者結(jié)合的方法,利用短時(shí)過零率方法檢測(cè)語音信號(hào)波形穿越零電平的次數(shù),既代表的是清音;用短時(shí)平均能量方法計(jì)算第y幀語音信號(hào)的短時(shí)平均能量E(y),既代表的是濁音,進(jìn)而實(shí)現(xiàn)可靠的端點(diǎn)檢測(cè)。

3 特征提取

目前特征是語音信號(hào)預(yù)處理中的重要步驟。在實(shí)際特征提取中,較常采用的參數(shù)是線性預(yù)測(cè)倒譜系數(shù)(LPCC)和Mel倒譜系數(shù)(MFCC)。二者采用的均是時(shí)域轉(zhuǎn)換到倒譜域上,但是出發(fā)思路兩者不同。線性預(yù)測(cè)倒譜系數(shù)(LPCC)以人類發(fā)聲模型為基礎(chǔ),采用線性預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù);Mel倒譜系數(shù)(MFCC)以人類聽覺模型為基礎(chǔ),通過離散傅利葉變換(DFT)進(jìn)行變換分析。

其中k表示第k個(gè)濾波器,Hm(k)表示第k個(gè)mel濾波器組,f(m)為中心頻率,m=1,2,…K,K表示濾波器個(gè)數(shù)。

經(jīng)過仿真實(shí)驗(yàn)分析比較,可以分析得出Mel倒譜系數(shù)(MFCC)參數(shù)較線性預(yù)測(cè)倒譜系數(shù)(LPCC)參數(shù)的優(yōu)點(diǎn),優(yōu)點(diǎn)如下:

(1)語音低頻信號(hào)是語音信息的聚集區(qū),高頻信號(hào)相對(duì)低頻語音信號(hào)更容易受到周圍環(huán)境等的干擾。Mel倒譜系數(shù)(MFCC)將線性頻標(biāo)轉(zhuǎn)化為Mel頻標(biāo),強(qiáng)調(diào)語音的低頻信息,從而突出了有利于識(shí)別的信息,屏蔽了噪聲的干擾[8]。LPCC參數(shù)是基于線性頻標(biāo)的,所以沒有這一特點(diǎn);

(2)MFCC參數(shù)無任何假設(shè)前提,在各種語音信號(hào)預(yù)處理情況下均可使用,但是LPCC參數(shù)首先假定所處理的語音信號(hào)是AR信號(hào),對(duì)于動(dòng)態(tài)特性較強(qiáng)的輔音,這個(gè)假設(shè)并不嚴(yán)格成立[8];

(3)MFCC參數(shù)提取過程中需要經(jīng)過FFT變換,我們可以順便獲得語音信號(hào)頻域上的全部信息,不需要多花費(fèi)時(shí)間處理,有利于端點(diǎn)檢測(cè)、語音分段等算法實(shí)現(xiàn)[8]。

4 訓(xùn)練與識(shí)別

訓(xùn)練和識(shí)別是語音識(shí)別的中心內(nèi)容,有很多專家學(xué)者研究了一系列成果。語音識(shí)別實(shí)質(zhì)是模式匹配的過程,而對(duì)分類器和分類決策的設(shè)計(jì)[9]又是模式匹配的核心。在現(xiàn)有的分類器設(shè)計(jì)[10-11]中,經(jīng)常使用的有:動(dòng)態(tài)時(shí)間規(guī)整(Dynamic Time Warping,DTW)分類器、基于人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)分類器、基于高斯混合模型(GMM)分類器、基于Bayes規(guī)則的分類器、基于HMM分類器[12]等。

本文重點(diǎn)討論語音信號(hào)預(yù)處理中技術(shù)及實(shí)現(xiàn),對(duì)訓(xùn)練和識(shí)別技術(shù)不再做研究描述。

【參考文獻(xiàn)】

[1]尹巖巖.基于語音識(shí)別與合成的低速率語音編碼研究[D].上海師范大學(xué),2013.

[2]偉偉.通信系統(tǒng)中語音質(zhì)量評(píng)價(jià)的研究[D].北京郵電大學(xué),2014.

[3]朱淑琴.語音識(shí)別系統(tǒng)關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2004.

[4]王偉臻.基于神經(jīng)網(wǎng)絡(luò)的語音識(shí)別研究[D].浙江大學(xué),2008.

[5]鐘林鵬.說話人識(shí)別系統(tǒng)中的語音信號(hào)處理技術(shù)研究[D].電子科技大學(xué),2013.

[6]周剛,周萍,楊青.一種簡(jiǎn)單的噪聲魯棒性語音端點(diǎn)檢測(cè)方法[J].測(cè)控技術(shù),2015,(02):31-34.

[7]薛勝堯.基于改進(jìn)型雙門限語音端點(diǎn)檢測(cè)算法的研究[J].電子設(shè)計(jì)工程,2015,(04):78-81.

[8]惠博.語音識(shí)別特征提取算法的研究及實(shí)現(xiàn)[D].西北大學(xué),2008.

[9]張寧.基于決策樹分類器的遷移學(xué)習(xí)研究[D].西安電子科技大學(xué),2014.

[10]汪云云.結(jié)合先驗(yàn)知識(shí)的分類器設(shè)計(jì)研究[D].南京航空航天大學(xué),2012.

第6篇:語音識(shí)別范文

關(guān)鍵詞:SAPI;C#;.NET;語音識(shí)別

1 引言

語音識(shí)別是信息處理領(lǐng)域的一個(gè)重要方向,語音識(shí)別通常又可以分為兩種工作方式:一種是連續(xù)語音聽寫,這種方式需要語音識(shí)別引擎對(duì)語音聽寫過程中上下文以及相同相似發(fā)音的詞語進(jìn)行分析、做出判斷,實(shí)現(xiàn)難度較大。另一種是命令與控制方式(command and control),在此種方式下,語音識(shí)別引擎可以通過對(duì)簡(jiǎn)短的命令語音進(jìn)行識(shí)別,以便執(zhí)行相應(yīng)操作。

語音識(shí)別技術(shù)基礎(chǔ)是非常復(fù)雜的。正是如此,它獲得了世界上著名的公司與研究機(jī)構(gòu)的青睞,語音識(shí)別技術(shù)正經(jīng)歷著日新月異的改變,其中一些產(chǎn)品已經(jīng)取得較好的效果,用戶可以在上述產(chǎn)品基礎(chǔ)之上進(jìn)行二次開發(fā)。

2開發(fā)圖片語音識(shí)別系統(tǒng)的條件

語音識(shí)別技術(shù)的發(fā)展涉及人機(jī)交互,自然語言處理,人工智能。這使開發(fā)人員難以從底層進(jìn)行應(yīng)用開發(fā),欣慰的是一些公司與研究機(jī)構(gòu)已經(jīng)推出他們的研究成果,并且提供了供開發(fā)人員使用的開發(fā)平臺(tái)與接口。其中影響比較大的有微軟的SAPI、劍橋大學(xué)的HTK,IBM的via voice開發(fā)平臺(tái)。本文采用微軟的Speech SDK5.1開發(fā)包,它不僅是一個(gè)免費(fèi)的開發(fā)包,同時(shí)提供對(duì)中文的支持。

2.1微軟SAPI簡(jiǎn)介

微軟的 Speech SDK是基于 C O M 的視窗操作系統(tǒng)開發(fā)工具包。這個(gè) SDK中含有語音應(yīng)用程序接口( SAPI )、微軟連續(xù)語音識(shí)別引擎(MCSR)以及串聯(lián)語音合成(又稱文本到語音)引擎(TTS)等等。SAPI 中還包括對(duì)于低層控制和高度適應(yīng)性的直接語音管理、訓(xùn)練向?qū)?、事件?語法、 編譯、資源、語音識(shí)別管理以及文本到語音管理,其結(jié)構(gòu)如圖 l 所示。

圖1 SAPI結(jié)構(gòu)

SAPI API在應(yīng)用程序和語音引擎之間提供一個(gè)高級(jí)別的接口。SAPI實(shí)現(xiàn)了所有必需的對(duì)各種語音引擎的實(shí)時(shí)的控制和管理等低級(jí)別的細(xì)節(jié)。

SAPI引擎的兩個(gè)基本類型是文本語音轉(zhuǎn)換系統(tǒng)(TTS)和語音識(shí)別系統(tǒng)。TTS系統(tǒng)使用合成語音合成文本字符串和文件到聲音音頻流。語音識(shí)別技術(shù)轉(zhuǎn)換人類的聲音語音流到可讀的文本字符串或者文件。

2.2 在.net應(yīng)用程序中使用SAPI的準(zhǔn)備

安裝SAPI 5.1語音開發(fā)包。

由于SAPI基于Windows平臺(tái),通過COM接口供.net平臺(tái)調(diào)用,所以具體調(diào)用方法為:新建工程,在此工程的解決方案中單擊右鍵,在添加/引用中選擇 Microsoft Speech Object Library,并在程序中添加對(duì)SAPI命名空間的引用:using SpeechLib。

3 系統(tǒng)模型設(shè)計(jì)及實(shí)現(xiàn)

3.1 創(chuàng)立系統(tǒng)界面

 

圖2 系統(tǒng)界面一覽

3.2  使用SAPI語音識(shí)別核心類

ISpRecognizer類是支持語音識(shí)別的核心類,主要用于訪問MCSR實(shí)現(xiàn)語音識(shí)別。在進(jìn)行語音識(shí)別時(shí),微軟Speech SDK 5.1 支持兩種模式的語音識(shí)別引擎:共享(Share)和獨(dú)享(InProc)。在本系統(tǒng)中,我們使用共享型語音識(shí)別引擎,CLSID_SpSharedRecognizer。

SpSharedRecoContext類是語音識(shí)別上下文接口,它可以發(fā)送與接收消息通知,通過CreateGrammar方法創(chuàng)建語法規(guī)則。通過對(duì)它的兩個(gè)事件:_ISpeechRecoContextEvents_RecognitionEventHandler(ssrc_Recognition) ,_ISpeechRecoContextEvents_HypothesisEventHandler(Hypo_Event)的重寫,我們可以很輕松的得到當(dāng)前語音識(shí)別結(jié)果。第一個(gè)事件對(duì)應(yīng)的就是識(shí)別結(jié)果顯示:1、第二個(gè)事件對(duì)應(yīng)的就是識(shí)別結(jié)果顯示;2、ISpeechRecoGrammar類是語法規(guī)則接口,定義語音識(shí)別引擎需要是別的語音類容。起語法規(guī)則可以分為聽寫型與命令控制型。聽寫型可以識(shí)別大詞匯量語音,但是別效率與識(shí)別準(zhǔn)確率較低。命令控制型有針對(duì)性的對(duì)特定語音進(jìn)行識(shí)別,在效率與準(zhǔn)確率上都非常高。

當(dāng)然一個(gè)ISpRecognizer不管是共享還是獨(dú)享,都可以有多個(gè)RecoContext與其關(guān)聯(lián),而一個(gè)RecoContext也可以與多個(gè)ISpeechReco  Grammar關(guān)聯(lián),每個(gè)ISpeechRecoGramma  r識(shí)別各自規(guī)定的內(nèi)容。

 

圖3 語音識(shí)別類對(duì)應(yīng)關(guān)系

3.3  編寫系統(tǒng)核心代碼

通過讀入外部Grammar配置語音識(shí)別引擎,外部Grammar文件以xml文件格式存儲(chǔ)。具體形式如下:

ManegePic.xml

玫瑰

大象

獅子

老虎

仙人掌

珠穆朗瑪峰

布達(dá)拉宮

貂蟬

十字軍

世界杯

阿里巴巴

乒乓球

五星紅旗

……

采用命令控制型Grammar是為了使語音識(shí)別結(jié)果準(zhǔn)確有效,定義外部Grammar是為了保持以后系統(tǒng)的可擴(kuò)展性。對(duì)于新輸入的圖片,只要將圖片名字加入到 圖片名字

中即可。

開始語音輸入事件:

private void btnStart_Click(object sender, EventArgs e)

{

ssrc = new SpSharedRecoContext();

srg = ssrc.CreateGrammar(1);

srg.CmdLoadFromFile(""ManegePic.xml"", SpeechLoadOption.SLODynamic);

//讀入規(guī)則

ssrc.Recognition += new _Ispeec hRecoC ontextEvents_RecognitionventHandler(ssrc_Recognition);

//添加識(shí)別最終事件 

ssrc.Hypothesis += new _IspeechRecoCon textEvents_HypothesisEventHandler(Hypo_Event);

//添加識(shí)別懷疑事件

srg.CmdSetRuleState(srg.Rules.Item(0).Name, SpeechRuleState.SGDSActive);

//激活規(guī)則 

}

其中識(shí)別最終事件是系統(tǒng)在完整處理輸入音頻之后得到的最后識(shí)別結(jié)果,懷疑事件則是因?yàn)橄到y(tǒng)在處理過程中的最相似識(shí)別結(jié)果。這兩個(gè)事件在一些環(huán)境之下得到的識(shí)別結(jié)果不同。

識(shí)別懷疑事件:

private void Hypo_Event(int StreamNumber, object StreamPosition, ISpeechRecoResult Result)

{

  textBox2.Text = Result.PhraseInfo.GetText(0, -1, true);

}

將系統(tǒng)在處理過程中的最相似結(jié)果顯示在textBox控件之中。

識(shí)別最終事件:

void ssrc_Recognition(int StreamNumber, object StreamPosition, SpeechRecognitionT ype RecognitionType, ISpeechRecoResult Result)

{

textBox1.Text = Result.PhraseInfo.GetT ext(0, -1, true);

// 將系統(tǒng)最終結(jié)果顯示在textBox控件之中。

try

{

Picturebox1.image = Result.PhraseInf o.GetText(0, -1, true).tostring()+”.jpg”;

//顯示識(shí)別結(jié)果的圖片

}

Catch (Exception e)

{}

}

由于篇幅有限,這里僅僅給出了構(gòu)建語音識(shí)別引擎與圖片顯示部分的代碼。完 整的系統(tǒng)可以在Windows XP + vs2008環(huán)境中調(diào)試通過,實(shí)現(xiàn)基于.net和SAPI的圖片語音識(shí)別系統(tǒng)。

4 結(jié)語

通過制作圖片語音識(shí)別系統(tǒng),對(duì)利用SAPI進(jìn)行語音識(shí)別有了初步的研究和實(shí)踐,該系統(tǒng)具有一定的擴(kuò)展性,也可以作為子系統(tǒng)嵌入到其他系統(tǒng)之中。該系統(tǒng)的功能可以擴(kuò)展到語音控制文件操作,比如打開/關(guān)閉文件,添加文件,可以制作一個(gè)不需要鍵盤鼠標(biāo)只利用語音就可進(jìn)行操作的軟件系統(tǒng)。

參考文獻(xiàn):

[1] Microsoft Speech 5.1 SDK Help .Microsoft Corporation

第7篇:語音識(shí)別范文

關(guān)鍵詞:語音識(shí)別;LD3320;STM32F407;W25Q128

隨著科技的發(fā)展,人們的操作模式從最初的按鍵操作到觸屏操作,再到現(xiàn)在的語音操作,其越來越便捷,越來越人性化。語音操作的基礎(chǔ)就是語音識(shí)別技術(shù)(Automatic Speech Recognition),簡(jiǎn)稱ASR,其目標(biāo)就將人類語言轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入。語音識(shí)別作為一門交叉學(xué)科,從產(chǎn)生到現(xiàn)在已取得了顯著的進(jìn)步,現(xiàn)在已逐步走向市場(chǎng),并且人們預(yù)計(jì),語音識(shí)別技術(shù)在未來10年將會(huì)應(yīng)用于人們生活的各個(gè)領(lǐng)域。

根據(jù)發(fā)音人的不同,語音識(shí)別技術(shù)可分為特定人語音識(shí)別和非特定人語音識(shí)別兩類,前者只能識(shí)別一個(gè)或幾個(gè)人的語音,而后者則能被任何人使用。本文設(shè)計(jì)的多鼉壩鏌羰侗鶼低塵褪粲詵翹囟ㄈ擻鏌羰侗鷲庖煥啵其以嵌入式微處理器STM32F407為核心,采用ICRoute公司的LD3320語音識(shí)別芯片,并配以存儲(chǔ)空間為16M字節(jié)的W25Q128芯片,能夠?qū)崿F(xiàn)2000個(gè)場(chǎng)景共計(jì)識(shí)別句100000條的語音識(shí)別操作。

1 系統(tǒng)整體結(jié)構(gòu)

如圖1所示,整個(gè)系統(tǒng)主要是由STM32F407處理器、LD3320語音識(shí)別芯片以及W25Q128Flash芯片構(gòu)成。其中STM32F407處理器用于切換場(chǎng)景和場(chǎng)景關(guān)鍵詞更改;LD3320語音識(shí)別芯片用于語音識(shí)別,W25Q128Flash芯片用于存識(shí)別句,兩種都是通過SPI總線與處理器相連。整套系統(tǒng)與外部其他系統(tǒng)則是通過串口進(jìn)行通信。

2 系統(tǒng)硬件介紹及存儲(chǔ)空間設(shè)計(jì)

2.1 系統(tǒng)硬件介紹

2.1.1 STM32F407ZGT6處理器

STM32F407ZGT6采用Cortex_M4內(nèi)核,集成FPU和DSP指令,具有192KB SRAM、1024KB FLASH、3個(gè)SPI、6個(gè)串口等?;谄鋸?qiáng)大的配置,所以本系統(tǒng)的處理器選用該芯片。

2.1.2 LD3320語音識(shí)別模塊

LD3320語音識(shí)別模塊是ICRoute公司的一款產(chǎn)品,其特有的快速而穩(wěn)定的優(yōu)化算法,能夠完成非特定人語音識(shí)別,識(shí)別準(zhǔn)確率高達(dá)95%。該模塊每次最多可以設(shè)置50條候選識(shí)別詞或識(shí)別句,只要單個(gè)詞或句長(zhǎng)度不超過10個(gè)漢字和79字節(jié)的拼音串,同時(shí)我們可以對(duì)識(shí)別內(nèi)容動(dòng)態(tài)編輯。模塊的通訊方式有并行和串行兩種,根據(jù)需求的不同可以選擇不同的通訊方式。除了語音識(shí)別這一功能之外,模塊還支持MP3播放功能,只要MCU將MP3數(shù)據(jù)依次送入芯片,就能夠從芯片的PIN引腳輸出聲音。

2.1.3 W25Q128Flash芯片

W25Q128是華邦公司推出的大容量SPIFLASH產(chǎn)品,容量為128Mbit,即16M。該芯片將16M空間分為256塊,每塊64KB,每塊又分為16個(gè)扇區(qū),每個(gè)扇區(qū)4KB。由于W25Q128的最小擦除單位為一扇區(qū),也就是說每次擦除4KB。

2.2 存儲(chǔ)空間設(shè)計(jì)

由于W25Q128芯片每次擦除的單位為4KB,而每句識(shí)別語句至少有80字節(jié),一個(gè)場(chǎng)景有50句識(shí)別語句,所以一個(gè)扇區(qū)用于一個(gè)場(chǎng)景是不夠的,因此我們將兩個(gè)扇區(qū)劃為一個(gè)場(chǎng)景;圖2是單個(gè)場(chǎng)景數(shù)據(jù)存儲(chǔ)關(guān)系圖,圖中每個(gè)場(chǎng)景占8192字節(jié),每條識(shí)別語句占100個(gè)字節(jié),其中第一個(gè)字節(jié)為識(shí)別語句編號(hào),范圍為1-50;單個(gè)場(chǎng)景的第一個(gè)扇區(qū)可以存儲(chǔ)40條識(shí)別語句,第二個(gè)扇區(qū)可以存儲(chǔ)10條識(shí)別語句,其中第4000B-4096B和5096B-8190B保留,不存儲(chǔ)數(shù)據(jù),整個(gè)場(chǎng)景的最后兩個(gè)字節(jié)用于存儲(chǔ)場(chǎng)景編號(hào),范圍為1-2000。W25Q128共有4096個(gè)扇區(qū),理論上可以劃分2048個(gè)場(chǎng)景,但是我們只劃分2000個(gè)場(chǎng)景,也就是4000個(gè)扇區(qū);還剩下96個(gè)扇區(qū),剩下的第1-50扇區(qū)用于存放每個(gè)場(chǎng)景的相關(guān)信息,計(jì)算可以得到每個(gè)場(chǎng)景有1KB的存儲(chǔ)空間,然后我們將最后一個(gè)扇區(qū)的最后兩個(gè)字節(jié)存儲(chǔ)現(xiàn)在所在場(chǎng)景編號(hào),剩下的空間保留。

3 系統(tǒng)軟件設(shè)計(jì)

3.1 通訊協(xié)議格式設(shè)置

整個(gè)系統(tǒng)主要具有場(chǎng)景切換和場(chǎng)景識(shí)別語句存取功能,表1是部分對(duì)應(yīng)協(xié)議格式。

3.2 初始化函數(shù)及操作函數(shù)介紹

STM32處理器與其他各個(gè)模塊建立通信連接,除了連接好對(duì)應(yīng)IO口后,還需要對(duì)各個(gè)IO進(jìn)行初始化,這樣才能進(jìn)行數(shù)據(jù)的收發(fā),以下是主函數(shù)中相關(guān)初始化函數(shù):

NVIC_PriorityGroupConfig(NVIC_PriorityGroup_2);//首先設(shè)置系統(tǒng)中斷優(yōu)先級(jí)分組

delay_init(168); //初始化延時(shí)函數(shù)

LED_Init();//指示燈初始化

KEY_Init();//按鍵初始化

IWDOG_Init();//看門狗初始化

USART1_Init(9600);//初始化串口1

W25QXX_Init();//W25Q128初始化

LD3320_Init();//LD3320初始化

while(W25QXX_ReadID()!=W25Q128) //檢測(cè)是否存在W25Q128

{

LED0=!LED0; //如果檢測(cè)不到W25Q128指示燈1會(huì)不停閃爍

}

第8篇:語音識(shí)別范文

【關(guān)鍵詞】語音識(shí)別;TMS320VC5402DSP;Mel頻率倒譜參數(shù)MFCC:DTW算法

1.引言

近年來,家居空調(diào)的語音智能控制已經(jīng)成為一個(gè)非?;钴S的研究領(lǐng)域,語音識(shí)別技術(shù)作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的遙控器,在智能控制領(lǐng)域有著廣闊的發(fā)展前景。

語音識(shí)別是機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文件或命令的技術(shù)。隨著DSP技術(shù)的快速發(fā)展及性能不斷完善,基于DSP的語音識(shí)別算法得到了實(shí)現(xiàn),并且在費(fèi)用、功耗、速度、精確度和體積等方面有著PC機(jī)所不具備的優(yōu)勢(shì),具有廣闊的應(yīng)用前景。

2.語音識(shí)別的基本原理

語音識(shí)別的過程是一個(gè)模式匹配的過程。首先根據(jù)語音特點(diǎn)建立語音模型,模型通常由聲學(xué)模型和語言模型兩部分組成,分別對(duì)應(yīng)于語音到半音節(jié)概率的計(jì)算和半音節(jié)到字概率的計(jì)算。對(duì)輸入的語音信號(hào)進(jìn)行預(yù)處理后提取所需的語音特征,在此基礎(chǔ)上建立語音識(shí)別所需的模板。在識(shí)別過程中,根據(jù)語音識(shí)別的整體模型,將輸入的語音特征與已有的語音模板進(jìn)行比較,找出最佳匹配對(duì)象作為識(shí)別結(jié)果。一般的語音處理流程如圖1所示。

圖1 語音識(shí)別系統(tǒng)的處理流程圖

3.系統(tǒng)的硬件設(shè)計(jì)

通過對(duì)系統(tǒng)功能分析,最終確定系統(tǒng)由語音采集與輸出模塊、語音處理模塊、程序數(shù)據(jù)存儲(chǔ)器FLASH模塊、數(shù)據(jù)存儲(chǔ)器SRAM模塊、系統(tǒng)時(shí)序邏輯控制CPLD模塊、JTAG接口模塊等組成,設(shè)計(jì)的框圖如圖2所示。

圖2 語音識(shí)別系統(tǒng)的硬件結(jié)構(gòu)框圖

(1)語音采集與輸出模塊。該模塊由高性能的立體聲音頻Codec芯片TLV320AIC23B來完成。模數(shù)、數(shù)模轉(zhuǎn)換集成在一塊芯片內(nèi),內(nèi)置耳機(jī)輸出放大器,支持MIC和LINE IN兩種輸入方式,輸入和輸出增益可編程設(shè)置。編程設(shè)置內(nèi)部的11個(gè)16位寄存器可得所需的采樣頻率、輸入輸出增益和傳輸數(shù)據(jù)格式等。

(2)語音處理模塊。采用TMS320VC5402 16位微處理器,處理速度快,最快運(yùn)行速度可達(dá)100MIPS,功耗低,是一款理想的DSP處理器。作為系統(tǒng)的整個(gè)核心,其主要功能是接收來自A/D的數(shù)據(jù),完成語音訓(xùn)練和語音識(shí)別。具有豐富的片內(nèi)外設(shè),主要包括通用I/O引腳、硬件定時(shí)器、軟件可編程等待狀態(tài)產(chǎn)生器、可編程塊開關(guān)模塊、增強(qiáng)型并行主機(jī)接口、兩個(gè)多通道緩沖串口、時(shí)鐘發(fā)生器、DMA控制器、JTAG接口,具有管理中斷、循環(huán)運(yùn)算和功能調(diào)用的控制結(jié)構(gòu)。

(3)FLASH模塊。由于TMS320VC5402片上沒有FLASH且片內(nèi)RAM只有16K,因此需要外擴(kuò)外部存儲(chǔ)器使其成為獨(dú)立系統(tǒng),這里選用了存儲(chǔ)容量為256K的低功耗FLASH芯片SST39VF400B,RAM選用了64K SRAM CY7C1021。

(4)CPLD模塊。用來對(duì)存儲(chǔ)器的擴(kuò)展實(shí)現(xiàn)邏輯譯碼,CPLD的供電電壓和DSP相同為3.3V,并且可在線編程,方便修改譯碼邏輯。DSP的一些控制信號(hào)經(jīng)過CPLD后輸出了RAM和FLASH的片選及讀寫信號(hào),從而實(shí)現(xiàn)DSP對(duì)FLASH與SRAM的讀寫操作。

(5)電源模塊。電源設(shè)計(jì)的好壞直接影響到系統(tǒng)的穩(wěn)定。這里選用了TI公司的TPS767D318電源方案,該芯片輸入電壓為+5V,輸出3.3V和1.8V兩路電壓,能夠很好的滿足DSP系統(tǒng)的要求。

(6)空調(diào)控制器模塊。該模塊同傳統(tǒng)的空調(diào)控制器,接收TMS320VC5402模塊發(fā)來的功能控制命令,實(shí)現(xiàn)空調(diào)功能調(diào)整。

(7)電路模塊。復(fù)位電路、時(shí)鐘電路、串口電路和音頻電路等。

4.系統(tǒng)的軟件設(shè)計(jì)

信號(hào)采集為避免信號(hào)失真選用優(yōu)質(zhì)電容MIC作為輸入音源。聲音通過麥克風(fēng)輸入到語音信號(hào)處理板,通過TLV320AIC23B的A/D轉(zhuǎn)換變成數(shù)字信號(hào),經(jīng)過DSP處理后通過D/A轉(zhuǎn)換輸出聲音,然后對(duì)聲音進(jìn)行監(jiān)測(cè),并對(duì)采集的波形進(jìn)行反復(fù)對(duì)比分析,以提取最佳的波形樣本。程序設(shè)計(jì)流程圖如圖3所示。

圖3 系統(tǒng)軟件流程圖

4.1 端點(diǎn)檢測(cè)

語音的前端處理主要包括對(duì)語音采樣、A/D變換、預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)是指從噪聲中檢測(cè)出說話人的語音命令,獲得語音開始和結(jié)束的時(shí)間點(diǎn)。本系統(tǒng)采用短時(shí)平均幅度和短時(shí)過零率相結(jié)合的辦法。在判斷語音的起始點(diǎn)時(shí),只要短時(shí)過零率或短時(shí)平均幅度有一個(gè)超出判決門限時(shí),便開始保存信號(hào),然后確定隨后的幾幀數(shù)據(jù)是否仍滿足判決門限,這時(shí)才可以確定剛采集進(jìn)來的數(shù)據(jù)是有效的,否則認(rèn)為是噪聲引起的,將重新進(jìn)行起點(diǎn)的判定。語音信號(hào)的結(jié)束點(diǎn)采取過零率和幅度相結(jié)合的辦法,如果語音信號(hào)的連續(xù)幾幀的平均能量低于能量門限,那么就認(rèn)為語音信號(hào)結(jié)束。

用于空調(diào)的常用命令控制詞匯有:“開啟”、“制冷”、“溫度”、“睡眠”、數(shù)字“0~9”等,待識(shí)別的詞匯范圍相對(duì)較窄,較易識(shí)別,采用上述方法對(duì)空調(diào)命令的起止點(diǎn)判定達(dá)到了很好的效果,經(jīng)多次反復(fù)試驗(yàn),其準(zhǔn)確率達(dá)98%。

4.2 特征參數(shù)提取

語音信號(hào)中含有非常豐富的信息,特征提取則可以去除冗余信息,以便用于后端模型的建立和匹配。語音識(shí)別中對(duì)特征參數(shù)的要求是:

(1)具有很好的區(qū)分性,能夠有效地代表語音特征;

(2)各階參數(shù)之間有良好的獨(dú)立性;

(3)特征參數(shù)要計(jì)算方便,保證識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。

現(xiàn)在較常用的特征參數(shù)有線性預(yù)測(cè)參數(shù)(LPCC)、Mel頻率倒譜參數(shù)(MFCC)、線譜對(duì)(LSP)參數(shù)等。本文選擇MFCC作為特征參數(shù)。它的核心思想是利用人耳的感知特性,在語音的頻譜范圍內(nèi)設(shè)置若干個(gè)帶通濾波器,每個(gè)濾波器具備三角或正弦濾波特性,計(jì)算相應(yīng)濾波器組的信號(hào)能量,再通過DCT計(jì)算對(duì)應(yīng)的倒譜系數(shù),符合語音識(shí)別中對(duì)特征參數(shù)的要求。

MFCC求取主要步驟是:

(1)給每一幀語音加窗做FFT,取出幅度;

(2)將幅度和濾波器組中每一個(gè)三角濾波器進(jìn)行Binning運(yùn)算;

(3)求log,換算成對(duì)數(shù)率;

(4)從對(duì)數(shù)率的濾波器組幅度,使用DCT變換求出MFCC系數(shù)。

4.3 模板訓(xùn)練和語音識(shí)別

在識(shí)別系統(tǒng)后端,從已知模式中獲取用以表征該模式本質(zhì)特征的模型參數(shù)即形成模式庫(kù),再將輸入的語音提取特征矢量參數(shù)后與已建立的聲學(xué)模型進(jìn)行相似度比較,同時(shí)根據(jù)一定的語法規(guī)則和判別規(guī)則決策出最終的識(shí)別結(jié)果。

目前語音識(shí)別中使用模板匹配技術(shù)比較常見的有隱馬爾可夫模型(HMM)、人工神經(jīng)元網(wǎng)絡(luò)(ANN)和動(dòng)態(tài)時(shí)間規(guī)整算法(DTW)。綜合考慮到算法的復(fù)雜性和計(jì)算量的大小、算法在DSP系統(tǒng)實(shí)現(xiàn)的難易程度以及所需要的DSP資源,系統(tǒng)采用算法相對(duì)簡(jiǎn)單和計(jì)算量相對(duì)較小的DTW算法,并針對(duì)其存在的運(yùn)算量大、識(shí)別性能嚴(yán)重依賴端點(diǎn)檢測(cè)的精度、語音信號(hào)的時(shí)序動(dòng)態(tài)信息沒有被充分利用等問題加以改進(jìn)。

DTW算法是把時(shí)間規(guī)整和距離測(cè)度計(jì)算結(jié)合起來的一種非線性規(guī)整技術(shù),該算法基于動(dòng)態(tài)規(guī)劃的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問題。算法原理是假設(shè)待測(cè)語音共有N幀矢量,參考模板共有M幀矢量,且N≠M(fèi),則動(dòng)態(tài)時(shí)間規(guī)整就是尋找一個(gè)時(shí)間規(guī)整函數(shù)j=w(i),它將測(cè)試矢量的時(shí)間軸i非線性地映射到模板的時(shí)間軸j上,并使該函數(shù)w滿足第N幀測(cè)試矢量和第M幀模板矢量之間的距離測(cè)度最小。通常規(guī)整函數(shù)w(i)被限制在一個(gè)平行四邊形內(nèi),它的一條邊的斜率為2,另一條邊的斜率為1/2,規(guī)整函數(shù)的起始點(diǎn)為(1,1),終止點(diǎn)為(N,M)。

為了提高識(shí)別效率,本文對(duì)DTW算法的搜索寬度限制條件進(jìn)行了改進(jìn)。以局部約束路徑為例,待測(cè)模板每前進(jìn)一幀,對(duì)于點(diǎn)(I,j)只需用到其前一列(i-1,j),(i-1,j-1),(i-1,j-2)三點(diǎn)的累積距離,也就是j-1和j-2兩行的累積距離。以此類推,整個(gè)過程中每一行的格點(diǎn)可以利用前兩行格點(diǎn)的累積距離計(jì)算出該點(diǎn)的累積距離。在本系統(tǒng)應(yīng)用中,DTW算法加入了一些搜索限制條件,實(shí)際的搜索范圍基本上局限于對(duì)角線附近的帶狀區(qū)域。在識(shí)別的過程中,系統(tǒng)分配的存儲(chǔ)空間是搜索寬度的3倍。

5.系統(tǒng)測(cè)試結(jié)果及誤差分析

空調(diào)的語音識(shí)別系統(tǒng)在不同的環(huán)境中使用具有差異性,為了測(cè)試系統(tǒng)在復(fù)雜環(huán)境下的穩(wěn)定性及識(shí)別率,進(jìn)行兩種測(cè)試:一是安靜環(huán)境下的測(cè)試;二是復(fù)雜環(huán)境下的測(cè)試。

在實(shí)驗(yàn)室安靜的環(huán)境下對(duì)男女聲識(shí)別進(jìn)行了測(cè)試。發(fā)音內(nèi)容為常用的空調(diào)控制命令,錄音時(shí)間大約長(zhǎng)為1~1.5s,詞語發(fā)音的時(shí)間大約為500~800ms,采樣率為24KHz,幀長(zhǎng)20ms,幀移10ms,其端點(diǎn)檢測(cè)基本上能排除前面錄音的無聲段的噪音,識(shí)別率達(dá)到了96%以上,原DTW算法的識(shí)別時(shí)間是6~7s,而采用本文改進(jìn)算法的識(shí)別時(shí)間減少到2~5s。因此,本文方法可以實(shí)現(xiàn)快速準(zhǔn)確的簡(jiǎn)單語音識(shí)別。

當(dāng)周圍環(huán)境噪聲較大,信噪比SNR<5dB時(shí),識(shí)別率會(huì)有所下降。但是隨著信噪比的不斷增加,詞匯錯(cuò)誤率逐漸降低,并趨于穩(wěn)定狀態(tài),系統(tǒng)的識(shí)別率保持在94%以上。實(shí)驗(yàn)證明,采用本系統(tǒng),語音識(shí)別率高,且抗噪性能好,對(duì)復(fù)雜環(huán)境的適應(yīng)性強(qiáng)。

錄音過程中,本身含有較大的噪聲,DSP程序中沒有對(duì)語音信號(hào)作降噪處理,這是影響識(shí)別率的原因;另外,不同的人發(fā)同一個(gè)音的長(zhǎng)度和強(qiáng)弱方面均有差異,這也是影響識(shí)別率的原因。

6.結(jié)論

該空調(diào)語音識(shí)別系統(tǒng)以TMS320VC5402DSP為核心處理器,采用Mel頻率倒譜參數(shù)為語音特征,基于改進(jìn)的DTW算法進(jìn)行模式匹配,算法本身計(jì)算量小、速度快、識(shí)別率高,能夠進(jìn)行實(shí)時(shí)語音識(shí)別。此系統(tǒng)平臺(tái)具有良好的實(shí)用性和穩(wěn)定性,經(jīng)實(shí)驗(yàn)測(cè)試表明,系統(tǒng)的特征數(shù)據(jù)傳送穩(wěn)定,壓縮編碼無明顯失真,識(shí)別率達(dá)到94%以上,對(duì)特定人其識(shí)別率可達(dá)97%,達(dá)到了識(shí)別的要求。為取得更好的識(shí)別效果,今后應(yīng)進(jìn)一步優(yōu)化系統(tǒng)算法。由于比傳統(tǒng)鍵盤輸入操作具有更多的優(yōu)勢(shì),語音識(shí)別技術(shù)在未來的家居生活和商業(yè)應(yīng)用會(huì)有更廣闊的應(yīng)用前景。

參考文獻(xiàn)

[1]于志華.基于FPGA的實(shí)時(shí)固定語音識(shí)別系統(tǒng)研究與實(shí)現(xiàn)[D].信息工程大學(xué),2013.

[2]斯蕓蕓.嵌入式語音識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].重慶大學(xué),2012.

第9篇:語音識(shí)別范文

1、點(diǎn)擊桌面實(shí)用工具文件夾選擇語音助手,可以啟動(dòng)語音助手 。

2、設(shè)置語音助手的快捷方式,打開語音助手,點(diǎn)擊右上角三個(gè)點(diǎn)的按鈕設(shè)置勾選從主屏幕鍵上滑啟動(dòng),設(shè)置成功之后,向上滑動(dòng)菜單鍵可以快速啟動(dòng)語音助手。

(來源:文章屋網(wǎng) )