前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的語音識別技術(shù)主題范文,僅供參考,歡迎閱讀并收藏。
【關(guān)鍵詞】語音識別技術(shù);發(fā)展趨勢
語音識別是一門交叉學(xué)科。語音識別研究經(jīng)歷了50多年的研究歷程,經(jīng)過50多年的積累研究,獲得了巨大的進展。特別是近20年來,語音識別技術(shù)取得了顯著的進步,并逐步的走向市場。在未來的日子里,語音識別技術(shù)將應(yīng)用更為廣泛。
一、語音識別技術(shù)概述
語音識別是解決機器“聽懂”人類語言的一項技術(shù)。作為智能計算機研究的主導(dǎo)方向和人機語音通信的關(guān)鍵技術(shù),語音識別技術(shù)一直受到各國科學(xué)界的廣泛關(guān)注。如今,隨著語音識別技術(shù)研究的突破,其對計算機發(fā)展和社會生活的重要性日益凸現(xiàn)出來。以語音識別技術(shù)開發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,如聲控電話交換、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、醫(yī)療服務(wù)、銀行服務(wù)、工業(yè)控制、語音通信系統(tǒng)等,幾乎深入到社會的每個行業(yè)和每個方面。
廣泛意義上的語音識別按照任務(wù)的不同可以分為4個方向:說話人識別、關(guān)鍵詞檢出、語言辨識和語音識別。說話人識別技術(shù)是以話音對說話人進行區(qū)別,從而進行身份鑒別和認證的技術(shù)。關(guān)鍵詞檢出技術(shù)應(yīng)用于一些具有特定要求的場合,只關(guān)注那些包含特定詞的句子,例如對一些特殊人名、地名的電話監(jiān)聽等。語言辨識技術(shù)是通過分析處理一個語音片斷以判別其所屬語言種類的技術(shù),本質(zhì)上也是語音識別技術(shù)的一個方面。語音識別就是通常人們所說的以說話的內(nèi)容作為識別對象的技術(shù),它是4個方面中最重要和研究最廣泛的一個方向,也是本文討論的主要內(nèi)容。
二、語音識別的研究歷史
語音識別的研究工作始于20世紀50年代,1952年Bell實驗室開發(fā)的Audry系統(tǒng)是第一個可以識別10個英文數(shù)字的語音識別系統(tǒng)。
1959年,Rorgie和Forge采用數(shù)字計算機識別英文元音和孤立詞,從此開始了計算機語音識別。
60年代,蘇聯(lián)的Matin等提出了語音結(jié)束點的端點檢測,使語音識別水平明顯上升;Vintsyuk提出了動態(tài)編程,這一提法在以后的識別中不可或缺。60年代末、70年代初的重要成果是提出了信號線性預(yù)測編碼(LPC)技術(shù)和動態(tài)時間規(guī)整(DTW)技術(shù),有效地解決了語音信號的特征提取和不等長語音匹配問題;同時提出了矢量量化(VQ)和隱馬爾可夫模型(HMM)理論。
80年代語音識別研究進一步走向深入:HMM模型和人工神經(jīng)網(wǎng)絡(luò)(ANN)在語音識別中成功應(yīng)用。1988年,F(xiàn)ULEE Kai等用VQ/I-IMM方法實現(xiàn)了997個詞匯的非特定人連續(xù)語音識別系統(tǒng)SPHINX。這是世界上第1個高性能的非特定人、大詞匯量、連續(xù)語音識別系統(tǒng)。
進入90年代后,語音識別技術(shù)進一步成熟,并開始向市場提品。許多發(fā)達國家如美國、日本、韓國以及IBM、Apple、AT&;T、Microsoft等公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。同時漢語語音識別也越來越受到重視。IBM開發(fā)的ViaVoice和Microsoft開發(fā)的中文識別引擎都具有了相當高的漢語語音識別水平。
進入21世紀,隨著消費類電子產(chǎn)品的普及,嵌入式語音處理技術(shù)發(fā)展迅速[2]?;谡Z音識別芯片的嵌入式產(chǎn)品也越來越多,如Sensory公司的RSC系列語音識別芯片、Infineon公司的Unispeech和Unilite語音芯片等,這些芯片在嵌入式硬件開發(fā)中得到了廣泛的應(yīng)用。在軟件上,目前比較成功的語音識別軟件有:Nuance、IBM的Viavoice和Microsoft的SAPI以及開源軟件HTK,這些軟件都是面向非特定人、大詞匯量的連續(xù)語音識別系統(tǒng)。
三、語音識別技術(shù)的發(fā)展現(xiàn)狀
語音識別技術(shù)通過全球科學(xué)家的共同努力,經(jīng)歷半個多世紀的研究,目前已經(jīng)發(fā)展到了接近實用的階段。在實驗室環(huán)境下,大詞匯量的朗讀式連續(xù)說話的寬帶語音信號的平均識別率可以達到90%以上。正式有了如此高的識別率之后,語音識別技術(shù)慢慢地從實驗室演示系統(tǒng)逐步走向?qū)嵱没唐?。以IBM Via Voice和Dragon Dictation為代表的兩個聽寫機系統(tǒng)的出現(xiàn),使“語音識別”逐步進入大眾視線,引起了廣泛的社會關(guān)注。
由于校對和更正識別的錯誤很麻煩和浪費時間,這樣便降低語音識別的優(yōu)勢。同時,由于使用的環(huán)境或講話口音習慣等因素的影響,語音識別的內(nèi)容大大降低,識別的內(nèi)容不能達到100%的正確,所以很多人認為目前的語音識別系統(tǒng)還無法滿足實用要求。
目前,AT&T和MIT等將語音識別技術(shù)應(yīng)用在一些有限詞匯的特定任務(wù)上,如電話自動轉(zhuǎn)接、電話查詢、數(shù)字串識別的任務(wù)中,當講話的內(nèi)容是系統(tǒng)所存儲的內(nèi)容存在的,且使用環(huán)境的聲學(xué)特性與訓(xùn)練數(shù)據(jù)的聲學(xué)特性相差不太大時,語音識別的正確識別率可以接近100%。但是,在實際使用中如果這些條件被破壞,則會對識別系統(tǒng)造成一定的影響。
我國的語音識別研究一直緊跟國際水平,國家也很重視。國內(nèi)中科院的自動化所、聲學(xué)所以及清華大學(xué)等科研機構(gòu)和高校都在從事語音識別領(lǐng)域的研究和開發(fā)。國家863智能計算機專家組為語音識別技術(shù)研究專門立項,并取得了高水平的科研成果。我國中科院自動化所研制的非特定人、連續(xù)語音聽寫系統(tǒng)和漢語語音人機對話系統(tǒng),其準確率和系統(tǒng)響應(yīng)率均可達90%以上。
四、語音識別技術(shù)發(fā)展趨勢
語音作為當前通信系統(tǒng)中最自然的通信媒介,語音識別技術(shù)是非常重要的人機交互技術(shù)。隨著計算機和語音處理技術(shù)的發(fā)展,語音識別系統(tǒng)的實用性將進一步提高。應(yīng)用語音的自動理解和翻譯,可消除人類相互交往的語言障礙。國外已有多種基于語音識別產(chǎn)品的應(yīng)用,如聲控撥號電話、語音記事本等,基于特定任務(wù)和環(huán)境的聽寫機也已經(jīng)進入應(yīng)用階段。這預(yù)示著語音識別技術(shù)有著非常廣泛的應(yīng)用領(lǐng)域和市場前景。隨著語音技術(shù)的進步和通信技術(shù)的飛速發(fā)展,語音識別技術(shù)將為網(wǎng)上會議、商業(yè)管理、醫(yī)藥衛(wèi)生、教育培訓(xùn)等各個領(lǐng)域帶來極大的便利,其應(yīng)用和經(jīng)濟、社會效益前景非常良好.
雖然語音識別在過去的20年里有了很大的發(fā)展,但是,仍然存在很多的不足,有待于進一步的探索,具體可分為以下幾個方面:
1.提高可靠性。語音識別技術(shù)需要能排除各種聲學(xué)環(huán)境因素的影響。在比較嘈雜的公共環(huán)境中,人的意識會有意識的排除非需要的聲學(xué)環(huán)境因素,這對語音識別系統(tǒng)而言,是很難做到的。另外,在日常生活中,人類的語言常常具有較大的不確定性,比較隨意,并帶有明顯的言語習慣。這同樣會給語音識別系統(tǒng)很大的識別麻煩。目前,在提高語音系統(tǒng)在不同環(huán)境中的可靠性,同時要應(yīng)用現(xiàn)代技術(shù)讓語音識別系統(tǒng)更加智能化,掌握人們語言隨意性的部分規(guī)律,以達到最佳的識別效果。
2.增加詞匯量。系統(tǒng)可以識別的詞匯的數(shù)量是系統(tǒng)能夠做什么事情的一個重要度量。一個語音識別系統(tǒng)使用的聲學(xué)模型和語音模型如果太過于局限,當用戶所講的詞匯超出系統(tǒng)已知的范圍時,則語音識別系統(tǒng)不能準確的識別出相應(yīng)的內(nèi)容,比如,當突然從中文轉(zhuǎn)為英文、法文、俄文時,計算機就會常常輸出混亂奇怪的結(jié)果。但是,隨著系統(tǒng)建模方法的不斷改進、搜索算法效率的提高以及硬件資源的發(fā)展,未來的語音識別系統(tǒng)可能會做到詞匯量無限制和多種語言混合,這樣用戶在使用的時候可以不必在語種之間來回切換,這樣就能大大減少詞匯量的對語音識別系統(tǒng)的限制。
3.應(yīng)用拓展。語音識別技術(shù)可以用于把費腦、費力、費時的機器操作變成一件很容易很有趣味性的事,比如,當人們出現(xiàn)手忙、手不能及以及分身無術(shù)的場景時,通過語音識別系統(tǒng)的模型構(gòu)造,則能夠在象駕駛室、危險的工業(yè)場合、遠距離信息獲取、家電控制等各個方面,語音識別技術(shù)可能帶動一系列嶄新或更便捷功能的設(shè)備出現(xiàn),更加方便人的工作和生活。其應(yīng)用的范圍和前景非常廣泛。不僅能夠應(yīng)用于日常生活,更重要的會帶來生產(chǎn)方式的革命,是下一代智能化控制的基礎(chǔ)。
語音識別技術(shù)的應(yīng)用
與機器進行語音交流,讓機器明白你說什么,這是我們長期以來夢寐以求的事情。而提起語音識別.我們最容易想到的還要數(shù)不會講笑話的Siri。
作為世界上第一家上市的語音識別公司,Siri的“娘家”Nuance有著輝煌的歷史,曾經(jīng)在語音領(lǐng)域一統(tǒng)江湖。蘋果iPhone手機的虛擬語音助手Siri、三星的語音助手S-Voice.各大航空公司和頂級銀行的自動呼叫中心和虛擬在線語音助手,都采用了Nuance的技術(shù)。近年來,Nuance的語音識別技術(shù)已經(jīng)從實驗室走向市場,將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。
在智能車載領(lǐng)域,Nuance定制的汽車級語音平臺Dragon Drive獲得了201 5CES創(chuàng)新大獎,通過將車載平臺與手機連接,Nuance可以幫用戶實現(xiàn)語音控制GPS導(dǎo)航、信息收發(fā)、電話接打、社交網(wǎng)絡(luò)更新等等。
在前一段時間,Nuance在其官方博客上,公布了將發(fā)力醫(yī)療領(lǐng)域的消息。消息中說,Nuance在醫(yī)療領(lǐng)域進軍,不僅僅通過智能手表追蹤運動情況和心率,還將會直接根據(jù)人的身體狀況匹配相應(yīng)的服務(wù),如合適的餐廳或食物等,當然這些大多是基于可穿戴設(shè)備的。另外他們還考慮到更多場景.諸如緊急語音求助、醫(yī)患對話存檔、呼叫中心的對話聽寫等。
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及手機等移動終端的普及應(yīng)用,目前可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了豐富的資源,使得構(gòu)建通用大規(guī)模語言模型和聲學(xué)模型成為可能。在語音識別中,訓(xùn)練數(shù)據(jù)的匹配和豐富性是推動系統(tǒng)性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數(shù)據(jù)時代的來臨,大規(guī)模語料資源的積累將提到戰(zhàn)略高度。從Nuance向醫(yī)療領(lǐng)域發(fā)力看出,由于醫(yī)療領(lǐng)域詞匯庫專業(yè)性強演變性弱,只要建立完整的數(shù)據(jù)庫,就可以做到對疾病名稱、藥品名稱相對精確的識別。
如今國內(nèi)也有了相應(yīng)的應(yīng)用如支持語音搜索功能的病歷夾與珍立拍,致力于為醫(yī)生提供一個安全存儲病歷資料的云空間,方便查找病例。而科大訊飛、云知聲、盛大、捷通華聲、中科信利、尚科語音、搜狗語音助手、紫冬口譯、騰訊語音、百度語音等都日漸被用戶習慣的系統(tǒng),都采用了最新的語音識別技術(shù),市面上其他相關(guān)的產(chǎn)品也直接或間接嵌入了類似的技術(shù)。
從打字到語音的習慣改變
隨著語音識別在移動終端上的應(yīng)用越來越火熱,借助機器學(xué)習領(lǐng)域深度學(xué)習研究的發(fā)展,以及大數(shù)據(jù)語料的積累,語音識別技術(shù)得到突飛猛進的發(fā)展。
騰訊、百度都建立了自己的語音團隊,在移動搜索領(lǐng)域發(fā)力 隨著吳恩達加盟,擔任首席科學(xué)家,負責百度研究院,百度看起來更加高大上了許多。吳恩達的研究領(lǐng)域就是機器學(xué)習和人工智能,研究重點是深度學(xué)習。深度學(xué)習被認為是當前的機器學(xué)習算法里最接近人腦思維的一種。在語音識別方面,會對互聯(lián)網(wǎng)、家用電器帶來很大的改革在百度Big Talk2015年第一期公開課上,吳恩達說,“語音會是改革互聯(lián)網(wǎng)的很大一個因素。語音識別會推動物聯(lián)網(wǎng)的革命,比如汽車界面、家用設(shè)備,以及可穿戴設(shè)備。在這方面,特別是在移動互聯(lián)網(wǎng)方面,中國其實領(lǐng)先于美國和其他國家很多。”
今天國內(nèi)的很多用戶都會使用語音搜索,如年幼的用戶、年齡大的用戶,或文化程度不高的用戶,對于他們來說,用語音搜索或許是可以讓我們知道他們需求的唯一方式。因此,語音對話機器人、語音助手互動工具等層出不窮,許多互聯(lián)網(wǎng)公司紛紛投入人力、物力和財力展開此方面的研究和應(yīng)用,目的是通過語音交互的新穎和便利模式迅速占領(lǐng)客戶群。比如搜狗在移動搜索領(lǐng)域“發(fā)聲”,推出“微信頭條”功能宣稱可以根據(jù)用戶興趣變化,來智慧地滿足用戶的差異化閱讀需求。
一、簡述移動電子商務(wù)存在的安全問題
無線通信網(wǎng)絡(luò)在創(chuàng)造移動電子商務(wù)時,也帶來一系列不安全的因素,例如黑客竊聽、盜取信息、篡改用戶信息等。同時,有關(guān)法律法規(guī)的不夠完善也嚴重制約著移動電子商務(wù)的快速發(fā)展。
1.竊聽用戶信息
過去的電子商務(wù)中,入侵者可以運用有線網(wǎng)絡(luò),進一步實施有關(guān)的竊聽工作,因此,極易判定入侵者的具置和信息。在無線網(wǎng)絡(luò)環(huán)境下,進行追蹤比較困難,因此在無線網(wǎng)絡(luò)環(huán)境下,入侵者如果具備網(wǎng)卡或相關(guān)的無線設(shè)備從任何地點都能進入無線網(wǎng)絡(luò)中。
2.黑客篡改用戶信息
篡改用戶信息的情況在無線電子商務(wù)中非常普遍,如果非法用戶采用無線通信網(wǎng)絡(luò)獲取用戶的交易信息,可以隨意把篡改或刪除信息發(fā)送出去,這會給用戶帶來很大的損失。黑客也可以截取用戶的登陸名稱或密碼,從而竊取用戶的合法賬號。
二、語音識別技術(shù)在移動電子商務(wù)中的應(yīng)用
1.創(chuàng)建安全模型
本文設(shè)計的安全模式,是以語音識別技術(shù)為基礎(chǔ),創(chuàng)建移動電子商務(wù)安全模型。該系統(tǒng)包含移動設(shè)備用戶、語音服務(wù)提供商、移動電子商務(wù)企業(yè)三個部分組合而成??蛻舳溯斎氲恼Z音信息先讓移動電子商務(wù)企業(yè)接收,隨之傳送至語音服務(wù)提供商進行處理。設(shè)計的模型主要表現(xiàn)在儲存語音信息、進行語音識別、及時更新、傳輸安全四個方面,從而有效保障電子商務(wù)交易的安全運行。
2.安全模型的各項功能
(1)存儲語音信息
在無線電子商務(wù)實際交易時,全部的語音信息會先存在移動電子商務(wù)企業(yè)的語音數(shù)據(jù)庫內(nèi),移動電子商務(wù)企業(yè)把用戶讀入的信息轉(zhuǎn)換為數(shù)字符號,存入專業(yè)的語音數(shù)據(jù)內(nèi)并標明用戶名稱、時間等信息,從而更好的標識語音信息。移動電子商務(wù)企業(yè)把新增加的語音信息發(fā)送到語音服務(wù)提供商,由他們對這一段語音信息給予相應(yīng)的處理,成功獲取這段語音特征之后,自行把特征信息輸送到移動電子商務(wù)企業(yè)的語音特征數(shù)據(jù)庫內(nèi),并標明相對應(yīng)的用戶名稱、時間等信息,隨之進一步展開語音識別。從上述的分析可知,對用戶輸入的語音信號進行去噪、提取特征先是由語音服務(wù)提供商進程處理。語音服務(wù)提供商把語音信息傳輸給電子商務(wù)企業(yè)的語音特征數(shù)據(jù)庫之后,電子商務(wù)企業(yè)系統(tǒng)會先對語音特征是否已經(jīng)出現(xiàn)在數(shù)據(jù)庫中,如果查詢獲知該用戶名存在,表明數(shù)據(jù)庫已經(jīng)詳細記錄該用戶的語音信息;隨后把新錄入的語音特征與上一次最新的語音特征展開比較。若兩次語音特征一致,表明該語音順利通過系統(tǒng)識別,證明用戶的身份合法。同時,由于語音并不是獨特或唯一的,進行語音識別時極易受到外界環(huán)境的干擾,對確定語音識別發(fā)生源非常困難。此時,可以使用相關(guān)技術(shù)在服務(wù)器端設(shè)置聲吶裝置,當用戶進行語音識別驗證過程中,憑借超聲波判定發(fā)生源體積的大小。但該設(shè)備無法安裝在客戶端上,如果這樣非法用戶可以把客戶端的聲吶設(shè)備拆卸下來,從而致使發(fā)生源可信度降低。
(2)及時更新語音特征
移動電子商務(wù)企業(yè)不僅僅要接受輸入的語音信息,同時要及時更新語音特征,從而提升語音識別的準確度。具體實施步驟如下:首先必須具備充足的歷史信息才能有效總結(jié)新的規(guī)律。移動電子商務(wù)企業(yè)可以建立定時查看用戶語音特征的系統(tǒng),如果系統(tǒng)檢測到語音特征數(shù)據(jù)庫共出現(xiàn)30余條相同用戶名的語音特征,系統(tǒng)會自動對語音特征展開比較,從而找尋其中的差別,最后獲取新的語音特征。把新的語音特征作為21條語音特征輸入語音特征數(shù)據(jù)庫內(nèi),之后發(fā)送到相關(guān)企業(yè)數(shù)據(jù)庫內(nèi)。若看到某一用戶名下語音特征多于20條,運用這一信息數(shù)除以20,如果得出的余數(shù)是0,在采用最新的20條信息按照上述的步驟進行處理。運用上述方法對語音特征進行更新。
(3)傳輸語音信息
由于無線網(wǎng)絡(luò)具有開放性的特征,因此網(wǎng)絡(luò)的通信安全極易受到威脅。不管是移動電子商務(wù)企業(yè)把語音信息傳輸出去,還是語音服務(wù)提供商對語音特征進行處理,把其傳送給無線電子商務(wù)企業(yè)中,不可避免會遭受黑客的竊聽和篡改,保護語音信息的安全性和完整性顯得尤為重要??梢圆捎眯畔㈦[藏技術(shù)對語音信息進行加密操作,用來隱藏的載體可以是圖像或者一段音樂。若使用圖像,要先把圖像轉(zhuǎn)換為相對應(yīng)的格式,隨之把語音特征信息或語音信息轉(zhuǎn)換為該格式,把信息的開頭、結(jié)尾、內(nèi)容信息標記后插入其中,保障圖片信息不會改變。隨后把圖片和經(jīng)過加密的信息標記格式一次發(fā)送給相關(guān)的企業(yè)或解碼系統(tǒng),解碼系統(tǒng)在受到信息標記格式之后,把圖片信息的語音特征讀入相對應(yīng)的數(shù)據(jù)庫內(nèi)。同時,解密系統(tǒng)可以依照標記的信息開頭、結(jié)判定信息的完整性,有效阻止黑客竊聽和篡改信息。
關(guān)鍵詞:語音識別;CHMM模型;特征參數(shù)選擇
中圖分類號:TP391.4 文獻標識碼:A
1 引言
在語音識別的三大算法中CHMM算法的高識別率是以大計算量和大存儲量為代價的,在基于嵌入式技術(shù)的語音識別系統(tǒng)或具有較強實時性要求的語音識別系統(tǒng)等特殊情況下,系統(tǒng)的資源和計算能力往往受到較大的限制,在保證一定識別率情況下減少識別算法對系統(tǒng)存儲與計算資源的需求,具有重要意義。而語音識別系統(tǒng)的性能與系統(tǒng)所采用的特征參數(shù)密切相關(guān),這就為我們利用特征參數(shù)的選取來實現(xiàn)系統(tǒng)識別性能與計算資源需求之間的折衷處理成為可能。目前,有很多文獻做了各類特征參數(shù)對識別效果影響程度的研究工作,卻沒有討論同一種類參數(shù)分量的問題;則通過對相鄰分量的組合,用實驗結(jié)果說明了MFCC分量的相對重要性,但他們都僅用實驗結(jié)果加以說明,缺乏理論分析。
本文從CHMM模型的特點出發(fā):一方面從理論上給出了選擇特征參數(shù)的數(shù)學(xué)依據(jù),另一方面提出根據(jù)特征參數(shù)對系統(tǒng)誤識率的影響程度,選擇特征參數(shù)的方法。
2 基于CHMM模型特征參數(shù)選擇的理論分析
CHMM的Gauss概率密度函數(shù)的協(xié)方差矩陣本來應(yīng)該是對稱的滿矩陣,為了降低對計算復(fù)雜度和存儲量的要求,一般簡化為對角矩陣。采用對角協(xié)方差陣使模型的參數(shù)減少,也有利于避免因訓(xùn)練樣本不足而影響模型參數(shù)估計的可靠性。而且實驗結(jié)果表明,概率密度函數(shù)的個數(shù)較多且取對角協(xié)方差陣的方案優(yōu)于概率密度函數(shù)較少且取滿元協(xié)方差陣的方案。所以,實際中一般使用具有對角協(xié)方差陣的Gauss概率密度函數(shù)。CHMM計算
的特征矢量。通常,人們使用MFCC+AMFCC或LPCC+ALPCC作為特征矢量,即將MFCC、AMFCC、LPCC、ALPCC作為整體來處理。需要注意的是MFCC和LPCC雖然分別有其完整的物理意義,即Mel刻度聽覺參數(shù)的同態(tài)變換系數(shù)和聲道參數(shù),將他們的各個分量獨立考慮會破壞其物理意義的完整性,但在基于對角協(xié)方差陣的CHMM的模型中,各個分量相互獨立,從而使得我們可以根據(jù)各個分量的重要性來選擇分量,構(gòu)成特征矢量以減少計算量。另一方面,由于舍去的是對誤識率影響較小的分量,所以系統(tǒng)的識別效果不會顯著改變,從而充分有效的利用了特征矢量的區(qū)分特性。在減少計算量的同時,保證了識別率。
3 CHMM算法計算量與存儲量的分析
3.1 MFCC、AMFCC求取
目前,在語音識別系統(tǒng)中,最常用就是具有較好抗噪性能的MFCC+AMFCC參數(shù)。其求取步驟為:1)對預(yù)處理后的每一幀語音信號先進行快速傅里葉變換以獲得頻譜分布信息2)然后將頻域信號通過一組三角濾波器,中心頻率在Mel刻度上均勻分布3)求出每個濾波器的輸出對數(shù)能量4)對其進行離散余弦變換得MFCC5)對MFCC求差分得AMFCC
3.2 計算量與存儲量的分析
設(shè)CHMM模型采用N個狀態(tài)、M階混合Gauss概率密度函數(shù)的Markov鏈;特征矢量維數(shù)為n;訓(xùn)練數(shù)據(jù)為l遍語音數(shù)據(jù),為方便表示設(shè)每遍語音數(shù)據(jù)幀數(shù)為T,模型庫容量為R。訓(xùn)練:①每次參數(shù)迭代前計算
數(shù)下降N*M*T*R*K次;模板庫中Gauss概率密度函數(shù)參數(shù)個數(shù)減少N*M*R*2*K個。
4 實驗及其結(jié)果分析
實驗數(shù)據(jù):6個女性發(fā)音,0~9十個數(shù)字,每個數(shù)字發(fā)音50次,其中30次用于建立CHMM模型;實驗?zāi)P瓦x擇:采用六個狀態(tài)的從左到右的無跨越的4階混合Gauss概率密度函數(shù)的CHMM模型,端點檢測方法選擇經(jīng)典的雙門限方法。
實驗Ⅰ 在MFCC+AMFCC中去掉某一分量找到對誤識率影響較大的分量(見表1)。
實驗Ⅱ 在MFCC+AMFCC中去掉對誤識率影響小的分量,找到最佳(見表2)。
從實驗結(jié)果可以看出,在CHMM模型上采用MFCC1、MFCC2、MFCC4、MFCC5、MFCC7、MFCC8、MFCC10、MFCC11、MFCCi(i≠11)組成19維的特征矢量,系統(tǒng)的誤識率僅上升2.75%,即系統(tǒng)的識別率仍有95.75%,可以滿足實際需要。而模板庫參數(shù)個數(shù)下降2400個;同時在訓(xùn)練中N(U,σ2)的計算次數(shù)減少了41,834,880*K次(K為迭代次數(shù));匹配時N(u,σ2)的計算次數(shù)減少1200*T次(T為待識語音幀數(shù))。實驗結(jié)果表明:與常規(guī)的24維MFCC+MFCC相比,選擇其中對識別率貢獻大的主要分量構(gòu)成的低維特征矢量,系統(tǒng)在訓(xùn)練、識別過程中N(u,σ2)的計算次數(shù)和模板庫參數(shù)個數(shù)明顯下降,而系統(tǒng)誤識率僅略微上升。
5 結(jié)論
關(guān)鍵詞 數(shù)字識別;圖像預(yù)處理;特征提?。簧窠?jīng)網(wǎng)絡(luò)
引言
目前,識別技術(shù)已經(jīng)廣泛地應(yīng)用到了各個領(lǐng)域中。為了達到對一幅圖像中的數(shù)字進行識別的目的,我們要對圖像進行一些處理,這些處理工作的好壞直接決定了識別的質(zhì)量,這些處理技術(shù)依次為圖像的讀取、對讀取的圖像進行灰度變換、按照量化指標對灰度變換后的圖像進行二值化、然后對二值化后的圖像中的字符信息進行切分等。在進行完上述預(yù)處理工作后進行特征提取,再輸入到已經(jīng)訓(xùn)練好的BP網(wǎng)絡(luò)進行識別。
1 識別的流程
識別的流程按照引言中的步驟進行,主要分為兩大部分,第一部分為圖像的預(yù)處理、第二部分為通過神經(jīng)網(wǎng)絡(luò)進行印刷體數(shù)字的識別。預(yù)處理部分的流程:圖像輸入-灰度變換-圖像二值化-緊縮重排-歸一化調(diào)整-圖像分割-特征提取。神經(jīng)網(wǎng)絡(luò)數(shù)字識別的具體流程:樣本訓(xùn)練-字符特征輸入-識別并給出結(jié)果。
2 基于神經(jīng)網(wǎng)絡(luò)的特征提取算法概述
圖像在經(jīng)過了前期的預(yù)處理后,由原來雜亂無章的字符變?yōu)榱苏R排列的、大小相同的一列字符,在這里圖像歸一化后的寬度為8像素,高度為16像素,這樣就大大方便了對字符特征的提取。我們把提取的特征存儲在特征向量里,然后把特征向量輸入到神經(jīng)網(wǎng)絡(luò)中,這樣就可以對字符進行識別了。由以上的論述我們可以得出結(jié)論,特征提取的算法是整個識別過程的關(guān)鍵,它的好壞直接決定了識別的成敗。對圖像中的字符進行特征提取的算法有很多,下面對幾種重要的分別進行介紹。
2.1骨架特征提取法
由于圖像的來源不同,這就使得圖像的線條所使用的像素不同,在圖像上表現(xiàn)出來就是線條的粗細的不同,這樣就使得它們的差別很大。如果我們將不同的圖像統(tǒng)一到相同的像素水平,那么它們的差別也就不那么明顯了。我們使用骨架特征提取算法,就會使得識別具有一定的適應(yīng)廣度和寬度。
2.2逐像素特征提取法
這種圖像的特征提取算法是最為常用的方法,它的特點是能夠保留圖像中的全部特征信息,不過這種特征提取算法對圖像的噪聲較為敏感,對原始圖像的質(zhì)量要求較高,它采用逐行掃描的辦法,對圖像進行掃描,為整個圖像建立一個以圖像中的像素個數(shù)相同的特征向量矩陣。矩陣值為0或1,圖像中的黑色像素記為1,白色像素記為0。
2.3垂直方向數(shù)據(jù)統(tǒng)計特征提取法
此算法是對逐像素提取算法的改進,他使得特征向量矩陣的維數(shù)降低,便于后期的識別。該算法首先對圖像進行水平掃描,在這一過程中,統(tǒng)計沒一列的黑色像素數(shù),然后進行對圖像進行垂直掃描,并記錄每一行上的黑色像素數(shù),對于一個字符寬度和長度為W和H的字符,他的特征向量的維數(shù)就為W+H。
2.4特征點提取法
這一特征提取算法首先對字符進行分割,利用實現(xiàn)設(shè)定的四條線將字符分為八個部分,分別統(tǒng)計每個部分中黑色像素的數(shù)目,可以得到八個特征。然后統(tǒng)計水平和垂直兩個方向上,穿過四條線的黑色像素數(shù),得到四個特征,最后將整個圖像中黑色像素的數(shù)目作為一個特征,一共得到十三個特征。該方法具有很強的適應(yīng)性,但是由于特征點較少,使得在樣本的訓(xùn)練過程中很難收斂。
可以看出,識別算法各有特點,根據(jù)實踐需要,本識別算法中的特征提取算法采用逐像素特征提取法。原因是這種算法的執(zhí)行效率高,方法簡單容易實現(xiàn),且對于神經(jīng)網(wǎng)絡(luò)來說有很快的收斂性,具有較好的訓(xùn)練效果。
3 BP網(wǎng)絡(luò)進行數(shù)字識別算法設(shè)計
BP網(wǎng)中中各層中的節(jié)點數(shù)是設(shè)計BP網(wǎng)絡(luò)最基本的一點,對于神經(jīng)網(wǎng)絡(luò)的輸入層而言,其節(jié)點數(shù)為經(jīng)過圖像預(yù)處理里后特征向量的維數(shù)??梢灾苯永妹總€點的像素值作為特征,這里特征提取采用逐像素提取法,歸一化后圖像的寬度為8,高度為16,因此對于輸入樣本來說,每一個樣本都會由128個特征,因此神經(jīng)網(wǎng)絡(luò)的輸入層的特征數(shù)為128。
對于神經(jīng)網(wǎng)絡(luò)內(nèi)部隱藏層的節(jié)點數(shù)來說,其節(jié)點數(shù)沒有特別的規(guī)定,總的來說,隱藏層的神經(jīng)元的數(shù)目與神經(jīng)網(wǎng)絡(luò)的精度成正比,與訓(xùn)練時間成反比。如果神經(jīng)網(wǎng)絡(luò)的神經(jīng)元設(shè)置的過多,會對識別率造成較大影響,使得識別率大幅下降。因此在這里根據(jù)多年的實踐經(jīng)驗在神經(jīng)網(wǎng)絡(luò)的隱藏層選取10神經(jīng)單元。 對于輸出層而言,要根據(jù)設(shè)定的輸出標準來確定輸入層的節(jié)點數(shù)。在本算法中采用8421的編碼進行編碼。對于0-9這十個數(shù)字,分別對應(yīng)十個8421碼,例如,0的8421碼為(0,0,0,0),1的8421碼為(0,0,0,1),依次類推,因此神經(jīng)元的數(shù)目選定為4,就可以表示這十個數(shù)字,然而,因為神經(jīng)元的激勵函數(shù)(傳輸函數(shù))是S型函數(shù),期望輸出只能是大于0小于1的數(shù),而不能是1或者0,因此用0.1來代表0,0.9代表1,否則算法將不能收斂。
神經(jīng)網(wǎng)絡(luò)搭建好后,要對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,也就是確定神經(jīng)網(wǎng)絡(luò)中各個參數(shù)的權(quán)值。本程序的訓(xùn)練樣為圖片。首先將圖片進行預(yù)處理,然后提取特征,將特征值輸入到神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練。在這里使用10個字符的圖片進行訓(xùn)練,在圖片里包含了ARIAL字體0-9十個數(shù)字。
通過50個相關(guān)訓(xùn)練樣本進行訓(xùn)練后,BP網(wǎng)絡(luò)對于數(shù)字字體的識別率能夠達到百分之九十以上。訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)就可以對數(shù)數(shù)據(jù)進行識別了。
4結(jié)論
本文以VC為平臺,運用人工神經(jīng)網(wǎng)絡(luò)的思想(主要采用BP神經(jīng)網(wǎng)絡(luò)),實現(xiàn)了對印刷體數(shù)字識別。系統(tǒng)實現(xiàn)分為圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)識別兩大模塊。首先,掃描進入電腦的圖像需保存為256色位圖或者是256級灰度圖像。首先對圖像進行預(yù)處理,然后進行特征提取,再輸入BP網(wǎng)絡(luò)進行識別。BP神經(jīng)網(wǎng)絡(luò)進行字符識別的過程主要包括網(wǎng)絡(luò)的訓(xùn)練、數(shù)據(jù)的讀取、字符的判定、結(jié)果的輸出等。本系統(tǒng)通過對樣本數(shù)據(jù)進行學(xué)習和訓(xùn)練,形成了具有良好識別能力的網(wǎng)絡(luò),對印刷體數(shù)字進行識別檢測,達到了一定的準確度,滿足了設(shè)計要求。
參考文獻
【關(guān)鍵詞】語音識別 音頻文字自動提取
一、引言
由于計算機技術(shù)近年來發(fā)展非常迅速,使人們用語言與計算機進行通信與交流已成為可能,而起草文稿、撰寫文章、準備教案、會議記錄等都需要文字整理,對比傳統(tǒng)的鍵盤和鼠標輸入方式,語音識別技術(shù)在速度上要提高2~4倍。
從音頻中自動提取文字是以語音識別系統(tǒng)為核心,對參考文本和對應(yīng)語音進行強制對準的過程,其目的在于將音頻信息轉(zhuǎn)換為文本文字。作為語音識別領(lǐng)域中一種常見的預(yù)處理技術(shù),音頻文字自動提取廣泛應(yīng)用在政府機關(guān)、企事業(yè)單位的會議記錄;網(wǎng)絡(luò)文字直播;媒體采訪速記;錄像文字整理;廣播電視媒體;錄音文字整理;大量文字的錄入排版、打印輸出,計算機輔助語言教學(xué)等方面,此外,還可為現(xiàn)場直播的新聞、演講、會議等生成字幕;為語言教學(xué)、游戲娛樂、電影制作等生成多媒體庫;為歌曲制作同步的歌詞顯示等。
由此可見,音頻中提取文字這項技術(shù)的用處很大,而目前能實現(xiàn)自動翻譯的語音識別同生速記系統(tǒng)還正在研究之中。市場上要將錄音轉(zhuǎn)換成文字的方法就是找專業(yè)的速記公司,進行人工翻譯,工作量大,效率慢,而且收費很高,一般每小時錄音收費為200元左右。
二、背景及發(fā)展現(xiàn)狀
語音識別技術(shù)的研究工作起始于20世紀50年代,貝爾實驗室通過提取語音特征參數(shù),第一個實現(xiàn)了可以識別10個英文數(shù)字的語音識別系統(tǒng)。20世紀80年代,人工神經(jīng)網(wǎng)絡(luò)技術(shù)引入語音識別,HMM模型和人工神經(jīng)元網(wǎng)絡(luò)ANN被成功應(yīng)用,進入90年代后語音識別系統(tǒng)從實驗室逐步走向?qū)嵱?。我國語音識別研究工作起步于20世紀80年代,從1987年開始執(zhí)行國家863計劃后,以清華大學(xué)電子工程系與中科院自動化研究所為代表的研究機構(gòu),得到了國家自然科學(xué)基金重大和重點項目等基金的支持,取得了豐碩的研究成果。目前市場上主要產(chǎn)品有北京陽宸電子技術(shù)公司的 VS-99 語音自動識別系統(tǒng)、科大訊飛的 InterVeri 系列等開發(fā)的語音自動識別系統(tǒng)等。
三、語音識別原理
自動語音識別技術(shù)(Auto Speech Recognize,簡稱ASR),在整個構(gòu)建過程中包括兩個階段:訓(xùn)練階段和識別階段。在訓(xùn)練階段,ASR系統(tǒng)進行語音收集,然后對收集的語音進行降噪處理,消除部分噪音和發(fā)音者的個性特點,為了使處理后的信號更清晰,可以將發(fā)音者語音中的詞匯內(nèi)容轉(zhuǎn)換為數(shù)字格式,即計算機可讀的輸入,例如二進制編碼,然后ASR系統(tǒng)將提取的每個語音單位的特征矢量進行一定的處理,然后存入到模板庫中。
在模式匹配(即識別)過程中,ASR系統(tǒng)通過學(xué)習算法產(chǎn)生特征矢量,在識別時將輸入語音的特征矢量與模板庫征矢量相比較,找到最匹配的單詞序列。目前最具有代表性的ASR技術(shù)有動態(tài)時間環(huán)繞技術(shù)、隱馬爾科夫(markov)模型(HMM)和人工神經(jīng)網(wǎng)(ANN)模型。其中基于HMM的技術(shù)最為流行且語音識別性能最好。
四、 音頻文字自動提取的設(shè)計與實現(xiàn)
通常音頻素材所占的容量都比較大,為了節(jié)省工作量,在使用素材之前,一般使用goldwave將音頻素材分割成所需要的長度。再配合使用Windows 7系統(tǒng)中的語音識別功能,通過該功能,可以讓我們徹底拋開鼠標和鍵盤,只用語音控制電腦,特別是配合word軟件,還能實現(xiàn)文本的語音輸入,識別的準確性也較高。為了使win7語音識別系統(tǒng)獲得更清晰的語音素材,需要在播放音頻素材的同時使用內(nèi)錄功能,文本軟件會記錄下提取到的音頻文字內(nèi)容,創(chuàng)建文本文檔,也可在文檔中進行修改或更正錯誤。
盡管win7系統(tǒng)可以實現(xiàn)音頻文字的自動提取,由于環(huán)境噪聲、使用者的語音差別等等因素,所以其最終識別率并不高。所以,我們還需要對win7語音識別系統(tǒng)進行模型訓(xùn)練。通過不斷糾正其錯誤識別文字,在數(shù)據(jù)庫中加入生僻名詞,反復(fù)使用音頻素材對模型進行訓(xùn)練,使語音識別系統(tǒng)最終能完全識別音頻素材,以此來優(yōu)化模型,提高語音系統(tǒng)的識別率。
五、總結(jié)和展望
如今計算機語音識別技術(shù)作為一股潛在的發(fā)展技術(shù)極大提高人們的現(xiàn)實生活需要,不僅轉(zhuǎn)變了人們的生活方式,提高了工作效率,更加推動了社會的進步和文明的發(fā)展,所以從音頻中自動提取文字具有廣闊的應(yīng)用前景,由于語音自動識別的局限性,使得這項技術(shù)任重而道遠,。
在今后的科研中,音頻中自動提取文字將被更加廣泛的應(yīng)用,各種具有音頻自動提取文字的產(chǎn)品也將漸漸在市場上出現(xiàn),隨著計算機信息技術(shù)的不斷發(fā)展創(chuàng)新,語音識別系統(tǒng)將會引領(lǐng)我們的信息技術(shù)革命到一個新的臺階。
關(guān)鍵詞:單片機;LD3320語音識別模塊;智能家居;聲控系統(tǒng)
中圖分類號:TN912.34 文獻標識碼:A 文章編號:2095-1302(2016)11-00-03
0 引 言
智能家居(smart home)的概念很早就被提出來,但是一直沒有在現(xiàn)實中被具體實踐,直到1984年出現(xiàn)的首棟智能型建筑拉開了全人類爭相構(gòu)建智能家居的帷幕。智能家居不是某一項家庭電器的智能化,而是以住宅為平臺,為實現(xiàn)家居安全舒適、科學(xué)環(huán)保、健康節(jié)能的家居生活環(huán)境,依賴綜合布線和網(wǎng)絡(luò)通信技術(shù),將家電設(shè)備聯(lián)系起來,構(gòu)建高效、流暢的家居設(shè)備管理系統(tǒng),方便人們對家用設(shè)備進行操作與管理,為人類提供智能、舒適的生活方式。
1 語音識別的發(fā)展歷史及應(yīng)用領(lǐng)域
從工業(yè)革命開始,人類逐漸受益于高速的機器生產(chǎn),但隨著科技的發(fā)展,人類開始夢想著與機器進行交流溝通,讓機器明白人類的命令,然后給予回應(yīng),真正實現(xiàn)用機器代替人類進行繁重勞動的目標。語音識別技術(shù)為該目標的實現(xiàn)提供了可能,該技術(shù)將其接收到的音頻信號轉(zhuǎn)換為機器可識別的文本或命令后進行進一步處理。現(xiàn)如今,經(jīng)歷半個多世紀的探索與創(chuàng)新,語音識別技術(shù)在各領(lǐng)域都實現(xiàn)了應(yīng)用,小到兒童玩具、個人家庭電器、電子產(chǎn)品,大到醫(yī)療、工業(yè)生產(chǎn)等,語音識別系統(tǒng)都發(fā)揮著不可替代的作用。從世界上第一個能識別10個英文數(shù)字發(fā)音的語音識別系統(tǒng)到如今廣泛應(yīng)用在各行各業(yè)的語音識別系統(tǒng),我們希望語音識別技術(shù)在未來取得更大的發(fā)展。
語音識別技術(shù)的發(fā)展離不開研究者們的卓越貢獻,由一開始特定人、小詞匯的識別到如今非特定人、連續(xù)發(fā)音、大量詞匯的識別,這其中各種技術(shù)的更新發(fā)展必不可少。廣泛使用的計算機網(wǎng)絡(luò)和普遍使用的手機、ipad等提供了大量文本和語音方面的材料資源,多渠道的資源為語音識別中的語言模型和聲學(xué)模型的訓(xùn)練提供了有力支持。語音識別的未來發(fā)展令人期待。
2 智能家居聲控系統(tǒng)的方案設(shè)計
2.1 系統(tǒng)總體結(jié)構(gòu)圖
圖1所示為系統(tǒng)總體設(shè)計結(jié)構(gòu)框圖。該系統(tǒng)的硬件部分包括電源、LD3320芯片、單片機、繼電器等。語音識別由LD3320芯片實現(xiàn),系統(tǒng)整體控制由MCS-51單片機實現(xiàn),包括對LD3320芯片的初始化等。用戶語音指令經(jīng)麥克風送給LD3320語音識別模塊,LD3320識別處理后,把識別結(jié)果傳送給單片機,單片機將根據(jù)識別結(jié)果對外設(shè)進行相應(yīng)控制。若語音指令無法識別,則由單片機控制LD3320語音模塊重新進入新的識別處理過程。
2.2 LD3320語音識別模塊
LD3320芯片是一個專用于語音識別的芯片,該芯片在設(shè)計時注重高效與節(jié)能,無需外接任何輔助芯片,直接集成了語音識別處理模塊和外部電路,如麥克風接口、語音輸出接口、AD/DA轉(zhuǎn)換器等,使其可以實現(xiàn)語音識別、聲音控制及人機對話等功能。
2.2.1 主要特征
完成非特定人的語音識別命令。在語音識別技術(shù)發(fā)展之初,只能由特定的人進行語音命令來完成任務(wù),且需要錄音和練習等,而現(xiàn)在只需用戶使用相同的語言就可以進行識別,且識別效率大大提高,識別率高達95%,無需外接輔助,實現(xiàn)了單芯片語音識別。
由于用戶的語音命令有多種可能,如意思相同但語音命令不同或受到口音語氣的影響等,LD3320芯片中的識別語句是動態(tài)可編輯,可修改的,在設(shè)計時可根據(jù)具體情況考慮多種可能,如設(shè)置50條識別語句留作用戶語音命令的候選語音,以提高系統(tǒng)的整體水平。不過設(shè)置時需注意識別語句的長度,如果設(shè)置漢字則不能超過10個,設(shè)置拼音串則不能超過79個。支持串行接口和并行接口,也可設(shè)置為休眠狀態(tài),方便激活。
2.2.2 LD3320語音口令識別處理過程
LD3320芯片的語音口令識別處理過程如圖2所示。
2.2.3 LD3320語音識別模塊使用技巧
在一些特別的應(yīng)用場合,人們希望語音識別系統(tǒng)具有較高的識別精度。本系統(tǒng)設(shè)計采用“用戶口令觸發(fā)模式”以提高抗干擾能力,避免單片機對外設(shè)控制時產(chǎn)生錯誤動作。
程序設(shè)計中設(shè)置一個短句作為用戶命令的觸發(fā)口令。如定義“小明”作為用戶的觸發(fā)口令。在等待用戶觸發(fā)時,特別是有雜音、噪音的情況下,系統(tǒng)將啟動 “循環(huán)識別處理”模式,把觸發(fā)口令“小明”和其他幾十個用來吸收錯誤的詞匯設(shè)置進LD3320語音識別芯片。如果LD3320芯片中程序檢測到用戶的觸發(fā)口令時,則開啟“觸發(fā)模式”,用戶給出一級口令,若檢測為正確口令,則芯片將給出指示,即提示燈開始閃爍(大約2 s)后,開啟二級口令的接收檢測即“識別模式”,LD3320識別到預(yù)設(shè)的二級口令后,如臥室開燈、臥室關(guān)燈等,將識別結(jié)果送給單片機,由單片機對外設(shè)進行控制。在等待口令時,可能會進行誤識別,即在其他聲音干擾下接收到相似的語音片段,程序可以專門對垃圾詞語進行處理或不處理,然后進入循環(huán)識別狀態(tài),用戶只需發(fā)出新的口令即可觸發(fā)。通過二級口令觸發(fā)模式,用戶可以更加方便的進行語音操作,且準確率較高。
2.2.3.1 巧妙運用關(guān)鍵詞語的ID,提高識別效率
由于用戶的發(fā)音習慣不同,可能同一個意思的不同語音命令無法被準確執(zhí)行。我們將語音命令的關(guān)鍵詞語的拼音串設(shè)計在LD3320芯片內(nèi),例如一級口令“小明”,然后傳入一個ID代表這個詞語,一旦識別成功后,將這個ID作為識別的結(jié)果對外輸出。在 LD3320語音芯片中,同一個ID可以對應(yīng)不同的關(guān)鍵詞匯,而且ID不需要連續(xù),編程方式非常簡單。例如“中國”“華夏”,可以設(shè)置為同一個ID,之后再進行其他處理步驟。
2.2.3.2 對于關(guān)鍵詞ID設(shè)置多個可能發(fā)音,充分利用50項候選可識別語句
有時用戶可能不會用同一個詞來發(fā)出命令,例如“開燈”,用戶可能會說“開大燈”“打開燈”“打開電燈”“把電燈打開”等,其說話的口音、語氣、情緒、習慣是不同的。因此需把用戶的這些發(fā)音習慣都考慮到程序設(shè)計中,完全利用LD3320芯片的特性,充分利用50條可動態(tài)編輯的關(guān)鍵識別條目,編輯不同的候選語句并設(shè)置到芯片中。這樣用戶在發(fā)出命令后,被準確執(zhí)行的效率增加,完善了系統(tǒng)的功能。
2.2.3.3 用戶通過語音命令后得到語音識別結(jié)果的等待時間調(diào)節(jié)
在本系統(tǒng)中,用戶發(fā)出口令后芯片大約有12 s的反應(yīng)時間,然后才會給出識別反應(yīng)。通過語音識別芯片的檢測機制來判斷用戶的口令是否全部發(fā)出,如監(jiān)測出一段連續(xù)的噪音,就認為用戶口令已發(fā)完,之后給出識別結(jié)果。
2.2.4 使用過程中應(yīng)注意的問題
在測試過程中發(fā)現(xiàn),LD3320模塊應(yīng)用時要注意以下問題:
(1)用戶使用時背景聲音(噪音、雜音等)會造成一定的干擾;
(2)設(shè)置語音模塊內(nèi)識別列表的內(nèi)容和50個可編輯的候選語句有關(guān);
(3)設(shè)置識別列表中各詞匯之間的相似程度;
(4)用戶的發(fā)音快慢、大小、口音以及發(fā)音是否清晰等;
(5)距離麥克風的位置遠近以及接收語音的外設(shè)(麥克風等)質(zhì)量等。
3 智能家居聲控系統(tǒng)的軟件程序設(shè)計
智能家居聲控系統(tǒng)的程序處理過程主要包括單片機初始化;LD3320芯片的初始化;LD3320語音識別結(jié)果寄存器的讀取以及單片機對外設(shè)的控制等。
3.1 具體軟件功能模塊介紹
(1)單片機初始化函數(shù):void MCU_init()
名稱:void MCU_init()。
功能:單片機初始化。
(2)中斷處理函數(shù):void ExtInt0Handler(void) interrupt 0
名稱:中斷處理函數(shù)。
功能:對LD3320的中斷請求進行處理。
其他說明:語音識別模塊接收到音頻信號后進入函數(shù),判斷識別結(jié)果,若無結(jié)果則設(shè)置寄存器開始下次識別。
(3)用戶執(zhí)行函數(shù):void User_handle(uint8 dat)
名稱:用戶執(zhí)行函數(shù)。
功能:識別結(jié)果成功后,MUC進行之后的處理。
(4)LD3320復(fù)位函數(shù):void LD_Reset()
功能描述:復(fù)位LD模塊。
(5)LD3320初始化函數(shù):void LD_Init_Common()
功能描述:LD模塊命令初始化。
其他說明:該函數(shù)一般不需要修改。
(6)LD3320ASR功能初始化函數(shù):void LD_Init_ASR()
功能描述:LD模塊ASR功能初始化。
其他說明:該函數(shù)一般不需要修改。
(7)運行ASR識別處理函數(shù)uint8 RunASR(void)
功能描述:運行ASR識別流程。
返回值:asrflag:1->啟動成功;0->啟動失敗。
其他說明:識別順序如下:
① RunASR()函數(shù)實現(xiàn)一次完整的ASR語音識別流程;
② LD_AsrStart()函數(shù)實現(xiàn)了ASR初始化;
③ LD_AsrAddFixed()函數(shù)添加關(guān)鍵詞語到LD3320中;
④ LD_AsrRun()函數(shù)啟動一次ASR語音識別流程。
任何一次ASR識別流程均從初始化開始,皆按照此順序進行。
(8)語音命令添加函數(shù):uint8 LD_AsrAddFixed()
功能描述:向LD模塊添加關(guān)鍵詞。
返回值:flag:1->添加成功。
(9)識別結(jié)果獲取函數(shù):uint8 LD_GetResult()
功能描述:獲取識別結(jié)果。
返回值:LD_ReadReg(0xc5 ),讀取內(nèi)部寄存器返回的識別碼。
3.2 系統(tǒng)程序流程圖
聲控系統(tǒng)單片機程序流程圖如圖3所示。
4 系統(tǒng)測試
本系統(tǒng)以“小明”為一級指令口令,每次識別時必須先觸發(fā)一級口令,才能進行二級口令,如臥室關(guān)燈、臥室開燈、客廳開燈、客廳關(guān)燈等。
系統(tǒng)加入電源后對麥克風說“小明”一級口令,指示燈閃爍亮燈后,再對著麥克風說:“臥室開燈”二級口令則繼電器控制臥室燈亮。目前該系統(tǒng)能識別的二級口令有5個,分別是“客廳開燈”“客廳關(guān)燈”“臥室開燈”“臥室關(guān)燈”和“close all”,實際可以根據(jù)具體布置需要增加控制節(jié)點及相應(yīng)識別口令。
5 結(jié) 語
智能家居聲控系統(tǒng)不僅能為大家?guī)硎孢m的居住環(huán)境,還具有系統(tǒng)可靠性高,誤識率低,方便適用的特點,具有廣大的應(yīng)用前景。
參考文獻
[1]王炳錫.實用語音識別基礎(chǔ)――21世紀高等院校技術(shù)優(yōu)秀教材[M].北京:國防工業(yè)出版社,2015.
[2]譚浩強.C程序設(shè)計教程[M].北京:清華大學(xué)出版社,2007.
[3]金鑫,田,闕大順.基于LD3320的語音控制系統(tǒng)設(shè)計實現(xiàn)[J].電腦與信息技術(shù),2011,19(6):22-25.
[4]徐波.語音識別技術(shù)發(fā)展現(xiàn)狀與展望[Z].中科院自動化研究所,2011.
轉(zhuǎn)機
讓計算機能夠識別人類的語音,從而使得人們能夠用自己的母語與計算機進行人機交互,一直是計算機學(xué)科追求的目標之一。談到語音識別,就不能不談一下李開復(fù)。
1983年秋,李開復(fù)進入卡內(nèi)基·梅隆大學(xué),師從羅杰·瑞迪教授,攻讀博士學(xué)位。瑞迪建議李開復(fù)選擇不特定語者的語音識別系統(tǒng)作為研究方向,并建議采用專家系統(tǒng)的方法,來解決讓電腦聽懂每個人說的話的難題。瑞迪是人工智能領(lǐng)域的權(quán)威,后來還獲得1994年圖靈獎。經(jīng)過近1年的研究,盡管研究有了一些進展,但李開復(fù)最終認識到,受技術(shù)發(fā)展的限制,專家系統(tǒng)相當長時間內(nèi)難以解決這一難題。在一位同門師兄的提醒下,李開復(fù)轉(zhuǎn)而采用統(tǒng)計模型的研究路徑,終獲成功。1988年,李開復(fù)獲得博士學(xué)位。時至今日,語音識別技術(shù)依舊采用的是李開復(fù)開創(chuàng)的統(tǒng)計模型。
1998年,IBM中文語音識別技術(shù)Via Voice在國內(nèi)PC市場掀起了一場中文語音輸入熱潮。第二年,當今國內(nèi)最大的智能語音識別公司科大訊飛誕生于中國科技大學(xué)。
同年,出任微軟中國研究院院長的李開復(fù)曾告訴媒體,語音識別需要的計算資源太多,實用化還要走很長的路。
“中文語音識別市場在2000年左右逐漸由熱變冷,這主要是由于當時算法還比較初級,對計算資源的需求很大,產(chǎn)業(yè)環(huán)境也不成熟。于是,很多人轉(zhuǎn)去做別的行業(yè)。也正是在這個時候,我們團隊的主要成員初涉這個領(lǐng)域,進入研究所和高校讀博讀碩?!绷杭叶骶驮谀莻€時期考入中科院自動化所模式識別國家重點實驗室。模式識別實驗室分為圖像識別和語音識別兩大研究方向,圖像識別領(lǐng)域誕生了漢王公司,而梁家恩則在語音識別領(lǐng)域歷經(jīng)5年寒窗,完成了碩博連讀。
梁家恩介紹說:“我們這些人一直專注于語音識別和語義理解的研究。到了2010年左右,語音識別技術(shù)取得了突破性進展,移動互聯(lián)網(wǎng)也得到普及。加之2011年10月蘋果iPhone 4S,作為新產(chǎn)品一大亮點的智能語音助手Siri在市場上再次引爆語音識別熱。我們覺得商業(yè)化的機會已經(jīng)成熟,2012年6月,我們創(chuàng)建了云知聲,并搭建了用于語音識別的公有云平臺?!?/p>
突破
雖然現(xiàn)在的語音識別還是采用統(tǒng)計算法,但這十多年來,語音識別技術(shù)發(fā)展很快。
“首先是數(shù)據(jù)資源豐富了,以前在實驗室收集幾百個人的語音都非常困難,現(xiàn)在我們有了語音云平臺,吸引了各地不同口音的人們,每天采集上百GB的數(shù)據(jù)量,樣本非常豐富,這有利于分析和改進我們的系統(tǒng)?,F(xiàn)在的樣本規(guī)模比李開復(fù)老師當時做的系統(tǒng)的樣本規(guī)模擴大了幾個數(shù)量級,而且現(xiàn)在的數(shù)據(jù)都是真實數(shù)據(jù),遠非那時模擬數(shù)據(jù)所能比擬,這在統(tǒng)計算法中至關(guān)重要。”梁家恩表示。
“二是統(tǒng)計技術(shù)和神經(jīng)網(wǎng)絡(luò)學(xué)習等關(guān)鍵技術(shù)取得較大的突破,在環(huán)境噪聲處理和對口音識別方面的改進非常明顯,識別率顯著提升。算法上也做了一些優(yōu)化,以前的算法你要做一系列實驗可能需要一兩年的時間,根本沒法實現(xiàn)?!绷杭逸x說,“再有就是智能手機中CPU技術(shù)的進步以及GPU的應(yīng)用,加之后臺云計算處理能力的提升,為智能語音識別提供了強大的計算資源?!?/p>
語音識別實際上是搜索。梁家恩介紹說,語音識別就是從一句話的聲波中提取語音特征,然后與后臺數(shù)據(jù)進行匹配,由于現(xiàn)在的數(shù)據(jù)庫非常大,因此比對的精確度比過去要高得多。雖說都是搜索,但百度搜索是文本檢索,它要求捕獲全網(wǎng)信息的變化,即信息更新要快。而語音識別上,因為語音特征與文本并沒有對應(yīng)關(guān)系,因此,比對精確度就成為語音識別的核心技術(shù)所在。
由于面向語音識別這一特定應(yīng)用,云知聲的公有云平臺與通用的云平臺也有所區(qū)別?!拔覀兊讓硬捎玫囊彩羌杭軜?gòu),單臺服務(wù)器并發(fā)線程數(shù)達到100,這已是業(yè)界最快的;再通過災(zāi)備、安全等技術(shù)來確保平臺的穩(wěn)??;然后是將目前已經(jīng)建立的北京、上海和廣州機房的計算資源聯(lián)在一起。我們也對虛擬化做了測試,但虛擬化會帶來5%~10%的性能損失,這與我們追求性能最高化的目標不符合。因此,我們采用高性能計算平臺,讓硬件對語音識別這一特定應(yīng)用進行優(yōu)化?!?/p>
互聯(lián)網(wǎng)思維
伴隨著智能手機和平板電腦取代PC成為個人計算市場的主流,人機交互也從傳統(tǒng)的鍵盤操作轉(zhuǎn)換為觸屏操作。而在注重用戶體驗的移動互聯(lián)網(wǎng)時代,智能語音識別將帶來更快更方便的用戶體驗,特別是在車載、可穿戴式電腦等應(yīng)用上。
梁家恩認為,作為自然高效的交互方式,智能語音技術(shù)不僅要識別用戶的話語,而且還要能夠智能地通過屏幕或者TTS(從文本到語音)的方式實現(xiàn)與用戶交流,因而在智能移動設(shè)備、廣播電視、呼叫中心、會議記錄、語言學(xué)習、知識學(xué)習、互動娛樂等領(lǐng)域有著廣闊的應(yīng)用前景。
“我想查一下今天晚上北京飛上海的航班。”在采訪過程中梁家恩對著手機說,話音剛落,手機屏幕上刷新出北京至上海的航班信息。
這個簡單的演示可以直白地反映出云知聲的商業(yè)模式。由于智能手機與機主的對應(yīng)關(guān)系,加之其定位和支付功能,這句話已經(jīng)包含了這一具有在線支付手同的潛在顧客是誰、在什么地方、具體需求是什么。這對于商家而言,客戶信息已經(jīng)足夠了,商家甚至還可以通過手機號碼來關(guān)聯(lián)客戶的信用、過往的消費習慣等,從而做出精準的營銷響應(yīng)。
“我們不像現(xiàn)在市場有的語音識別公司那樣,通過軟件授權(quán)的方式向用戶收費。我們相信互聯(lián)網(wǎng)的力量,所有語音用戶需求匯總到后臺后,所蘊含的商業(yè)價值要遠遠大于軟件授權(quán)帶來的價值。”梁家恩說,“我們承諾將公有云平臺服務(wù)的體驗做到極致并且永遠免費,同時云知聲的智能語音技術(shù)向合作伙伴完全開放,即不限領(lǐng)域、不限形態(tài)、不限商業(yè)模式。當后臺數(shù)據(jù)的商業(yè)價值變現(xiàn)時,我們將與合作伙伴分成。”
關(guān)鍵詞:語音識別;孤立詞;動態(tài)時間規(guī)整;朝鮮語
中圖分類號:TP319文獻標識碼:A文章編號文章編號:16727800(2013)0010010304
作者簡介:王曉丹(1981-),女,碩士,延邊大學(xué)工學(xué)院講師,研究方向為語音識別、模式識別;金國哲(1983-),男,碩士,延邊大學(xué)工學(xué)院講師,研究方向為游戲軟件。
0引言
語音識別是讓機器自動識別和理解語音信號,并把語音信號轉(zhuǎn)化為相應(yīng)的文本或命令的技術(shù)[1]。語音識別技術(shù)的解決將不僅使計算機成為普通百姓得心應(yīng)手的工具,而且對于許多機器的操作、生產(chǎn)過程的控制,還有通信、口語機器翻譯等領(lǐng)域來說,語音識別都大有用武之地[2]。目前,信息產(chǎn)業(yè)發(fā)展迅速,方便、快捷、高效的電子產(chǎn)品越來越受到用戶的青睞。語音識別作為人機交互的一項關(guān)鍵技術(shù),具備了這樣的特點,特別在一些特定的環(huán)境或是對于一些特定的人,語音識別可以帶來很大的方便。語音識別系統(tǒng)實際上屬于一種模式識別系統(tǒng),它包括特征提取、模式匹配、參考模式庫等基本單元,其原理如圖1所示。
輸入的模擬語音信號首先進行預(yù)處理,包括預(yù)加重、分幀處理、數(shù)模轉(zhuǎn)換、自動增益控制等過程。為了從每一個詞條中提取出隨時間變化的語音特征序列,作為一個模型保存為參考模板,就要對預(yù)處理后的語音信號進行特征參數(shù)提取。待識別的語音信號同樣經(jīng)過特征參數(shù)提取后生成測試模板。對語音的識別過程即是將測試模板與參考模板進行匹配的過程,識別結(jié)果即是相似率最高的一個參考模板。對于輸入信號計算測定,再根據(jù)若干準則和專家知識,來判決選出最終結(jié)果并由識別系統(tǒng)輸出。語音識別系統(tǒng)設(shè)計要考慮服務(wù)對象、詞表大小、工作環(huán)境、發(fā)音方式、任務(wù)性質(zhì)等許多因素,不同的應(yīng)用需要采用不同的方法實現(xiàn),才能達到理想的效果[3]。本文所采用的朝鮮語緊急呼叫號碼的語音識別系統(tǒng)采用后文所述的幾個步驟和方法。
1預(yù)處理
本設(shè)計中對語音信號的預(yù)處理過程包括預(yù)加重、分幀處理及窗化處理。
1.1語音信號的預(yù)加重
采用預(yù)加重方法處理語音信號能補償語音信號的固有衰落,而且能有效地消除唇輻射的影響[4]。該方法的傳遞函數(shù)為:H(z)=1-0.94z-1(1)
設(shè)S(n)為輸入的語音信號,經(jīng)過預(yù)加重后得到的信號為:
中找出語音的開始和終止點。確定語音信號的起止點能更好地對語音信號進行識別,從而提高系統(tǒng)識別率和獲取到更好的語音特征參數(shù)。端點檢測的常用方法有短時過零率、短時平均能量、基于熵的特征、短時頻域處理等幾種[6]。本文中端點檢測部分選擇短時平均能量和短時過零率相結(jié)合的方法。清音的過零率要高于濁音和靜音部分,因此短時過零率可用于確定清音。而濁音和清音的時域能量要高于靜音部分,所以短時時域平均能量可用于確定濁音。在進行語音檢測時,首先找出哪一幀語音的能量超過能量門限,然后往前根據(jù)過零率確定語音的起點,同樣方法可確定語音的終點。
2特征提取如何選擇語音特征直接關(guān)系到最終的識別效果。每段語音經(jīng)過特征提取后具有了各自的特征值,特征間的距離量度反映出語音間的相似度。因此特征選擇的標準應(yīng)使得異音字特征間的距離盡量大,同音字間的距離盡量小。同時,在保持高識別率的情況下,還應(yīng)盡量減少特征維數(shù),以減小特征參數(shù)的計算量。人耳對200Hz到5kHz之間的語音信號最為敏感,高音不容易掩蔽低音,反之則較容易,高頻處的聲音掩蔽的臨界帶寬較低頻端小。因此本文的朝鮮語孤立詞語音識別系統(tǒng)首先采用在Mel頻率軸上均勻分布的三角形濾波器,設(shè)
圖3語音識別仿真過程
Step3:對分幀處理后的每幀信號求MFCC系數(shù)。Step4:通過DTW算法求出測試模板與參考模板的特征參數(shù),選擇差值最小的作為輸出結(jié)果。語音控制器選用“Cool Edit Pro V2.1”進行錄音采樣。Cool Edit Pro 是美國 Adobe Systems 公司開發(fā)的一款功能強大、效果出色的多軌錄音和音頻處理軟件。該軟件可提供多種特效為作品增色,如壓縮、擴展、延遲、降噪、回聲、失真等。并且可同時在幾個文件中進行剪切、粘貼、合并、重疊聲音的操作,還可以生成靜音、噪音、低音、電話信號等。本文采樣率為8 000Hz,聲道為單聲道,采樣精度為16位。語音庫需要對朝鮮語的“”、“”、“”、“”、“”這幾個詞進行錄音采樣。采集到的音頻信號,經(jīng)過Matlab提供的wav文件讀寫函數(shù),以及聲卡的錄音和放音函數(shù),可以實現(xiàn)某些語音信號處理工作。語音工具箱voicebox為實現(xiàn)語音識別提供了許多實用函數(shù)。本語音識別系統(tǒng)的文件包含15個模板語音文件,25個語音庫文件和5個處理函數(shù)。
以下分別就5種韓國緊急電話號碼進行了識別實驗,并對結(jié)果進行了部分截圖,實驗結(jié)果包含模板波形圖和測試結(jié)果。第一組是天氣預(yù)報電話號碼131;第二組是報警電話號碼112;第三組是火警電話號碼119;第四組是電話咨詢號碼114;第五組是海洋咨詢電話號碼。如圖4和圖5是分別對韓國火警電話119的采樣后的語音波形圖和識別結(jié)果。
通過對特定人朝鮮語呼叫號碼的語音識別結(jié)果的分析,可以得出以下結(jié)論:①在語音庫樣本數(shù)量足夠,相關(guān)被測人數(shù)適當?shù)那闆r下,DTW算法能夠有效地識別語音控制指令;②識別效果與測試內(nèi)容緊密相關(guān),對于、這類數(shù)字,該算法完全可以準確識別出結(jié)果;③對
于有連讀發(fā)音的號碼、、等,由于個人發(fā)音特點的差異,該算法會偶爾出現(xiàn)識別錯誤的現(xiàn)象,但錯誤率在6%以下。
5結(jié)語
本文實現(xiàn)了朝鮮語緊急呼叫號碼語音識別系統(tǒng)的軟件算法部分。其過程主要包括:語音預(yù)加重處理、短時能量和過零率兩級端點檢測算法進行端點檢測、MFCC算法進行語音特征參數(shù)提取等。綜合考慮環(huán)境、算法復(fù)雜度等因素,DTW算法能夠既簡單又有效地識別朝鮮語緊急呼叫號碼。通過MATLAB仿真實驗,驗證了該算法識別朝鮮語詞匯的準確率較高。出錯的主要原因有:①靜音部分過長和無靜音時的差別;②朝鮮語發(fā)音規(guī)則決定個人發(fā)音特點的差異較大。這些問題都有待進一步研究。
參考文獻:
[1]MOKBEL, CHAFIC E,CHOLLET,et al.Automatic word recognition in cars[J].IEEE Transactions on Speech and Audio Processing,2005:346356.
[2]陳尚勤.近代語音識別[M].成都:電子科技大學(xué)出版社,1991.
[3]高宏濤,張德賢.語音識別技術(shù)研究及實現(xiàn)[J].光盤技術(shù),2007,(3):2428.