前言:想要寫出一篇引人入勝的文章?我們特意為您整理了置信網(wǎng)絡(luò)融合模型手寫漢字識別探析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:針對離線手寫漢字的特征提取困難、不能準(zhǔn)確識別等問題,提出了一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)的融合模型。首先從CASIA-HWDB1數(shù)據(jù)集中隨機選擇了一些文本分別訓(xùn)練膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò),然后采用膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)的融合策略進行了手寫漢字識別實驗。實驗結(jié)果表明,在不確定方向上使用漢字融合模型的錯誤率降低了5.2%,與單獨使用膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)相比,具有更好的識別效果。
關(guān)鍵詞:手寫漢字;深度學(xué)習(xí);膠囊網(wǎng)絡(luò);深度置信網(wǎng)絡(luò)
1引言(Introduction)
漢字識別的研究涉及人工智能、模式識別、圖像處理、統(tǒng)計決策理論等學(xué)科,在辦公、銀行、郵政等自動分類領(lǐng)域具有重要的理論意義和實踐價值[1]。漢字識別可分為印刷漢字識別和手寫漢字識別兩大類。手寫漢字識別可分為在線手寫漢字識別和離線手寫漢字識別。在線漢字識別是指在通過觸摸屏等輸入設(shè)備手寫漢字過程中,計算機根據(jù)書寫漢字的筆畫走向、筆畫順序、書寫速度等多種信息進行識別,由于信息量多且具有連續(xù)性,因此識別難度較小,識別準(zhǔn)確率也較高[2]。離線漢字識別提供的信息量少,僅僅通過識別一個漢字的二維圖像來提取漢字特征,所以識別難度較大,識別準(zhǔn)確率也較低[3]。各大高校和研究所致力于漢字識別的研究,由于漢字具有類別多、字形復(fù)雜、相似等特點,因此每個人手寫漢字千差萬別,導(dǎo)致手寫漢字識別困難,故手寫漢字識別一直是研究的熱點和難點[4-5]。手寫漢字識別是一個極具挑戰(zhàn)性的模式識別與機器學(xué)習(xí)問題,特征如下:一是漢字類別中的漢字數(shù)量很多。二是字體結(jié)構(gòu)復(fù)雜。三是字形變化很大。離線手寫漢字主要用在日常生活中。手寫字是任意的,缺乏規(guī)范性,水平、垂直、點等筆觸容易變形,例如筆直變彎,筆觸成圓弧,短橫、短豎成點等。四是有很多類似的詞。漢字集合中有很多相似詞,如:“已—己—巳,盲—肓,兔—免”等,可能由于預(yù)處理不當(dāng)從而導(dǎo)致字符錯誤??傊T多研究人員已經(jīng)做了大量的離線手寫漢字識別工作。針對離線手寫漢字識別的難點,文獻[6]提出了一種CNN-DBN手寫漢字融合模型,比單獨分別使用CNN和DBN的識別效果好。文獻[7]從GoogLeNet網(wǎng)絡(luò)構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò),并使用隨機彈性變換算法擴展了訓(xùn)練數(shù)據(jù)。文獻[8]結(jié)合ResNet網(wǎng)絡(luò),通過使用作業(yè)圖像中漢字筆跡測試結(jié)果中的每個有效檢測區(qū)域作為輸入,實現(xiàn)基于深度學(xué)習(xí)模型的漢字筆跡識別。文獻[9]提出了一種基于PCCG-GAN的手寫漢字歸一化方法,實現(xiàn)了從手寫到打印的漢字生成任務(wù)。利用對稱網(wǎng)絡(luò)提取手寫漢字多尺度信息并進行特征融合,減少了輸入輸出之間共享的底層信息量,減少了欠采樣過程中信息的丟失。文獻[10]由于卷積神經(jīng)網(wǎng)絡(luò)對手寫漢字的識別速度較慢,二維主成分分析(2DPCA)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合來識別手寫漢字與基于Alexnet的CNN模型相比,時間減少了78%,與基于ACNN的模型相比,時間減少了80%。文獻[11]針對傳統(tǒng)手寫漢字識別特征提取過程復(fù)雜、識別率低、分類模型能力弱的問題,設(shè)計了一種多通道交叉融合的深度殘差網(wǎng)絡(luò)模型,并設(shè)計了中心損失函數(shù),比之前的算法提高了2.3%識別率。近年來,隨著深度學(xué)習(xí)的興起和不斷發(fā)展,各種智能算法在計算機視覺領(lǐng)域取得了突破性的成果,使得手寫漢字的識別率也越來越高。為了進一步探索線下手寫漢字的識別方法,本文擬提出一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)融合的識別模型,以提高手寫漢字的識別能力。
2相關(guān)工作研究(RelatedWorkResearch)
2.1膠囊網(wǎng)絡(luò)
Hinton等人在2017年提出了膠囊網(wǎng)絡(luò)(CapsuleNetwork,CapsNet)。CapsNet是建立在卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)基礎(chǔ)上的圖像分類識別技術(shù),CNN的缺陷是對于物體間的空間識別能力及物體旋轉(zhuǎn)后的識別能力不強,而CapsNet能很好地解決這兩個問題,如圖1所示。CapsNet結(jié)構(gòu)層次淺,由卷積層、主膠囊層、數(shù)字膠囊層構(gòu)成,其結(jié)構(gòu)如圖2所示。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是由神經(jīng)元組成的,神經(jīng)元表示對象中的各種屬性。膠囊(Capsule)稱為向量神經(jīng)元,向量長度表示對象存在的概率,向量方向表示對象的屬性,它包含多個神經(jīng)元。CapsNet用膠囊代替?zhèn)鹘y(tǒng)神經(jīng)元,它的輸入輸出都是一個向量。低層封裝需要將輸出傳遞給該輸出的高層封裝。具體地說,路由數(shù)據(jù)的傳輸是通過低層膠囊的輸入與高層膠囊的輸出的相似性來確定的。如果低層膠囊的預(yù)測矢量與高層膠囊的有效矢量具有高度相似性,則表明這兩個膠囊高度相關(guān)。CapsNet中使用了迭代動態(tài)路由算法,以與輸出向量相似的方向在膠囊中獲取向量,并且與向量的數(shù)量和模塊的長度呈正相關(guān)。為了避免將內(nèi)部乘積用作無上限情況的度量,將矢量壓縮到輸出之前。
2.2深度置信網(wǎng)絡(luò)
深度置信網(wǎng)絡(luò)(DBN)由多層有限Boltzmann機器(RBM)和一層分類器組成,經(jīng)典的DBN網(wǎng)絡(luò)結(jié)構(gòu)是由多層RBM和一層BP組成的深度神經(jīng)網(wǎng)絡(luò)。該深度模型廣泛應(yīng)用于圖像分類識別、語音識別等領(lǐng)域。DBN是基于生物神經(jīng)網(wǎng)絡(luò)的研究和淺層神經(jīng)網(wǎng)絡(luò)的發(fā)展而來的,并且從聯(lián)合概率分布中推斷出概率樣本模型的數(shù)據(jù)樣本分布。DBN生成模型通過訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)中神經(jīng)元之間的權(quán)重,整個神經(jīng)網(wǎng)絡(luò)根據(jù)最大概率生成訓(xùn)練數(shù)據(jù),形成高級抽象特征,并提高了模型的分類性能。DBN使用自下而上的傳輸,底層神經(jīng)元接收原始特征向量,不斷抽象到更高的水平,頂層神經(jīng)網(wǎng)絡(luò)形成易于組合的特征向量。通過添加層,可以抽象出更大的特征向量,并且網(wǎng)絡(luò)的每一層都會削弱前一層的錯誤信息和輔助信息,以確保深度網(wǎng)絡(luò)的準(zhǔn)確性。DBN結(jié)構(gòu)如圖3所示。受限的Boltzmann機器由兩個神經(jīng)元節(jié)點組成,即隱藏層和可見層。2.2.1受限玻耳茲曼機(RBM)。首先,DBN模型是基于人工神經(jīng)網(wǎng)絡(luò)的,由接收輸入數(shù)據(jù)的顯性神經(jīng)元和特征提取的隱性神經(jīng)元組成。DBN的關(guān)鍵組件是RBM,它通過將多層RBM與最終分類器結(jié)合在一起來檢測、識別和分類輸入數(shù)據(jù)。RBM組成結(jié)構(gòu)包含兩層神經(jīng)元,每一層都可以由一個向量表示,向量的維數(shù)由每一層中神經(jīng)元的數(shù)量確定,如圖4所示。由圖4可知,為了保證層中神經(jīng)元的獨立性,RBM各層中的神經(jīng)元之間無連接,層間神經(jīng)元雙向連接,即與給定元素相對應(yīng)的隱藏元素的值無關(guān),并且當(dāng)該元素被賦予隱藏元素值時,將保留相同的特性。2.2.2DBN模型的構(gòu)建。DBN就是一些堆疊在一起的RBM,前一個RBM的輸出就是后一個RBM的輸入。本文以兩層RBM和Softmax分類層為例構(gòu)建DBN模型。如圖3所示,v代表顯示層神經(jīng)元,h代表隱藏層神經(jīng)元,y代表標(biāo)簽已知的樣本,o代表分類結(jié)果輸出。DBN模型的構(gòu)造如下:固定第一個訓(xùn)練后的RBM的權(quán)重和偏差,將其隱藏元素的狀態(tài)作為第二個RBM的輸入;訓(xùn)練后將第二個RBM堆疊在第一個RBM上;重復(fù)上述過程進行多次逐層學(xué)習(xí)。如果訓(xùn)練數(shù)據(jù)集包含標(biāo)記的樣本,則需要在第二次RBM訓(xùn)練期間將其添加,最后使用Softmax對數(shù)據(jù)進行分類。深度置信網(wǎng)絡(luò)在檢測識別領(lǐng)域的應(yīng)用效果分析,如表1所示。樣本數(shù)據(jù)主要是手寫數(shù)字、頻譜圖像和語音。
2.3CapsNet與DBN融合模型
CapsNet模型和DBN模型都可以應(yīng)用于線下手寫漢字識別任務(wù),CapsNet解決了CNN的缺點,能捕捉特征位置、相對大小、特征方向等屬性間的關(guān)系。DBN通過采用逐層訓(xùn)練的方式為整個網(wǎng)絡(luò)賦予了較好的初始權(quán)值,以重構(gòu)數(shù)據(jù)為目標(biāo),使網(wǎng)絡(luò)只要微調(diào)就可以達到最優(yōu)解,這在無監(jiān)督的環(huán)境中是非常有用的。由于CapsNet和DBN網(wǎng)絡(luò)結(jié)構(gòu)不同,因此提取特征的優(yōu)勢不同,如字形特征不明顯,或與其他字形相似,那么不同的人識別的結(jié)果可能也不一樣。本文提出的CapsNet和DBN融合模型結(jié)合了兩者的優(yōu)勢,比單獨使用CapsNet和DBN識別漢字具有更高的識別能力,這種模型稱為CapsNet-DBN融合模型,包括訓(xùn)練和識別過程,如圖5所示。
3仿真與測試(SimulationandTest)
3.1實驗準(zhǔn)備
使用數(shù)據(jù)集CASIA-HWDB1.1進行訓(xùn)練和測試,該數(shù)據(jù)集于2010年5月公布,為手寫單字,分別由300人書寫,包含171個英文數(shù)字符號,3,755個GB2312一級漢字,共300套,總計1,172,907個有效樣本。表2列出了CapsNet-DBN模型中的各層參數(shù)。
3.2實驗結(jié)果與分析
本文實驗環(huán)境:Windows1064位操作系統(tǒng),處理器為Intel(R)Core(TM)i7-6500UCPU,主頻為2.5GHz,內(nèi)存為16GB,實驗平臺為Python3.8版本。實驗數(shù)據(jù)來自。表3為CapsNet網(wǎng)絡(luò)、DBN網(wǎng)絡(luò)及其融合網(wǎng)絡(luò)的準(zhǔn)確率。CapsNet、DBN、CapsNet-DBN對不同寫法的漢字識別能力的比較如圖6所示。圖7表明三種算法對不同漢字的識別能力,CapsNet-DBN在大部分情況下都比CapsNet和DBN對不同漢字的識別能力要高。圖8和圖9分別顯示了CapsNet-DBN網(wǎng)絡(luò)訓(xùn)練過程準(zhǔn)確率和訓(xùn)練損失。Fig.9LossofCapsNet-DBNnetworktrainingprocess使用相同數(shù)據(jù)集驗證并比較表1中的各種模型算法和本文所述的融合模型的識別準(zhǔn)確率,從表4中可知,ResNet-BLSTM+DBN方法對手寫漢字的識別效果良好,本文提出的CapsNet-DBN融合模型也可以獲得較高的精度。本文在CapsNet-DBN模型的基礎(chǔ)上嘗試增加隱藏層和隱藏單元數(shù)目及在不同的迭代次數(shù)中進行測試,分別增加了隱藏層個數(shù)及隱藏單元數(shù)。圖10(a)隱藏層參數(shù)為(32*3*3)-(16*2*2)-(2*2)-(2*2)-(64*2*2)-(2*2)-(512),圖10(b)隱藏層參數(shù)為(32*3*3)-(2*2)-(16*2*2)-(2*2)-(32*2*2)-(2*2)-(64*2*2)-(2*2)-(512),圖10(b)比圖10(a)增加了2個隱藏層。圖11(a)隱藏層參數(shù)為(32*3*3)-(2*2)-(32*2*2)-(2*2)-(96*2*2)-(2*2)-(128*2*2)-(2*2)-(512),圖11(b)隱藏層參數(shù)為(32*3*3)-(2*2)-(64*2*2)-(2*2)-(96*2*2)-(2*2)-(128*2*2)-(2*2)-(512),圖11(b)其中一個隱藏層單元數(shù)為圖11(a)的2倍。實驗結(jié)果說明了隱藏層個數(shù)和隱藏單元數(shù)目的增加可以將大量信息擴展到維度較大的中間空間,這樣會將模型的驗證精度提高7.2%。當(dāng)然,隱藏層個數(shù)和隱藏單元數(shù)目也不是越多越好,需要根據(jù)具體問題進行調(diào)整。
4結(jié)論
(Conclusion)本文針對離線手寫漢字的特征提取困難、不能準(zhǔn)確識別等問題,提出了一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)的融合模型,從CASIA-HWDB1.1數(shù)據(jù)集中隨機選擇了一些文本進行手寫漢字識別實驗。實驗結(jié)果表明,與單獨的CapsNet和DBN及傳統(tǒng)的機器學(xué)習(xí)方法相比,CapsNet-DBN融合模型在數(shù)據(jù)集上獲得了更好的識別結(jié)果。
作者:管小衛(wèi) 丁琳 單位:江蘇財經(jīng)職業(yè)技術(shù)學(xué)院