网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

置信網(wǎng)絡(luò)融合模型手寫漢字識別探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了置信網(wǎng)絡(luò)融合模型手寫漢字識別探析范文,希望能給你帶來靈感和參考,敬請閱讀。

置信網(wǎng)絡(luò)融合模型手寫漢字識別探析

摘要:針對離線手寫漢字的特征提取困難、不能準(zhǔn)確識別等問題,提出了一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)融合模型。首先從CASIA-HWDB1數(shù)據(jù)集中隨機(jī)選擇了一些文本分別訓(xùn)練膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò),然后采用膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)的融合策略進(jìn)行了手寫漢字識別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在不確定方向上使用漢字融合模型的錯誤率降低了5.2%,與單獨(dú)使用膠囊網(wǎng)絡(luò)和深度置信網(wǎng)絡(luò)相比,具有更好的識別效果。

關(guān)鍵詞:手寫漢字;深度學(xué)習(xí);膠囊網(wǎng)絡(luò);深度置信網(wǎng)絡(luò)

1引言(Introduction)

漢字識別的研究涉及人工智能、模式識別、圖像處理、統(tǒng)計(jì)決策理論等學(xué)科,在辦公、銀行、郵政等自動分類領(lǐng)域具有重要的理論意義和實(shí)踐價(jià)值[1]。漢字識別可分為印刷漢字識別和手寫漢字識別兩大類。手寫漢字識別可分為在線手寫漢字識別和離線手寫漢字識別。在線漢字識別是指在通過觸摸屏等輸入設(shè)備手寫漢字過程中,計(jì)算機(jī)根據(jù)書寫漢字的筆畫走向、筆畫順序、書寫速度等多種信息進(jìn)行識別,由于信息量多且具有連續(xù)性,因此識別難度較小,識別準(zhǔn)確率也較高[2]。離線漢字識別提供的信息量少,僅僅通過識別一個漢字的二維圖像來提取漢字特征,所以識別難度較大,識別準(zhǔn)確率也較低[3]。各大高校和研究所致力于漢字識別的研究,由于漢字具有類別多、字形復(fù)雜、相似等特點(diǎn),因此每個人手寫漢字千差萬別,導(dǎo)致手寫漢字識別困難,故手寫漢字識別一直是研究的熱點(diǎn)和難點(diǎn)[4-5]。手寫漢字識別是一個極具挑戰(zhàn)性的模式識別與機(jī)器學(xué)習(xí)問題,特征如下:一是漢字類別中的漢字?jǐn)?shù)量很多。二是字體結(jié)構(gòu)復(fù)雜。三是字形變化很大。離線手寫漢字主要用在日常生活中。手寫字是任意的,缺乏規(guī)范性,水平、垂直、點(diǎn)等筆觸容易變形,例如筆直變彎,筆觸成圓弧,短橫、短豎成點(diǎn)等。四是有很多類似的詞。漢字集合中有很多相似詞,如:“已—己—巳,盲—肓,兔—免”等,可能由于預(yù)處理不當(dāng)從而導(dǎo)致字符錯誤。總之,諸多研究人員已經(jīng)做了大量的離線手寫漢字識別工作。針對離線手寫漢字識別的難點(diǎn),文獻(xiàn)[6]提出了一種CNN-DBN手寫漢字融合模型,比單獨(dú)分別使用CNN和DBN的識別效果好。文獻(xiàn)[7]從GoogLeNet網(wǎng)絡(luò)構(gòu)建了卷積神經(jīng)網(wǎng)絡(luò),并使用隨機(jī)彈性變換算法擴(kuò)展了訓(xùn)練數(shù)據(jù)。文獻(xiàn)[8]結(jié)合ResNet網(wǎng)絡(luò),通過使用作業(yè)圖像中漢字筆跡測試結(jié)果中的每個有效檢測區(qū)域作為輸入,實(shí)現(xiàn)基于深度學(xué)習(xí)模型的漢字筆跡識別。文獻(xiàn)[9]提出了一種基于PCCG-GAN的手寫漢字歸一化方法,實(shí)現(xiàn)了從手寫到打印的漢字生成任務(wù)。利用對稱網(wǎng)絡(luò)提取手寫漢字多尺度信息并進(jìn)行特征融合,減少了輸入輸出之間共享的底層信息量,減少了欠采樣過程中信息的丟失。文獻(xiàn)[10]由于卷積神經(jīng)網(wǎng)絡(luò)對手寫漢字的識別速度較慢,二維主成分分析(2DPCA)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合來識別手寫漢字與基于Alexnet的CNN模型相比,時間減少了78%,與基于ACNN的模型相比,時間減少了80%。文獻(xiàn)[11]針對傳統(tǒng)手寫漢字識別特征提取過程復(fù)雜、識別率低、分類模型能力弱的問題,設(shè)計(jì)了一種多通道交叉融合的深度殘差網(wǎng)絡(luò)模型,并設(shè)計(jì)了中心損失函數(shù),比之前的算法提高了2.3%識別率。近年來,隨著深度學(xué)習(xí)的興起和不斷發(fā)展,各種智能算法在計(jì)算機(jī)視覺領(lǐng)域取得了突破性的成果,使得手寫漢字的識別率也越來越高。為了進(jìn)一步探索線下手寫漢字的識別方法,本文擬提出一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)融合的識別模型,以提高手寫漢字的識別能力。

2相關(guān)工作研究(RelatedWorkResearch)

2.1膠囊網(wǎng)絡(luò)

Hinton等人在2017年提出了膠囊網(wǎng)絡(luò)(CapsuleNetwork,CapsNet)。CapsNet是建立在卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)基礎(chǔ)上的圖像分類識別技術(shù),CNN的缺陷是對于物體間的空間識別能力及物體旋轉(zhuǎn)后的識別能力不強(qiáng),而CapsNet能很好地解決這兩個問題,如圖1所示。CapsNet結(jié)構(gòu)層次淺,由卷積層、主膠囊層、數(shù)字膠囊層構(gòu)成,其結(jié)構(gòu)如圖2所示。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是由神經(jīng)元組成的,神經(jīng)元表示對象中的各種屬性。膠囊(Capsule)稱為向量神經(jīng)元,向量長度表示對象存在的概率,向量方向表示對象的屬性,它包含多個神經(jīng)元。CapsNet用膠囊代替?zhèn)鹘y(tǒng)神經(jīng)元,它的輸入輸出都是一個向量。低層封裝需要將輸出傳遞給該輸出的高層封裝。具體地說,路由數(shù)據(jù)的傳輸是通過低層膠囊的輸入與高層膠囊的輸出的相似性來確定的。如果低層膠囊的預(yù)測矢量與高層膠囊的有效矢量具有高度相似性,則表明這兩個膠囊高度相關(guān)。CapsNet中使用了迭代動態(tài)路由算法,以與輸出向量相似的方向在膠囊中獲取向量,并且與向量的數(shù)量和模塊的長度呈正相關(guān)。為了避免將內(nèi)部乘積用作無上限情況的度量,將矢量壓縮到輸出之前。

2.2深度置信網(wǎng)絡(luò)

深度置信網(wǎng)絡(luò)(DBN)由多層有限Boltzmann機(jī)器(RBM)和一層分類器組成,經(jīng)典的DBN網(wǎng)絡(luò)結(jié)構(gòu)是由多層RBM和一層BP組成的深度神經(jīng)網(wǎng)絡(luò)。該深度模型廣泛應(yīng)用于圖像分類識別、語音識別等領(lǐng)域。DBN是基于生物神經(jīng)網(wǎng)絡(luò)的研究和淺層神經(jīng)網(wǎng)絡(luò)的發(fā)展而來的,并且從聯(lián)合概率分布中推斷出概率樣本模型的數(shù)據(jù)樣本分布。DBN生成模型通過訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)中神經(jīng)元之間的權(quán)重,整個神經(jīng)網(wǎng)絡(luò)根據(jù)最大概率生成訓(xùn)練數(shù)據(jù),形成高級抽象特征,并提高了模型的分類性能。DBN使用自下而上的傳輸,底層神經(jīng)元接收原始特征向量,不斷抽象到更高的水平,頂層神經(jīng)網(wǎng)絡(luò)形成易于組合的特征向量。通過添加層,可以抽象出更大的特征向量,并且網(wǎng)絡(luò)的每一層都會削弱前一層的錯誤信息和輔助信息,以確保深度網(wǎng)絡(luò)的準(zhǔn)確性。DBN結(jié)構(gòu)如圖3所示。受限的Boltzmann機(jī)器由兩個神經(jīng)元節(jié)點(diǎn)組成,即隱藏層和可見層。2.2.1受限玻耳茲曼機(jī)(RBM)。首先,DBN模型是基于人工神經(jīng)網(wǎng)絡(luò)的,由接收輸入數(shù)據(jù)的顯性神經(jīng)元和特征提取的隱性神經(jīng)元組成。DBN的關(guān)鍵組件是RBM,它通過將多層RBM與最終分類器結(jié)合在一起來檢測、識別和分類輸入數(shù)據(jù)。RBM組成結(jié)構(gòu)包含兩層神經(jīng)元,每一層都可以由一個向量表示,向量的維數(shù)由每一層中神經(jīng)元的數(shù)量確定,如圖4所示。由圖4可知,為了保證層中神經(jīng)元的獨(dú)立性,RBM各層中的神經(jīng)元之間無連接,層間神經(jīng)元雙向連接,即與給定元素相對應(yīng)的隱藏元素的值無關(guān),并且當(dāng)該元素被賦予隱藏元素值時,將保留相同的特性。2.2.2DBN模型的構(gòu)建。DBN就是一些堆疊在一起的RBM,前一個RBM的輸出就是后一個RBM的輸入。本文以兩層RBM和Softmax分類層為例構(gòu)建DBN模型。如圖3所示,v代表顯示層神經(jīng)元,h代表隱藏層神經(jīng)元,y代表標(biāo)簽已知的樣本,o代表分類結(jié)果輸出。DBN模型的構(gòu)造如下:固定第一個訓(xùn)練后的RBM的權(quán)重和偏差,將其隱藏元素的狀態(tài)作為第二個RBM的輸入;訓(xùn)練后將第二個RBM堆疊在第一個RBM上;重復(fù)上述過程進(jìn)行多次逐層學(xué)習(xí)。如果訓(xùn)練數(shù)據(jù)集包含標(biāo)記的樣本,則需要在第二次RBM訓(xùn)練期間將其添加,最后使用Softmax對數(shù)據(jù)進(jìn)行分類。深度置信網(wǎng)絡(luò)在檢測識別領(lǐng)域的應(yīng)用效果分析,如表1所示。樣本數(shù)據(jù)主要是手寫數(shù)字、頻譜圖像和語音。

2.3CapsNet與DBN融合模型

CapsNet模型和DBN模型都可以應(yīng)用于線下手寫漢字識別任務(wù),CapsNet解決了CNN的缺點(diǎn),能捕捉特征位置、相對大小、特征方向等屬性間的關(guān)系。DBN通過采用逐層訓(xùn)練的方式為整個網(wǎng)絡(luò)賦予了較好的初始權(quán)值,以重構(gòu)數(shù)據(jù)為目標(biāo),使網(wǎng)絡(luò)只要微調(diào)就可以達(dá)到最優(yōu)解,這在無監(jiān)督的環(huán)境中是非常有用的。由于CapsNet和DBN網(wǎng)絡(luò)結(jié)構(gòu)不同,因此提取特征的優(yōu)勢不同,如字形特征不明顯,或與其他字形相似,那么不同的人識別的結(jié)果可能也不一樣。本文提出的CapsNet和DBN融合模型結(jié)合了兩者的優(yōu)勢,比單獨(dú)使用CapsNet和DBN識別漢字具有更高的識別能力,這種模型稱為CapsNet-DBN融合模型,包括訓(xùn)練和識別過程,如圖5所示。

3仿真與測試(SimulationandTest)

3.1實(shí)驗(yàn)準(zhǔn)備

使用數(shù)據(jù)集CASIA-HWDB1.1進(jìn)行訓(xùn)練和測試,該數(shù)據(jù)集于2010年5月公布,為手寫單字,分別由300人書寫,包含171個英文數(shù)字符號,3,755個GB2312一級漢字,共300套,總計(jì)1,172,907個有效樣本。表2列出了CapsNet-DBN模型中的各層參數(shù)。

3.2實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)環(huán)境:Windows1064位操作系統(tǒng),處理器為Intel(R)Core(TM)i7-6500UCPU,主頻為2.5GHz,內(nèi)存為16GB,實(shí)驗(yàn)平臺為Python3.8版本。實(shí)驗(yàn)數(shù)據(jù)來自。表3為CapsNet網(wǎng)絡(luò)、DBN網(wǎng)絡(luò)及其融合網(wǎng)絡(luò)的準(zhǔn)確率。CapsNet、DBN、CapsNet-DBN對不同寫法的漢字識別能力的比較如圖6所示。圖7表明三種算法對不同漢字的識別能力,CapsNet-DBN在大部分情況下都比CapsNet和DBN對不同漢字的識別能力要高。圖8和圖9分別顯示了CapsNet-DBN網(wǎng)絡(luò)訓(xùn)練過程準(zhǔn)確率和訓(xùn)練損失。Fig.9LossofCapsNet-DBNnetworktrainingprocess使用相同數(shù)據(jù)集驗(yàn)證并比較表1中的各種模型算法和本文所述的融合模型的識別準(zhǔn)確率,從表4中可知,ResNet-BLSTM+DBN方法對手寫漢字的識別效果良好,本文提出的CapsNet-DBN融合模型也可以獲得較高的精度。本文在CapsNet-DBN模型的基礎(chǔ)上嘗試增加隱藏層和隱藏單元數(shù)目及在不同的迭代次數(shù)中進(jìn)行測試,分別增加了隱藏層個數(shù)及隱藏單元數(shù)。圖10(a)隱藏層參數(shù)為(32*3*3)-(16*2*2)-(2*2)-(2*2)-(64*2*2)-(2*2)-(512),圖10(b)隱藏層參數(shù)為(32*3*3)-(2*2)-(16*2*2)-(2*2)-(32*2*2)-(2*2)-(64*2*2)-(2*2)-(512),圖10(b)比圖10(a)增加了2個隱藏層。圖11(a)隱藏層參數(shù)為(32*3*3)-(2*2)-(32*2*2)-(2*2)-(96*2*2)-(2*2)-(128*2*2)-(2*2)-(512),圖11(b)隱藏層參數(shù)為(32*3*3)-(2*2)-(64*2*2)-(2*2)-(96*2*2)-(2*2)-(128*2*2)-(2*2)-(512),圖11(b)其中一個隱藏層單元數(shù)為圖11(a)的2倍。實(shí)驗(yàn)結(jié)果說明了隱藏層個數(shù)和隱藏單元數(shù)目的增加可以將大量信息擴(kuò)展到維度較大的中間空間,這樣會將模型的驗(yàn)證精度提高7.2%。當(dāng)然,隱藏層個數(shù)和隱藏單元數(shù)目也不是越多越好,需要根據(jù)具體問題進(jìn)行調(diào)整。

4結(jié)論

(Conclusion)本文針對離線手寫漢字的特征提取困難、不能準(zhǔn)確識別等問題,提出了一種膠囊網(wǎng)絡(luò)與深度置信網(wǎng)絡(luò)的融合模型,從CASIA-HWDB1.1數(shù)據(jù)集中隨機(jī)選擇了一些文本進(jìn)行手寫漢字識別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,與單獨(dú)的CapsNet和DBN及傳統(tǒng)的機(jī)器學(xué)習(xí)方法相比,CapsNet-DBN融合模型在數(shù)據(jù)集上獲得了更好的識別結(jié)果。

作者:管小衛(wèi) 丁琳 單位:江蘇財(cái)經(jīng)職業(yè)技術(shù)學(xué)院

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表