前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)核心思想主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞: 動(dòng)態(tài)紋理分類; 慢特征分析; 深度學(xué)習(xí); 堆棧降噪自動(dòng)編碼網(wǎng)絡(luò)模型
中圖分類號(hào): TN919?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)06?0020?05
Dynamic texture classification method based on stacked denoising autoencoding model
WANG Cai?xia, WEI Xue?yun, WANG Biao
(School of Electronics and Information Engineering, Jiangsu University of Science and Technology, Zhenjiang 212003 China)
Abstract: To overcome the shortcomings of extracting the feature descriptors by manual operation and too high feature dimension for dynamic scene classification, a deep learning network model is proposed to extract dynamic texture features. Firstly, the slow feature analysis method is used to learn dynamic characteristics of each video sequence through before hand, and the learned feature is used as input data of deep learning to get the advanced representation of the input signal. The stacked denoising autoencoding model is selected for the deep learning network mode. SVM classification method is used for its classification. The experimental result proves that the feature dimension extracted by this method is low and can effectively describe dynamic textures.
Keywords: dynamic texture classification; slow feature analysis; deep learning; stacked denoising autoencoding model
0 引 言
動(dòng)態(tài)紋理是指具有空間重復(fù)性、并隨時(shí)間變化的視覺(jué)模式,這種模式形成了一系列在時(shí)間域上具有某種不變性的圖像序列[1]。不同的動(dòng)態(tài)紋理可能具有相似的外觀,但是卻具有不同的運(yùn)動(dòng)形式,所以表觀和運(yùn)動(dòng)是動(dòng)態(tài)紋理特征的兩大方面。在目前的動(dòng)態(tài)視頻分析系統(tǒng)中,最關(guān)鍵的步驟是如何提取有效的動(dòng)態(tài)紋理特征描述符。在過(guò)去幾十年里,對(duì)紋理的研究大部分都集中在靜態(tài)紋理特征的研究,動(dòng)態(tài)紋理的研究相對(duì)靜態(tài)紋理而言起步要晚的多。動(dòng)態(tài)紋理的研究最早始于20世紀(jì)90年代初,由Nelson和Polana采用建立線性系統(tǒng)模型的方法對(duì)其進(jìn)行研究[2],并且將視覺(jué)運(yùn)動(dòng)劃分為三類[3]:行為、運(yùn)動(dòng)事件以及動(dòng)態(tài)紋理。隨后,Szummer 和 Picard提出采用時(shí)空自回歸模型(Spatio?Temporal Auto Regressive,STAR)[4]對(duì)動(dòng)態(tài)紋理序列進(jìn)行建模?;诠饬鞯淖R(shí)別法是目前比較流行的動(dòng)態(tài)紋理識(shí)別法,因?yàn)槠溆?jì)算效率高,并且以一種很直觀的方式來(lái)描述圖像的局部動(dòng)態(tài)紋理特征,F(xiàn)azekas和Chetverikov總結(jié)出,正則性(Regulated)全局流與普通流(Normal Flow)相比,普通流可以同時(shí)包含動(dòng)態(tài)特性和形狀特性[5]?;贚BP的動(dòng)態(tài)紋理方法是最近幾年才提出的一種有效算法,典型的是Zhao等人提出的兩種時(shí)空域上的描述子:時(shí)空局部二值模式(Volume Local Binary Pattern,VLBP)[6]和三正交面局部二值模式(Local Binary Pattern from Three Orthogonal Planes,LBP?TOP)[7],有效地結(jié)合“運(yùn)動(dòng)”和“外觀”特征。2007―2008年是動(dòng)態(tài)紋理研究最多的兩年,各大期刊雜志連續(xù)刊登有關(guān)動(dòng)態(tài)紋理的研究文章。
本文試圖解決動(dòng)態(tài)自然場(chǎng)景的分類問(wèn)題(例如:煙火、河流、風(fēng)暴、海洋、雪花等)。在計(jì)算機(jī)視覺(jué)領(lǐng)域,過(guò)去采用較多的是手動(dòng)提取特征來(lái)表示物體運(yùn)動(dòng)信息(例如:HOF、基于STIP的HOG算法等),實(shí)驗(yàn)表明該類方法對(duì)人體行為識(shí)別非常有效。但是由于自然環(huán)境比較復(fù)雜,動(dòng)態(tài)紋理表現(xiàn)不穩(wěn)定,易受光照、遮擋等影響,而手動(dòng)選取特征非常費(fèi)力,需要大量的時(shí)間進(jìn)行調(diào)節(jié),所以該類方法并不適用于動(dòng)態(tài)場(chǎng)景分類。Theriault等人提出利用慢特征分析的方法來(lái)提取動(dòng)態(tài)視頻序列的特征[8]。該方法雖然能有效表示動(dòng)態(tài)紋理特征,但是其提取的特征維數(shù)較高。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),近幾年深度學(xué)習(xí)網(wǎng)絡(luò)模型在大尺度圖像分類問(wèn)題中成功應(yīng)用使得其得到越來(lái)越多人的重視。卷積神經(jīng)網(wǎng)絡(luò)、深度置信網(wǎng)絡(luò)和堆棧自編碼網(wǎng)絡(luò)是三種典型的深度學(xué)習(xí)網(wǎng)絡(luò)模型,而堆棧自編碼網(wǎng)絡(luò)模型不僅對(duì)高維數(shù)據(jù)有很好的表示,而且采用非監(jiān)督的學(xué)習(xí)模式對(duì)輸入數(shù)據(jù)進(jìn)行特征提取,這對(duì)于傳統(tǒng)的手動(dòng)提取特征。利用堆棧自編碼網(wǎng)絡(luò)模型對(duì)慢特征進(jìn)行進(jìn)一步學(xué)習(xí),不僅能降低數(shù)據(jù)維度,而且還能提取出數(shù)據(jù)更有效的特征表示。
1 基于堆棧自編碼網(wǎng)絡(luò)模型的慢特征分析法
1.1 慢特征分析法
文獻(xiàn)[9?10]中提到,慢特征分析算法的目標(biāo)是從不斷變化的輸入信號(hào)中學(xué)習(xí)不變量,即除了無(wú)意義的常值信號(hào)外,最具不變性質(zhì)的信息,其實(shí)質(zhì)也就是從快速變化的信號(hào)中提取緩慢變化的信號(hào)特征,這種特征是從混合信號(hào)中提取出來(lái)的源信號(hào)的高級(jí)表示,表征信號(hào)源的某些固有屬性[11]。
實(shí)驗(yàn)證明,慢特征分析法在人體行為識(shí)別中有很好的描述作用,這為動(dòng)態(tài)紋理分類提供了一個(gè)很好的選擇。慢特征分析算法的核心思想是相關(guān)矩陣的特征值分解,其本質(zhì)是在經(jīng)過(guò)非線性擴(kuò)展特征空間對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化,尋找最優(yōu)解的線性組合。
給定一個(gè)時(shí)域輸入信號(hào)序列:
[vt=v1t,v2t,…,vDtT]
目標(biāo)就是學(xué)習(xí)一組映射函數(shù):
[Sv=S1v,S2v,…,SMv]
使得輸出信號(hào)[yt=y1t,y2t,…,yMtT]的各個(gè)分量[yj=Sjvt]的變化盡可能緩慢,而且仍然保留相關(guān)的重要信息。選用時(shí)域信號(hào)一階導(dǎo)數(shù)的均方值來(lái)衡量輸出信號(hào)個(gè)分量的變化率:
[minSj<y?2j>t] (1)
且滿足以下條件:
(1) [<yj>t=0];
(2) [<y2j>t=1];
(3) [?j<j':<yj,yj'>t=0]。
其中:[<y>t]是[y]的時(shí)域平均值;[y?j]是[yj]的時(shí)域一階導(dǎo)數(shù)。這三個(gè)約束條件保證慢特征分析的輸出信號(hào)的各分量的變化率盡可能小,其中條件1和條件2確保輸出沒(méi)有無(wú)意義的常信號(hào)值,條件3確保輸出各分量之間是非相關(guān)的,且不同慢特征承載著不同信息。值得注意的是,函數(shù)[Sv]是輸入信號(hào)的瞬時(shí)函數(shù),所以輸出結(jié)果不能看成是通過(guò)低通濾波器的結(jié)果,慢特征處理速度要比低通濾波器快很多。如圖1所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t1.tif>
圖1 時(shí)域輸入信號(hào)慢特征的提取
輸出信號(hào)各分量按照變化率從小到大排列,且互不相關(guān),其最優(yōu)解問(wèn)題可以看成以下公式的解特征值問(wèn)題:
[Sj:<v?v?T>tSj=λjSj] (2)
求解得到的特征值按從小到大的順序排列,即[λ1≤λ2≤???≤λM],輸出信號(hào)的慢特征和最小特征值息息相關(guān)。輸入信號(hào)[vt]可以是多種模式的圖像特征(例如色彩,梯度,SIFT特征,HOG特征)。
這里采用的是v1特征[12?13],該特征對(duì)圖像有很好的表示,確保預(yù)先學(xué)習(xí)到的慢特征能達(dá)到最優(yōu)。
1.2 堆棧自動(dòng)編碼模型
自動(dòng)編碼器模型是深度學(xué)習(xí)網(wǎng)絡(luò)模型之一,其盡可能復(fù)現(xiàn)輸入信號(hào),捕捉代表輸入信號(hào)的主要成分。
如圖2所示,對(duì)于給定輸入信號(hào)[x],根據(jù)式(2)得到輸出[y],此過(guò)程為編碼過(guò)程:
[y=fθx=sWx+b] (3)
式中:[sx=11+θ-x];[W]是[d′×d]維權(quán)重矩陣;[b]是偏移向量。
為了驗(yàn)證輸出[y]是否準(zhǔn)確表達(dá)原輸入信號(hào),利用式(2)對(duì)其進(jìn)行重構(gòu),得到重構(gòu)信號(hào)[z]。此過(guò)程為解碼/重構(gòu)過(guò)程:
[gθ′y=sW′y+b′] (4)
從輸入到輸出的權(quán)值記為[θ=W,b],從輸出到輸入的權(quán)值記為[θ′=W′,b′]。逐層進(jìn)行參數(shù)[θ]和[θ′]的優(yōu)化,式(5)為其目標(biāo)函數(shù):
[θ?,θ′*=argminθ,θ′Lx,zLx,z=12x-z2] (5)
調(diào)整參數(shù),使得重構(gòu)誤差達(dá)到最小,因此可以得到[x]的第一層表示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t2.tif>
圖2 普通DA和降噪DA
降噪自動(dòng)編碼器(Denoising Auto Encoder,Dae)是在自動(dòng)編碼器的基礎(chǔ)上給訓(xùn)練數(shù)據(jù)加入噪聲,編碼器需要學(xué)習(xí)去除噪聲而獲得沒(méi)有被噪聲污染的輸入信號(hào),因此獲得輸入信號(hào)更加魯棒的表達(dá)。堆棧自動(dòng)編碼模型(Sda)是將多個(gè)Dae堆疊起來(lái)形成的一種深度網(wǎng)絡(luò)模型。利用優(yōu)化后的參數(shù)[θ]得到當(dāng)前層的輸出[y](即下一層的輸入),將得到的[y]作為新一層的輸入數(shù)據(jù),逐層進(jìn)行降噪自動(dòng)編碼的過(guò)程,直到到達(dá)多層神經(jīng)網(wǎng)絡(luò)中間隱層的最后一層為止,算出該層輸出,即為輸出特征,如圖3所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t3.tif>
圖3 多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
1.3 基于Sda的慢特征分析法
基于Sda的慢特征分析方法利用慢特征分析法預(yù)先學(xué)習(xí)動(dòng)態(tài)視頻序列的慢特征,將該特征作為模型輸入,進(jìn)行多層降噪自動(dòng)編碼網(wǎng)絡(luò)模型參數(shù)的學(xué)習(xí),最后使用SVM分類器對(duì)該模型的輸出特征進(jìn)行分類,具體步驟如圖4所示。
2 實(shí) 驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)集與評(píng)估準(zhǔn)則
實(shí)驗(yàn)所用數(shù)據(jù)由10類動(dòng)態(tài)場(chǎng)景構(gòu)成(包括海灘,電梯,森林煙火,高速公路,閃電,海洋,鐵路,河流,云,街道),且每一個(gè)類別由30個(gè)250×370 pixels大小的彩序列構(gòu)成。這些視頻序列全部來(lái)自于加拿大約克大學(xué)計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室于2012年的YUPENN動(dòng)態(tài)場(chǎng)景數(shù)據(jù)集[14],該數(shù)據(jù)庫(kù)主要強(qiáng)調(diào)的是對(duì)象和表層在短時(shí)間內(nèi)場(chǎng)景的實(shí)時(shí)信息。如圖5所示。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t4.tif>
圖4 基于Sda的慢特征分析步驟圖
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t5.tif>
圖5 YUPENN動(dòng)態(tài)數(shù)據(jù)庫(kù)
將所有彩序列進(jìn)行尺度縮放,分別放大和縮小1.2倍,1.4倍,1.6倍,并且在每一個(gè)尺度上進(jìn)行旋轉(zhuǎn),旋轉(zhuǎn)角度分別為[2°,4°,6°,-2°,-4°,-6°]。所以樣本總數(shù)為(10×30)×(6×6)=10 800個(gè)。實(shí)驗(yàn)性能使用混淆矩陣(Confusion Matrix)進(jìn)行衡量。混淆矩陣是多分類問(wèn)題中常用的衡量準(zhǔn)則,它使得分類結(jié)果一目了然并能指出錯(cuò)誤預(yù)測(cè)的影響。分類矩陣通過(guò)確定預(yù)測(cè)值是否與實(shí)際值匹配,將模型中的所有事例分為不同的類別。然后會(huì)對(duì)每個(gè)類別中的所有事例進(jìn)行計(jì)數(shù),并在矩陣中顯示總計(jì)。實(shí)驗(yàn)中一共有14個(gè)類別的數(shù)據(jù)集,所以最后會(huì)產(chǎn)生一個(gè)大小為14×14的混淆矩陣。
2.2 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)選用線性SVM分類器,采用Leave?One?Out 分析法進(jìn)行分類。所有視頻序列全部轉(zhuǎn)換成灰度視頻進(jìn)行慢特征分析,輸出大小為4 032維的慢特征向量作為Sda網(wǎng)絡(luò)模型的輸入數(shù)據(jù)。
2.2.1 Sda網(wǎng)絡(luò)模型大小
堆棧降噪自動(dòng)編碼器網(wǎng)絡(luò)層數(shù)以及每一層的大小對(duì)輸出特征的魯棒性和SVM分類結(jié)果有重要的影響。當(dāng)網(wǎng)絡(luò)層數(shù)不一樣時(shí),模型學(xué)習(xí)到的特征也就不一樣,網(wǎng)絡(luò)層數(shù)過(guò)低,學(xué)習(xí)力度可能不夠,特征達(dá)不到最佳表示效果,網(wǎng)絡(luò)層數(shù)太高,可能會(huì)出現(xiàn)過(guò)擬合現(xiàn)象,隱層的大小和最后的分類結(jié)果也息息相關(guān),所以選取不同網(wǎng)絡(luò)層數(shù)和隱層大小分別進(jìn)行實(shí)驗(yàn),如圖6所示,選取網(wǎng)絡(luò)層數(shù)分別為1,2,3,隱層大小分別為500,1 000,2 000。由圖6可知,當(dāng)隱層大小為500時(shí)的分類得分顯然比1 000和2 000時(shí)高很多;在隱層大小為500時(shí),隨著網(wǎng)絡(luò)層數(shù)不斷增加,實(shí)驗(yàn)結(jié)果不斷提升,當(dāng)網(wǎng)絡(luò)層數(shù)由2層上升到3層時(shí),實(shí)驗(yàn)結(jié)果已經(jīng)非常接近(網(wǎng)絡(luò)層數(shù)為2時(shí)score=95.9%,網(wǎng)絡(luò)層數(shù)為3時(shí)score=96.3%)??梢缘弥?,隨著網(wǎng)絡(luò)層數(shù)不斷增加,分類的效果逐漸提高,當(dāng)網(wǎng)絡(luò)層數(shù)為3時(shí),分類結(jié)果已非常接近。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t6.tif>
圖6 不同網(wǎng)絡(luò)層數(shù)和隱層大小的分類結(jié)果
2.2.2 噪聲
Sdae對(duì)每一層的輸入加入噪聲,編碼器自動(dòng)學(xué)習(xí)如何去除噪聲而獲得更加魯棒的動(dòng)態(tài)紋理特征,因此每一層所加入的噪聲的大小對(duì)提取的特征有很大的影響。因此,選取不同大小的噪聲分別進(jìn)行實(shí)驗(yàn),如圖7所示,選取噪聲大小分別為10%,15%,20%,25%,30%,35%,40%,45%,50%,固定網(wǎng)絡(luò)層大小為[500,500,500];由圖可知,加入噪聲對(duì)分類得分的影響呈類似拋物線形狀,對(duì)每一層輸入數(shù)據(jù)加入25%的噪聲時(shí)score=0.964為最大值。
2.2.3 混淆矩陣以及實(shí)驗(yàn)與現(xiàn)有方法的比較
圖8為實(shí)驗(yàn)最優(yōu)參數(shù)所計(jì)算出的混淆矩陣,由圖可知,海灘、電梯、高速公路以及海洋的分類效果達(dá)到100%,噴泉(Fountain)的分類效果雖然最差,但也已經(jīng)達(dá)到83%左右,其容易被誤分成森林火災(zāi)(17%錯(cuò)誤分類)。由該混淆矩陣可以得知,實(shí)驗(yàn)所用方法能夠達(dá)到將近96.4%平均得分。表1是本文所用方法與現(xiàn)有幾個(gè)比較常用的動(dòng)態(tài)紋理特征提取方法的比較,分別有HOF[15],GIST[16],Chaos[17],SFA[8]。由表格可以得知,SFA是幾個(gè)方法中效果最好的,可以達(dá)到76.7%的分類效果,而本文所用方法SFA+Sda比SFA方法提高了將近20%的分類得分,并且在每一個(gè)動(dòng)態(tài)場(chǎng)景中分類效果總是優(yōu)于其他幾種方法。
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t7.tif>
圖7 加入不同噪聲的分類結(jié)果
<E:\王芳\現(xiàn)代電子技術(shù)201506\現(xiàn)代電子技術(shù)15年38卷第6期\Image\42t8.tif>
圖8 混淆矩陣
表1 本實(shí)驗(yàn)與現(xiàn)有方法比較
3 結(jié) 語(yǔ)
本文提出一種基于多層降噪自動(dòng)編碼網(wǎng)絡(luò)模型的動(dòng)態(tài)紋理分類方法:預(yù)先學(xué)習(xí)動(dòng)態(tài)視頻序列的慢特征,以此作為多層降噪自編碼網(wǎng)絡(luò)模型的輸入數(shù)據(jù)進(jìn)行非監(jiān)督的深度學(xué)習(xí),網(wǎng)絡(luò)最頂層的輸出即為所提取的動(dòng)態(tài)紋理特征,采用SVM分類器對(duì)該特征進(jìn)行分類。本文對(duì)實(shí)驗(yàn)中的各種影響參數(shù)如網(wǎng)絡(luò)模型的深度、每一層的大小以及加入噪聲的大小做了充分的研究,實(shí)驗(yàn)證明,該方法所提取的特征對(duì)動(dòng)態(tài)紋理有很好的表示作用,分類效果不錯(cuò),在動(dòng)態(tài)場(chǎng)景分類問(wèn)題中有很大的應(yīng)用價(jià)值。
參考文獻(xiàn)
[1] DORETTO G, CHIUSO A, WU Y, et al. Dynamic textures [J]. International Journal on Computer Vision, 2003, 51(2): 91?109.
[2] NELSON R C, POLENA P. Qualitative recognition of motion using temporal texture [J]. CVGIP: Image Understanding, 1992, 56(1): 78?89.
[3] POLANA R, NELSON R. Temporal texture and activity recognition [J]. Motion?Based Recognition: Computational Imaging and Vision, 1997, 9: 87?124.
[4] SZUMMER M, PICARD R W. Temporal texture modeling [C]// Proceedings of 1996 International Conference on Image Processing. [S.l.]: [s.n.], 1996: 11?16.
[5] FAZEKAS S, CHETVERIKOV D. Normal versus complete ?ow in dynamic texture recognition a comparative study [C]// 2005 4th International Workshop on Texture Analysis and Synthesis (ICCV 2005). [S.l.]: [s.n.], 2005: 37?42.
[6] ZHAO G, PIETIK?INEN M. Dynamic texture recognition using volume local binary patterns [C]// European Conference on Computer Vision. [S.l.]: [s.n.], 2006: 165?177.
[7] PIETIK¨AINEN G Z M. Dynamic texture recognition using local binary patterns with an application to facial expression [J]. IEEE Transaction on Pattern Analysis and Machine Intelligence, 2007, 29(6): 915?928.
[8] THERIAULT Christian, THOME Nicolas, CORD Matthieu. Dynamic scene classification: learning motion descriptors with slow features analysis [EB/OL]. [2014?09?17]. http://.
[9] FRANZIUS M, WILBERT N, WISKOTT L. Invariant object recognition with slow feature analysis [C]// ICANN 18th International Conference. Berlin: Springer?Verlag, 2008: 961?970.
[10] WISKOTT L, SEJNOWSKI T. Slow feature analysis: Unsupervised learning of invariances [J]. Neural Comput., 2002, 14: 715?770.
[11] 馬奎俊,韓彥軍,陶卿,等.基于核的慢特征分析算法[J].模式識(shí)別與人工智能,2011(2):79?84.
[12] DE VALOIS R, YUND E, HEPLER N. The orientation and direction selectivity of cells in macaque visual cortex [J]. Vision Research, 1982, 22: 531?544.
[13] HUBEL D, WIESEL T. Receptive fields of single neurons in the cat’s striate cortex [J]. Journal of Physiol, 1959, 4: 574?591.
[14] DERPANIS Konstantinos, LECCE M, DANIILIDIS K, et al. Dynamic scene understanding: the role of orientation features in space and time in scene classification [C]// International Conference on Computer Vision and Pattern Recognition. [S.l.]: [s.n.], 2012: 111?121.
[15] MARSZALEK M, LAPTEV I, SCHMID C. Actions in Context [C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2009: 2?6.