前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的定義主題范文,僅供參考,歡迎閱讀并收藏。
1.神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜。感知和翻譯等大多數(shù)神經(jīng)網(wǎng)絡(luò)的架構(gòu)正變得越來越復(fù)雜,遠非此前簡單的前饋神經(jīng)網(wǎng)絡(luò)或卷積神經(jīng)網(wǎng)絡(luò)(CNN)所能比。特別需要注意的是,神經(jīng)網(wǎng)絡(luò)正與不同的技術(shù)(如LSTMs、自定義目標(biāo)函數(shù)等)相混合。
神經(jīng)網(wǎng)絡(luò)是多數(shù)深度學(xué)習(xí)項目的根基。深度學(xué)習(xí)基于人腦結(jié)構(gòu),一層層互相連接的人工模擬神經(jīng)元模仿大腦的行為,處理視覺和語言等復(fù)雜問題。這些人工神經(jīng)網(wǎng)絡(luò)可以收集信息,也可以對其做出反應(yīng)。它們能對事物的外形和聲音做出解釋,還可以自行學(xué)習(xí)與工作。
2.長短期記憶網(wǎng)絡(luò)(LSTMs)。當(dāng)你閱讀本文時,你是在理解前面詞語的基礎(chǔ)上來理解每個詞語的。你的思想具有連續(xù)性,你不會丟棄已知信息而從頭開始思考。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的一大缺陷便無法做到這一點,而遞歸神經(jīng)網(wǎng)絡(luò)能夠解決這一問題。
RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))擁有循環(huán)結(jié)構(gòu),可以持續(xù)保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關(guān)鍵在于一種特殊的RNN――長短期記憶網(wǎng)絡(luò)。
3.“注意力模型”?!白⒁饬Α笔侵干窠?jīng)網(wǎng)絡(luò)在執(zhí)行任務(wù)時知道把焦點放在何處。我們可以讓神經(jīng)網(wǎng)絡(luò)在每一步都從更大的信息集中挑選信息作為輸入。例如,當(dāng)神經(jīng)網(wǎng)絡(luò)為一張圖片生成標(biāo)題時,它可以挑選圖像的關(guān)鍵部分作為輸入。
4.神經(jīng)圖靈機依然有趣,但還無法勝任實際工作。當(dāng)你翻譯一句話時,并不會逐詞進行,而會從句子的整體結(jié)構(gòu)出發(fā)。機器難以做到這一點,這一挑戰(zhàn)就被稱為“強耦合輸出整體估計”。
神經(jīng)圖靈機就是研究者們在硅片中重現(xiàn)人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經(jīng)網(wǎng)絡(luò),它們可以適應(yīng)與外部存儲器共同工作,這使得神經(jīng)網(wǎng)絡(luò)可以存儲記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務(wù)。
5.深度學(xué)習(xí)讓計算機視覺和自然語言處理不再是孤島。卷積神經(jīng)網(wǎng)絡(luò)最早出現(xiàn)在計算機視覺中,但現(xiàn)在許多自然語言處理(NLP)系統(tǒng)也會使用。LSTMs與遞歸神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)最早出現(xiàn)在NLP中,但現(xiàn)在也被納入計算機視覺神經(jīng)網(wǎng)絡(luò)。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。
6.符號微分式越來越重要。隨著神經(jīng)網(wǎng)絡(luò)架構(gòu)及其目標(biāo)函數(shù)變得日益復(fù)雜,手動推導(dǎo)出“反向傳播”的梯度也變得更加困難而且容易出錯。谷歌的TensorFlow等最新的工具包已經(jīng)可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓(xùn)練時誤差梯度可被反向傳播。
7.神經(jīng)網(wǎng)絡(luò)模型壓縮的驚人成果。多個團隊以不同方法大幅壓縮了訓(xùn)練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數(shù)、迭代修剪和精細調(diào)優(yōu)步驟等。
這些技術(shù)潛在的應(yīng)用前景廣闊,可能將會適應(yīng)在移動設(shè)備上進行復(fù)雜模型的訓(xùn)練。例如,不需要延遲就可以得到語音識別結(jié)果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設(shè)備上也可以運用復(fù)雜神經(jīng)網(wǎng)絡(luò)模型,近乎實時地完成計算機視覺任務(wù)。
8.深度學(xué)習(xí)和強化學(xué)習(xí)繼續(xù)交匯。在“端對端”機器人等領(lǐng)域出現(xiàn)了令人激動的進展,現(xiàn)在機器人已經(jīng)可以一起運用深度和強化學(xué)習(xí),從而將原始感官數(shù)據(jù)直接轉(zhuǎn)化為實際動作驅(qū)動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);人臉識別;大樣本;對抗生成網(wǎng)絡(luò)
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓(xùn)練數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)在目標(biāo)檢測、目標(biāo)識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機視覺領(lǐng)域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集,學(xué)習(xí)出具有百萬參數(shù)的模型,從而使卷積神經(jīng)網(wǎng)絡(luò)能夠有效提取對象的本質(zhì)特征;
(2)不斷改進性能優(yōu)異的網(wǎng)絡(luò)結(jié)構(gòu),如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設(shè)備(如GPU)的支持,大大提高了CNN訓(xùn)練模型的效率。其中,將標(biāo)簽的大量數(shù)據(jù)作為訓(xùn)練集起著至關(guān)重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現(xiàn)狀和發(fā)展方向。
有效的特征是目標(biāo)識別的關(guān)鍵,對人臉識別問題來說亦如此。傳統(tǒng)的主成分分析(Principal Component Analysis,PCA)[4,5],線性區(qū)分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績。基于傳統(tǒng)特征的人臉識別受限于環(huán)境,此類特征作用在復(fù)雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數(shù)據(jù)集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數(shù)據(jù)中學(xué)習(xí)到可調(diào)節(jié)的參數(shù)。即CNN能自喲喲笫據(jù)中學(xué)習(xí)特征,無需人工設(shè)計特征。合理有效的特征需從大量數(shù)據(jù)和大量參數(shù)中自動學(xué)習(xí)獲取,從而達到優(yōu)秀的識別性能?;诰矸e神經(jīng)網(wǎng)絡(luò)的世界領(lǐng)先方法均使用了上百萬的數(shù)據(jù),其中最具有代表性的如VGG-Face網(wǎng)絡(luò)需要260萬個人臉圖像樣本進行訓(xùn)練[10],F(xiàn)acebook的DeepFace網(wǎng)絡(luò)需要440萬個有標(biāo)簽的人臉圖像樣本訓(xùn)練[11]。而Google更使用了2億樣本數(shù)據(jù)來訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
1 多樣本獲取現(xiàn)狀
如引言所述,有效合理的特征是目標(biāo)識別的關(guān)鍵,而CNN能從大量有標(biāo)簽的數(shù)據(jù)中自動學(xué)習(xí)圖像的本質(zhì)特征。獲得圖像特征的關(guān)鍵因素是有標(biāo)簽的大數(shù)據(jù)。因此許多研究的前提工作均聚焦在人工獲取數(shù)據(jù)和給數(shù)據(jù)加標(biāo)簽方面。然而,獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費大量的人力物力。雖然也有一些公開免費的數(shù)據(jù)集,且收集該類數(shù)據(jù)相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠少于Facebook和Google的數(shù)據(jù)集。在這種情況下,缺乏大量樣本直接阻礙了深度學(xué)習(xí)方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學(xué)習(xí)技術(shù)提取特征需要大量樣本外,已有研究證明[14-19],基于傳統(tǒng)方法的技術(shù)同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機器學(xué)習(xí)技術(shù)自動增加樣本集已成為必要手段。
無論基于傳統(tǒng)方法的識別問題,還是基于深度學(xué)習(xí)的識別問題,大量有標(biāo)簽的數(shù)據(jù)作為訓(xùn)練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網(wǎng)絡(luò)上獲取數(shù)據(jù),例如在IMDb上,已經(jīng)把9萬有標(biāo)簽的數(shù)據(jù)集擴大到了26萬 [10]。除此之外,F(xiàn)acebook獲取了440萬個有標(biāo)簽的人臉進行DeepFace網(wǎng)絡(luò)訓(xùn)練[11],而Google使用2億個數(shù)據(jù)訓(xùn)練FaceNet網(wǎng)絡(luò)[12]。
目前獲取方法具有如下局限:
(1)現(xiàn)有方法耗時耗力,需要經(jīng)費支持。獲取百萬級的數(shù)據(jù)并非易事。大數(shù)據(jù)獲取需要人工從網(wǎng)上下載、處理,然后給數(shù)據(jù)添加標(biāo)簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標(biāo)簽的數(shù)據(jù)進行網(wǎng)絡(luò)訓(xùn)練。而大多數(shù)情況下的數(shù)據(jù)收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數(shù)據(jù)普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫(yī)學(xué)圖像,遙感圖像,現(xiàn)實中數(shù)量本身就少,加之無法直接從網(wǎng)上獲取,因此小樣本很容易導(dǎo)致過擬合。
2 樣本集擴大算法研究現(xiàn)狀
2.1 基于傳統(tǒng)方法的多樣本算法研究現(xiàn)狀
對于傳統(tǒng)的樣本生成算法,如果數(shù)據(jù)集中有足夠的訓(xùn)練樣本,均可得到比較滿意的識別結(jié)果,但在現(xiàn)實的人臉數(shù)據(jù)庫中,人臉的數(shù)據(jù)樣本卻是有限的。文獻[20]表明,增加圖像樣本的數(shù)量可以較大幅度提高識別的準確率。
為了增加樣本數(shù)量,提高識別準確率,科研工作者已做了大量工作。其中,借助原始樣本產(chǎn)生虛擬樣本是一種有效的增加數(shù)據(jù)集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產(chǎn)生虛擬樣本,從而擴大數(shù)據(jù)集并提高人臉識別的正確率,Song[22]也提出相應(yīng)的算法來改進人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產(chǎn)生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴大數(shù)據(jù)集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據(jù)原始樣本的分布來產(chǎn)生虛擬樣本[19],Liu等也根據(jù)圖像本身特性來產(chǎn)生虛擬樣本[23]。
(4)基于數(shù)學(xué)的多樣本產(chǎn)生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關(guān)實驗,其結(jié)果如圖1所示。假設(shè)數(shù)據(jù)集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數(shù),代表多個樣本的串聯(lián),即將多個樣本聯(lián)合起來得到一個類別的新樣本。
2.2 基于深度學(xué)習(xí)的多樣本生成算法研究現(xiàn)狀
大量有標(biāo)簽的訓(xùn)練數(shù)據(jù)是機器學(xué)習(xí)成功的關(guān)鍵,尤其對于強大的深度學(xué)習(xí)技術(shù),大數(shù)據(jù)集能提高CNN的性能,防止過擬合[25]。為了擴充數(shù)據(jù)集,已有一些工作在不改變圖像語義的情況下進行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉(zhuǎn)[29]和光照變化[27]等傳統(tǒng)方法。
DeepID[30]采取了增大數(shù)據(jù)集手法來訓(xùn)練網(wǎng)絡(luò),只有大的數(shù)據(jù)集才能使得卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練得更加充分,該研究采用兩種方法增大數(shù)據(jù)集:
(1)選擇采集好的數(shù)據(jù),即映入CelebFaces數(shù)據(jù)集。
(2)將原始數(shù)據(jù)集中的圖片多尺度、多通道、多區(qū)域的切分,然后分別進行訓(xùn)練,再把得到的向量串聯(lián)起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術(shù),該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉(zhuǎn)應(yīng)按一定的角度進行3D旋轉(zhuǎn),而不僅僅是圖像本身的角度旋轉(zhuǎn)。合成數(shù)據(jù)能一定程度上解決以上問題,如Shotton等通過隨機森林合成3D深度數(shù)據(jù)來估計人體姿勢,Jaderberg等使用合成數(shù)據(jù)來訓(xùn)練CNN模型識別自然場景下的文字[31]。這些研究的結(jié)果均優(yōu)于使用剪裁,旋轉(zhuǎn)等傳統(tǒng)方法。但使用3D合成圖像比較復(fù)雜,需要較多的前期工作。
近年來,借助生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學(xué)者。2014年6月,Goodfellow 等發(fā)表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優(yōu)點及其在圖像生成方面的應(yīng)用,標(biāo)志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網(wǎng)絡(luò)不穩(wěn)定,甚至有時該網(wǎng)絡(luò)永遠不會開始學(xué)習(xí),生成的結(jié)果無法令人滿意。文獻[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經(jīng)網(wǎng)絡(luò)連續(xù)生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉(zhuǎn)換成對的圖像。文獻[35]將GAN應(yīng)用于超分辨率中,該文獻提出了全新的損失函數(shù),使得 GANs 能對大幅降采樣后的圖像恢復(fù)其生動紋理和小顆粒細節(jié)。另外,Radford 等提出了名為DCGANs的網(wǎng)絡(luò)[36],該文獻指出,用大數(shù)據(jù)集訓(xùn)練出的 GANs 能學(xué)習(xí)一整套層級的特征,并具有比其他無監(jiān)督學(xué)習(xí)模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網(wǎng)絡(luò)GAN的生成器網(wǎng)絡(luò)G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區(qū)分真假;而判別器D應(yīng)不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數(shù)如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓(xùn)練樣本的標(biāo)簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數(shù)據(jù)真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結(jié) 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現(xiàn)實應(yīng)用意義。雖然研究人員已經(jīng)對相關(guān)問題進行了一些研究,取得了一系列成果,但是多樣本的產(chǎn)生方法缺乏全面、深入的理解,尚未出現(xiàn)具有里程碑意義的研究成果。具體而言,本文認為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質(zhì)特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設(shè)計合理有效的構(gòu)造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網(wǎng)絡(luò),研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
【關(guān)鍵詞】:高速公路 防逃 人臉識別 高清視
中圖分類號:U412.36+6 文獻標(biāo)識碼:A
人臉識別的分類與概述
人臉識別就是通過計算機提取人臉的特征,并根據(jù)這些特征進行身份驗證。人臉與人體的其他生物特征(指紋、虹膜等)一樣與生俱來,它們所具有的唯一性和不易被復(fù)制的良好特性為身份鑒別提供了必要的前提;同其他生物特征識別技術(shù)相比,人臉識別技術(shù)具有操作簡單、結(jié)果直觀、隱蔽性好的優(yōu)越性。人臉識別一般包括三個步驟:人臉檢測、人臉特征提取和人臉的識別與驗證。其處理流程如圖
輸入圖像 人臉圖像人臉特征輸出結(jié)果
人臉識別的一般步驟
人臉識別方法繁多,早期研究較多的方法有基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法。目前人臉識別方法主要研究及應(yīng)用的是基于統(tǒng)計的識別方法、基于連接機制的識別方法以及其它一些綜合方法。下面是這幾類方法的基本介紹:[2]
(1)基于幾何特征的人臉識別方法
幾何特征矢量是以人臉器官如眼睛、鼻子、嘴巴等的形狀和幾何關(guān)系為基礎(chǔ)的特征矢量,其分量通常包括人臉指定兩點間距離、曲率、角度等。早期的研究者Brunelli[3]等人采用改進的積分投影法提取出用歐式距離表征的35維人臉特征矢量用于人臉識別。Huang Chung Lin等人[4]采用動態(tài)模板[5,6,7]與活動輪廓模型提取出人臉器官的輪廓[8,9,10]?;趲缀翁卣鞯娜四樧R別方法有如下優(yōu)點:符合人類識別人臉的機理,易于理解;對每幅圖像只需要存儲一個特征矢量,存儲量?。粚庹兆兓幻舾?。但這種方法同樣存在一些問題,如從圖像中提取這些特征比較困難;對強烈的表情變化和姿態(tài)變化的魯棒性差等。
(2)基于模板匹配的人臉識別方法
模板匹配大都采用歸一化相關(guān),直接計算兩幅圖之間的匹配程度。最簡單的人臉模板就是將人臉看成一個橢圓[10,11]。另一種方法就是將人臉用一組獨立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用彈性模板方法提取這些模板特征[12]。Brunelli等人專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,他們得出的結(jié)論是:基于幾何特征的人臉識別方法具有識別速度快和內(nèi)存要求小等優(yōu)點,但基于模板匹配的識別率要高于基于幾何特征的識別率。
(3)基于統(tǒng)計的人臉識別方法
基于統(tǒng)計特征的識別方法包括基于特征臉的方法和基于隱馬爾可夫模型的方法。特征臉(Eigenface)方法[13]是從主成分分析導(dǎo)出的一種人臉識別和描述技術(shù)。主成分分析實質(zhì)上是K-L展開的網(wǎng)絡(luò)遞推實現(xiàn),K-L變換是圖像壓縮中的一種最優(yōu)正交變換,其生成矩陣一般為訓(xùn)練樣本的總體散布矩陣。特征臉方法就是將包含人臉的圖像區(qū)域看作是一種隨機向量,因此可以采用K-L變換獲得其正交K-L基底。對應(yīng)其中較大特征值的基底具有與人臉相似的形狀,因此又稱之為特征臉。
隱馬爾可夫模型(HMM)是用于描述信號統(tǒng)計特性的一組統(tǒng)計模型。基于人臉從上到下、從左到右的結(jié)構(gòu)特征,Samaria等人[14]首先將1-D HMM和2-D Pseudo HMM用于人臉識別。Kohir等[15]采用1-D HMM將低頻DCT系數(shù)作為觀察矢量獲得了好的識別效果。Eickeler等[16]采用2-DPseudo HMM識別DCT壓縮的JPEG圖像中的人臉圖像。Nefian等[17]采用嵌入式HMM識別人臉。
(4)基于連接機制的人臉識別方法(神經(jīng)網(wǎng)絡(luò)彈性圖匹配)
基于連接機制的識別方法,包括一般的神經(jīng)網(wǎng)絡(luò)方法和彈性圖匹配(Elastic Graph Matching)方法。神經(jīng)網(wǎng)絡(luò)在人臉識別應(yīng)用中有很長的歷史[18]。Demers 等[19]提出采用PCA方法提取人臉圖像特征,用自相關(guān)神經(jīng)網(wǎng)絡(luò)進一步壓縮特征,最后采用一個多層處理器來實現(xiàn)人臉識別。Laurence等[20]通過一個多級的SOM實現(xiàn)樣本的聚類,將卷積神經(jīng)網(wǎng)絡(luò)(CNN)用于人臉識別。Lin等[21]采用基于概率決策的神經(jīng)網(wǎng)絡(luò)(PDBNN)方法。最近,徑向基函數(shù)RBF神經(jīng)網(wǎng)絡(luò)因具有逼近性好、空間描述緊湊和訓(xùn)練速度快等特點而被用于人臉識別。Gutta等[22]提出了將RBF與樹分類器結(jié)合起來進行人臉識別的混合分類器結(jié)構(gòu),后來他們用RBF神經(jīng)網(wǎng)絡(luò)進行了針對部分人臉的識別研究[23],他們的研究表明利用部分人臉也可以有效地識別人臉。Er等[24]采用PCA進行維數(shù)壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合學(xué)習(xí)算法的RBF神經(jīng)網(wǎng)絡(luò)進行人臉識別。此外,Lucas 等采用連續(xù)的n-tuple網(wǎng)絡(luò)識別人臉。
彈性圖匹配方法是一種基于動態(tài)鏈接結(jié)構(gòu)的方法[26]。在人臉圖像上放置一組矩形網(wǎng)格節(jié)點,每個節(jié)點的特征用該節(jié)點處的多尺度Gabor幅度特征描述,各節(jié)點之間的連接關(guān)系用幾何距離表示,從而構(gòu)成基于二維拓撲圖的人臉描述。根據(jù)兩個圖像中各節(jié)點和連接之間的相似性可以進行人臉識別。Wiskott等[27]將人臉特征上的一些點作為基準點,強調(diào)了人臉特征的重要性。他們采用每個基準點存儲一串具有代表性的特征矢量,大大減少了系統(tǒng)的存儲量。Würtz 等[28]只使用人臉面部的特征,進一步消除了結(jié)構(gòu)中的冗余信息和背景信息,并使用一個多層的分級結(jié)構(gòu)。Grudin等[29]也采用分級結(jié)構(gòu)的彈性圖,通過去除了一些冗余節(jié)點,形成稀疏的人臉描述結(jié)構(gòu)。Nastar等[30]提出將人臉圖像I(x,y)表示為可變形的3D網(wǎng)格表面(x, y, I(x,y)),將人臉匹配問題轉(zhuǎn)換為曲面匹配問題,利用有限元分析的方法進行曲面變形,根據(jù)兩幅圖像之間變形匹配的程度識別人臉。
(5)基于形變模型的方法
基于形變模型的方法是一個受到重視的方法。通過合成新的視覺圖像,可以處理姿態(tài)變化的問題。Lanitis等[31]通過在人臉特征邊沿選擇一些稀疏的基準點描述人臉的形狀特征,然后將形狀變形到所有人臉圖像的平均形狀,再根據(jù)變形后的形狀進行紋理(灰度)變形,形成與形狀無關(guān)的人臉圖像。然后分別對形狀和灰度進行PCA變換,根據(jù)形狀和紋理的相關(guān)性,用PCA對各自的結(jié)果進一步分析,最終得到描述人臉的AAM(Active Appearance Model)模型。通過改變這些參數(shù)可得到不同變化的人臉圖像,模型參數(shù)能夠用于人臉識別。Romdhani 等[32]采用激光掃描儀獲得人臉的3D數(shù)據(jù),分別對一些基準點構(gòu)成的形狀和基準點的灰度(或彩色)完成PCA,得到3D人臉形狀和灰度(彩色)基圖像,通過變化參數(shù)就可獲得不同的3D人臉模型。通過施加一些先驗約束可以避免合成不真實的人臉圖像。利用線性形狀和紋理誤差,通過3D模型向2D輸入圖像的自動匹配實現(xiàn)人臉識別。
項目采用的識別算法
人臉自動識別技術(shù)經(jīng)過多年來的研究已經(jīng)積累了大量研究成果。但是仍然面臨很多問題,尤其是在非約束環(huán)境下的人臉識別。結(jié)合本研究項目及應(yīng)用環(huán)境綜合考慮,采用特征臉方法對視屏資料中的司機臉部進行提取識別。
特征臉方法是90年代初期由Turk和Pentland提出算法,具有簡單有效的特點, 也稱為基于主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。把人臉圖像空間線性投影到一個低維的特征空間。PCA實質(zhì)上是K-L展開的網(wǎng)絡(luò)遞推實現(xiàn)。K-L變換是圖像壓縮技術(shù)中的一種最優(yōu)正交變換。人們將它用于統(tǒng)計特征提取。從而形成子空間法模式識別的基礎(chǔ)。若將K-L變換用于人臉識別,則需假設(shè)人臉處于低維線性空間。由高維圖像空間K-L變換后,可得到一組新的正交基,由此可以通過保留部分正交基獲得正交K-L基底。如將子空間對應(yīng)特征值較大的基底按照圖像陣列排列,則可以看出這些正交基呈現(xiàn)出人臉的形狀。因此這些正交基也稱為特征臉,這種人臉的識別方法也叫特征臉法。
特征子臉技術(shù)的基本思想是:從統(tǒng)計的觀點,尋找人臉圖像分布的基本元素,即人臉圖像樣本集協(xié)方差矩陣的特征向量,以此近似地表征人臉圖像。這些特征向量稱為特征臉(Eigenface)。
利用這些基底的線性組合可以描述、表達和逼近人臉圖像,因此可以進行人臉識別與合成。識別過程就是將人臉圖像映射到由特征臉張成的子空間上,比較其與已知人臉在特征臉空間中的位置,具體步驟如下:[33]
(1)初始化,獲得人臉圖像的訓(xùn)練集并計算特征臉,定義為人臉空間;
(2)輸入待識別人臉圖像,將其映射到特征臉空間,得到一組權(quán)值;
(3)通過檢查圖像與人臉空間的距離判斷它是否為人臉;
(4)若為人臉,根據(jù)權(quán)值模式判斷它是否為數(shù)據(jù)庫中的某個人。
1. 計算特征臉
假設(shè)人臉圖像包含個像素,因此可以用維向量Γ表示。如人臉訓(xùn)練集由幅人臉圖像構(gòu)成,則可以用表示人臉訓(xùn)練集。
其均值為:
(2-1)
每幅圖像與均值的差為:
(2-2)
構(gòu)造人臉訓(xùn)練集的協(xié)方差矩陣:
(2-3)
其中 。
協(xié)方差矩陣的正交分解向量即為人臉空間的基向量,也即特征臉。
一般比較大(通常大于1000),所以對矩陣直接求解特征向量是不可能的,為此引出下列定理:
SVD定理:設(shè)是一秩為的維矩陣,則存在兩個正交矩陣:
(2-4)
(2-5)
以及對角陣:
(2-6)
滿足
其中:為矩陣和的非零特征值,和分別為和對應(yīng)于的特征矢量。上述分解成為矩陣的奇異值分解(SVD),為的奇異值。
推論:
(2-7)
由上述定理可知:
人臉訓(xùn)練集所包含的圖像一般要比圖像的像素數(shù)小的多,因此可以轉(zhuǎn)求矩陣
(2-8)
的特征向量,M為人臉訓(xùn)練集圖像總數(shù)。
矩陣的特征向量由差值圖像與線性組合得到:
=(2-9)
實際上,m(m
(2-10)
識別
基于特征臉的人臉識別過程由訓(xùn)練階段和識別階段兩個階段組成。在訓(xùn)練階段,每個己知人臉映射由特征臉張成的子空間上,得到m維向量:
(2-11)
距離閾值定義如下:
(2-12)
在識別階段,首先把待識別的圖像映射到特征臉空間,得到向量
(2-13)
與每個人臉集的距離定義為
(2-14)
為了區(qū)分人臉和非人臉,還需計算原始圖像與其由特征臉空間重建的圖像之間的距離:
(2-15)
其中:
(2-16)
采用最小距離法對人臉進行分類,分類規(guī)則如下:
(1)若,則輸入圖像不是人臉圖像;
(2)若,則輸入圖像包含未知人臉;
(3)若,則輸入圖像為庫中的某個人臉。
實際上,特征臉反映了隱含在人臉樣本集合內(nèi)部的信息和人臉的結(jié)構(gòu)關(guān)系。將眼睛、面頰、下頜的樣本集協(xié)方差矩陣的特征向量稱為特征眼、特征頜和特征唇,統(tǒng)稱特征子臉。特征子臉在相應(yīng)的圖像空間中生成子空間,稱為子臉空間。計算出測試圖像窗口在子臉空間的投影距離,若窗口圖像滿足閾值比較條件,則判斷其為人臉。
基于特征分析的方法,也就是將人臉基準點的相對比率和其它描述人臉臉部特征的形狀參數(shù)或類別參數(shù)等一起構(gòu)成識別特征向量,這種基于整體臉的識別不僅保留了人臉部件之間的拓撲關(guān)系,而且也保留了各部件本身的信息,而基于部件的識別則是通過提取出局部輪廓信息及灰度信息來設(shè)計具體識別算法。現(xiàn)在Eigenface(PCA)算法已經(jīng)與經(jīng)典的模板匹配算法一起成為測試人臉識別系統(tǒng)性能的基準算法;而自1991年特征臉技術(shù)誕生以來,研究者對其進行了各種各樣的實驗和理論分析,F(xiàn)ERET測試結(jié)果也表明,改進的特征臉?biāo)惴ㄊ侵髁鞯娜四樧R別技術(shù),也是具有最好性能的識別方法之一。
該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然后再計算出它們的幾何特征量,而這些特征量形成一描述該面像的特征向量。其技術(shù)的核心實際為"局部人體特征分析"和"圖形/神經(jīng)識別算法。"這種算法是利用人體面部各器官及特征部位的方法。如對應(yīng)幾何關(guān)系多數(shù)據(jù)形成識別參數(shù)與數(shù)據(jù)庫中所有的原始參數(shù)進行比較、判斷與確認。Turk和Pentland提出特征臉的方法,它根據(jù)一組人臉訓(xùn)練圖像構(gòu)造主元子空間,由于主元具有臉的形狀,也稱為特征臉,識別時將測試圖像投影到主元子空間上,得到一組投影系數(shù),和各個已知人的人臉圖像比較進行識別。
結(jié)束語
從目前國情來講,在一段時間內(nèi)高速公路收費還會繼續(xù)存在,某些司機逃費的僥幸心也同樣會有。通過帶路徑識別功能的 RFID 復(fù)合卡作為通行卡,利用 RFID 卡的信息對車輛進行跟蹤,在不增加硬件投入的情況下,直接可以給車道收費系統(tǒng)提供抓拍高清圖像,以及其它報警聯(lián)動系統(tǒng)提供圖像等,可有效解決高速公路沖卡逃費問題,可廣泛應(yīng)用于封閉式管理的公路收費系統(tǒng)。
參考文獻:
[1]江艷霞. 視頻人臉跟蹤識別算法研究. 上海交通大學(xué)博士學(xué)位論文,2007.
[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on
PAMI, 1993, 15(10):1042 -1052.
[3]李剛. 基于特征臉法的正面人臉識別研究. 國防科學(xué)技術(shù)大學(xué)碩士學(xué)位論文,2002.11
[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN
ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.
[5]張建飛、陳樹越等. 基于支持向量基的交通視頻人車識別研究[J]. 電視技術(shù),2011
[6]肖波、樊友平等. 復(fù)雜背景下基于運動特征的人面定位[J]. 重慶大學(xué)學(xué)報,2002
[7] 《中華人民共和國交通部公路聯(lián)網(wǎng)收費技術(shù)要求》,交通部
[8] 《廣東省高速公路聯(lián)網(wǎng)收費系統(tǒng)》,DB44 127-2003,廣東省質(zhì)量技術(shù)監(jiān)督局
[9] 《視頻安防監(jiān)控數(shù)字錄像設(shè)備》,GB 20815-2006
[10]《安全防范工程技術(shù)規(guī)范》,GB 50348-2004
關(guān)鍵詞:圖像分割 閾值分割 遺傳算法 小波變換
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1002-2422(2010)02-0001-03
圖像分割是按照一定的規(guī)則把圖像劃分成若干個互不相交、具有一定性質(zhì)的區(qū)域,把人們關(guān)注的部分從圖像中提取出來,進一步加以研究分析和處理。圖像分割的結(jié)果是圖像特征提取和識別等圖像理解的基礎(chǔ),對圖像分割的研究一直是數(shù)字圖像處理技術(shù)研究中的熱點和焦點。圖像分割使得其后的圖像分析,識別等高級處理階段所要處理的數(shù)據(jù)量大大減少,同時又保留有關(guān)圖像結(jié)構(gòu)特征的信息。圖像分割在不同的領(lǐng)域也有其它名稱,如目標(biāo)輪廓技術(shù)、目標(biāo)檢測技術(shù)、閾值化技術(shù)、目標(biāo)跟蹤技術(shù)等,這些技術(shù)本身或其核心實際上也就是圖像分割技術(shù)。
1 經(jīng)典圖像分割方法
1,1閾值分割方法
閾值分割是常見的直接對圖像進行分割的算法,根據(jù)圖像像素的灰度值的不同而定。對應(yīng)單一目標(biāo)圖像,只需選取一個閾值,即可將圖像分為目標(biāo)和背景兩大類,這個稱為單閾值分割:如果目標(biāo)圖像復(fù)雜,選取多個閾值,才能將圖像中的目標(biāo)區(qū)域和背景被分割成多個,這個稱為多閾值分割,此時還需要區(qū)分檢測結(jié)果中的圖像目標(biāo),對各個圖像目標(biāo)區(qū)域進行唯一的標(biāo)識進行區(qū)分。閾值分割的顯著優(yōu)點,成本低廉,實現(xiàn)簡單。當(dāng)目標(biāo)和背景區(qū)域的像素灰度值或其它特征存在明顯差異的情況下,該算法能非常有效地實現(xiàn)對圖像的分割。閩值分割方法的關(guān)鍵是如何取得一個合適的閾值,近年來的方法有:用最大相關(guān)性原則選擇閾值的方法、基于圖像拓撲穩(wěn)定狀態(tài)的方法、灰度共生矩陣方法、最大熵法和谷值分析法等,更多的情況下,閾值的選擇會綜合運用兩種或兩種以上的方法,這也是圖像分割發(fā)展的一個趨勢。
1,2基于邊緣的圖像分割方法
邊緣總是以強度突變的形式出現(xiàn),可以定義為圖像局部特性的不連續(xù)性,如灰度的突變、紋理結(jié)構(gòu)的突變等。邊緣常常意味著一個區(qū)域的終結(jié)和另一個區(qū)域的開始。對于邊緣的檢測常常借助空間微分算子進行,通過將其模板與圖像卷積完成。兩個具有不同灰度值的相鄰區(qū)域之間總存在灰度邊緣,而這正是灰度值不連續(xù)的結(jié)果,這種不連續(xù)可以利用求一階和二階導(dǎo)數(shù)檢測到。當(dāng)今的邊緣檢測方法中,主要有一次微分、二次微分和模板操作等。這些邊緣檢測器對邊緣灰度值過渡比較尖銳且噪聲較小等不太復(fù)雜的圖像可以取得較好的效果。但對于邊緣復(fù)雜的圖像效果不太理想,如邊緣模糊、邊緣丟失、邊緣不連續(xù)等。噪聲的存在使基于導(dǎo)數(shù)的邊緣檢測方法效果明顯降低,在噪聲較大的情況下所用的邊緣檢測算子通常都是先對圖像進行適當(dāng)?shù)钠交种圃肼?,然后求?dǎo)數(shù),或者對圖像進行局部擬合,再用擬合光滑函數(shù)的導(dǎo)數(shù)來代替直接的數(shù)值導(dǎo)數(shù),如Mart算子、canny算子等。在未來的研究中,用于提取初始邊緣點的自適應(yīng)閾值選取、用于圖像層次分割的更大區(qū)域的選取以及如何確認重要邊緣以去除假邊緣將變的非常重要。
1,3基于函數(shù)優(yōu)化的分割方法
此方法是圖像分割中另一大類常用的方法。其基本思路是給出一個目標(biāo)函數(shù),通過該目標(biāo)函數(shù)的極大化或極小化來分割圖像。GA.Hewer等人提出了一個具有廣泛意義的目標(biāo)函數(shù)。統(tǒng)計學(xué)分割方法、結(jié)合區(qū)域與邊緣信息的方法、基于貝葉斯公式的分割方法等是目前幾種活躍的函數(shù)優(yōu)化方法。
統(tǒng)計學(xué)分割方法是把圖像中各個像素點的灰度值看作是具有一定概率分布的隨機變量,且觀察到的實際物體是作了某種變換并加入噪聲的結(jié)果。統(tǒng)計學(xué)分割方法包括基于馬爾科夫隨機場方法、標(biāo)號法、混合分布法等。
區(qū)域增長法和分裂合并法是基于區(qū)域信息的圖像分割的主要方法。區(qū)域增長有兩種方式,一種是先將圖像分割成很多的一致性較強的小區(qū)域,再按一定的規(guī)則將小區(qū)域融合成大區(qū)域,達到分割圖像的目的。另一種實現(xiàn)是給定圖像中要分割目標(biāo)的一個種子區(qū)域,再在種子區(qū)域基礎(chǔ)上將周圍的像素點以一定的規(guī)則加入其中,最終達到目標(biāo)與背景分離的目的;分裂合并法對圖像的分割是按區(qū)域生長法沿相反方向進行的,無需設(shè)置種子點。其基本思想是給定相似測度和同質(zhì)測度。從整幅圖像開始,如果區(qū)域不滿足同質(zhì)測度,則分裂成任意大小的不重疊子區(qū)域,如果兩個鄰域的子區(qū)域滿足相似測度則合并。
2 結(jié)合特定工具的圖像分割算法
雖然圖像分割目前尚無通用的理論,但是近年來大量學(xué)者致力于將新概念、新方法應(yīng)用于圖像分割,結(jié)合特定理論的圖像分割方法在圖像分割方面取得了較好的應(yīng)用效果。如小波分析和小波變換、神經(jīng)網(wǎng)絡(luò)、遺傳算法等數(shù)學(xué)工具的利用,有效地改善了分割效果。
2,1基于遺傳算法的圖像分割
遺傳算法是模擬自然界生物進化過程與機制求解問題的一類自組織與自適應(yīng)的人工智能技術(shù)。對此,科學(xué)家們進行了大量的研究工作,并成功地運用于各種類型的優(yōu)化問題,在分割復(fù)雜的圖像時,人們往往采用多參量進行信息融合,在多參量參與的最優(yōu)值求取過程中,優(yōu)化計算是最重要的,把自然進化的特征應(yīng)用到計算機算法中,將能解決很多問題。遺傳算法的出現(xiàn)為解決這類問題提供了新而有效的方法,不僅可以得到全局最優(yōu)解,而且大量縮短了計算時間。王月蘭等人提出的基于信息融合技術(shù)的彩色圖像分割方法,該方法應(yīng)用剝殼技術(shù)將問題的復(fù)雜度降低,然后將信息融合技術(shù)應(yīng)用到彩色圖像分割中,為彩色分割在不同領(lǐng)域中的應(yīng)用提供了一種新的思路與解決辦法。
2,2基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的圖像分割
基于神經(jīng)網(wǎng)絡(luò)的分割方法的基本思想是先通過訓(xùn)練多層感知器來得到線性決策函數(shù),然后用決策函數(shù)對像素進行分類來達到分割的目的。近年來,隨著神經(jīng)學(xué)的研究和進展,第三代脈沖耦合神經(jīng)網(wǎng)絡(luò)(PCNN)作為一種新型人工神經(jīng)網(wǎng)絡(luò)模型,其獨特處理方式為圖像分割提供了新的思路。脈沖耦合神經(jīng)網(wǎng)絡(luò)具有捕獲特性,會產(chǎn)生點火脈沖傳播,對輸入圖像具有時空整合作用,相鄰的具有相似輸入的神經(jīng)元傾向于同時點火。因此對于灰度圖象,PCNN具有天然的分割能力,與輸入圖像中不同目標(biāo)區(qū)域?qū)?yīng)的神經(jīng)元在不同的時刻點火,從而將不同區(qū)域分割開來。如果目標(biāo)區(qū)域灰度分布有重疊,由于PCNN的時空整合作用,如果灰度分布符合某種規(guī)律,PCNN也能克服灰度分布重疊所帶來的不利影響,從而實現(xiàn)較完美的分割。這是其一個突出的優(yōu)點,而這恰恰是其他的分割方法所欠缺的,其在未來的圖像分割中將起主導(dǎo)作用。
2,3基于小波分析和變換的圖像分割
近年來,小波理論得到了迅速的發(fā)展,而且由于其具有良好的時頻局部化特性和多分辨率分析能力,在圖像處理等領(lǐng)域得到了廣泛的應(yīng)用。小波變換是一種多尺度多通道分析工具,比較適合對圖像進行多尺度的邊緣檢測。從圖像處理角度看,小波變換具有“變焦”特性,在低頻段可用高頻率分辨率和低時間分辨率,在高頻段可用低頻率分辨率和高時間分辨率,小波變換在實現(xiàn)上有快速算法具有多分辨率,也叫多尺度的特點,可以由粗及精地逐步觀察信號等優(yōu)點。近年來多進制小波也開始用于邊緣檢測。另外,把小波變換和其它方法結(jié)合起來的圖像分割技術(shù)也是現(xiàn)在研究的熱點。
3 圖像分割的應(yīng)用現(xiàn)狀
在圖像處理中,圖像分割是一種重要的技術(shù),是圖像分析的基礎(chǔ)。隨著圖像分割技術(shù)研究的深入,其應(yīng)用日趨廣泛,幾乎出現(xiàn)在有關(guān)圖像處理的所有領(lǐng)域,并涉及各種類型的圖像。凡屬需要對圖像目標(biāo)進行提取、測量的工作都離不開圖像分割。通常,圖像分割是為了進一步對圖像進行分析、識別、壓縮、編碼等,圖像分割的準確性將直接影響后繼的工作,因此,分割的方法和精確程度是至關(guān)重要的。目前,圖像分割在圖像工程中占據(jù)非常重要的位置,圖像分割已在交通、醫(yī)學(xué)、遙感、通信、軍事和工業(yè)自動化等諸多領(lǐng)域得到廣泛應(yīng)用。表1是應(yīng)用領(lǐng)域表。
關(guān)鍵詞:小波變換,非整數(shù)次諧波,諧波檢測
1 引言
近年來,隨著電力電子技術(shù)的迅速發(fā)展,各種變頻器、變流器、開關(guān)電源和電抗器等非線性設(shè)備的應(yīng)用日益增多,產(chǎn)生了大量的高次諧波,造成電力系統(tǒng)電壓、電流嚴重畸變,引發(fā)了一系列問題。
傳統(tǒng)的快速傅氏變換以求和替代積分,以降低精度為代價來提取實時性,可以得出各次諧波的幅值相位。
瞬時無功功率理論自20世紀80年代提出后,突破了傳統(tǒng)的平均值為基礎(chǔ)的功率定義,具有較好的實時性,抗干擾能力強。
神經(jīng)網(wǎng)絡(luò)方法其特點是算法基于誤差曲面上的梯度下降,權(quán)調(diào)數(shù)量與輸入量一致,并保持與誤差的負梯度方向一致,因此能保證網(wǎng)絡(luò)的收斂性。
小波變換理論適合于對局部頻域進行精確分析,它提供了一個自適應(yīng)的可調(diào)采樣窗口,具有更強的實時性。而且小波變換理論分析時頻問題的良好特性使得它在檢測非整數(shù)次諧波方面優(yōu)于其他理論。本文采用連續(xù)小波變換分析系統(tǒng)中的整數(shù)次與非整數(shù)次諧波,并通過Matlab仿真得到了較好的分析結(jié)果,表明了小波變換具有檢測電力系統(tǒng)中各種諧波的良好功能。
2 諧波檢測原理
小波變換公式:。論文格式。
其中,為小波基函數(shù),a為伸縮因子,為平移因子,x(t)為待分析信號。
由上式可知,小波變換實質(zhì)上是信號x(t)與小波母函數(shù)的卷積,是對信號滿足一定附加條件的濾波。而濾波的范圍則是由參數(shù)α, 來決定,反映在小波母函數(shù)和小波因子的選擇上??梢?,小波變換是按頻帶而不是按頻點的方式處理頻域,因此信號頻率的微小波動不會對處理產(chǎn)生很大影響,且不要求對信號進行整周期采樣;其次,由小波變換的時間局部性可知,在信號局部發(fā)生波動時,它不會像傅立葉變換那樣把影響擴散到整個頻譜,而只改變當(dāng)時一小段時間的頻譜分布,這使其可以跟蹤時變信號和暫態(tài)信號。
由于小波變換具有良好的時頻局部化特征,使得小波變換應(yīng)用于電力系統(tǒng)的諧波檢測有著很好的理論基礎(chǔ),可以根據(jù)不同尺度的小波變換系數(shù)的幅值來測量諧波的頻率。由連續(xù)小波變換公式可見,信號的連續(xù)小波變換相當(dāng)于信號通過有限長的帶通濾波器不同的尺度因子α決定帶通濾波器的帶通特性。如果能夠使不同頻率的諧波位于不同的頻帶中,就能夠把包括整數(shù)次非整數(shù)次的不同頻率的諧波分離出來。因此,利用小波變換可以實現(xiàn)整數(shù)次和非整數(shù)次的諧波含量的測量。
本文中采用Daubechies小波對函數(shù)進行小波變換。論文格式。一般將其簡寫為dbN,N是小波的階數(shù)。dbN沒有明確的表達式(除了N=1外),但轉(zhuǎn)換函數(shù)h的平方模是很明確的。
令,其中為二項式的系數(shù),則有:
式中,。
3 仿真結(jié)果分析
對本文提出的檢測方法進行數(shù)字仿真,其中3.1是對于含有基波、2、3.4次諧波檢測信號的仿真,3.2是對含噪的的諧波信號檢測的仿真。論文格式。
3.1 含有基波、2、3.4次諧波檢測信號的仿真
由于非線性元件和電力電子器件的廣泛應(yīng)用,使電力系統(tǒng)中存在著大量的整數(shù)次與非整數(shù)次諧波。采樣一個周期,而系統(tǒng)中分別有基波、2、3.4次諧波時,采用db3小波對信號進行5層分解。
圖1 線形組合后的信號
圖2 小波分解后各層的逼近信號
圖3 小波分解后各層的細節(jié)信號
當(dāng)信號中含有基波、2次、3.4次諧波時,其線形組合后的信號如圖1所示,對組合信號進行5層db3分解后的逼近信號如圖2所示,細節(jié)信號如圖3所示。從圖2可以看出,逼近信號a1顯示了3.4次諧波,逼近信號a2顯示了基波,二次諧波則出現(xiàn)在細節(jié)信號d2中。由此可知,對于常規(guī)傅立葉變換不能檢測非整數(shù)次諧波的問題,可以利用小波變換分析系統(tǒng)中存在的非整次諧波。通過分析小波變換對諧波檢測的特點,選用了db3小波變換并分析了含有非整次諧波的系統(tǒng),證明了小波變換對于解決含有非整次諧波的檢測和分析具有良好的特性。
3.2對含噪的諧波信號的仿真
在電網(wǎng)電壓中,由于各種現(xiàn)代電力電子設(shè)備的干擾,不但存在諧波信號,而且有著廣泛的噪聲信號。采樣一個周期,而系統(tǒng)中分別含有3.7次諧波和噪聲信號時,采用db3小波對信號進行5層分解。
圖4 含噪聲信號線形組合后的信號
圖5 含噪聲信號小波分解后各層的逼近信號
圖6 含噪聲信號小波分解后各層的細節(jié)信號
當(dāng)信號中含有3.7次諧波和噪聲信號時,其線形組合后的信號如圖4所示,對組合信號進行5層db3分解后的逼近信號如圖5所示,細節(jié)信號如圖6所示。從圖6可以看出,3.7次諧波體現(xiàn)在逼近信號部分,而白噪聲體現(xiàn)在細節(jié)信號部分。由此可知,小波變換不但具有良好的非整次諧波的檢測能力還具有良好的噪聲分辨能力。
4 結(jié)論
小波變換是針對快速傅立葉變換在分析非穩(wěn)態(tài)信號方面的局限性形成和發(fā)展起來的一種十分有效的時頻分析工具,它克服了快速傅立葉變換的缺點,采用不同尺度的分析方法,能在信號的不同部位得到最佳的時域分辨率和頻域分辨率,為非穩(wěn)態(tài)信號的分析提供了一條新的途徑,通過本文的仿真可知,它對于含有整數(shù)次、非整數(shù)次諧波和含噪諧波的檢測有著很大的優(yōu)越性。
參考文獻
1 石國萍、田立軍. 基于小波變換的統(tǒng)一電能質(zhì)量控制器檢測方法研究. 2004,16(1):34-37
2 林易群等. 基于小波多孔算法的暫態(tài)電能質(zhì)量檢測方法. 中國電力,2002,35(10):54-57
3 張慶超. 基于小波神經(jīng)網(wǎng)絡(luò)的輸電線路故障檢測. 天津大學(xué)學(xué)報,2003,36(6):710-713
4 薛蕙、楊仁剛. 利用Morlet連續(xù)小波實現(xiàn)非整次諧波檢測. 電網(wǎng)技術(shù),2002,26(12):41-44
5 歐陽森. 基于小波原理的電能質(zhì)量檢測數(shù)據(jù)實時壓縮方法. 電網(wǎng)技術(shù),2003,27(2):37-39
關(guān)鍵詞 Sobel算法;算子;邊緣檢測;多方向模板;邊緣細化
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1009-3044(2016)27-0159-03
Abstract: Edge extraction is an essential part of image research. In this paper, a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm, the existence of the detection direction is not strong and edge extraction of the characteristics of the rough, an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results, it can be concluded that compared with the traditional Sobel, the improved algorithm is more fine and the direction is stronger than the traditional one.
Key words:sobel arithmetic; operator; edge detection; multi direction template; edge thinning
1 引言
唐卡在藏族文化、歷史、政治等各個領(lǐng)域都有涉及,凝聚著藏族人民的智慧,記載了藏族歷史發(fā)展,具有很高的研究價值。 在日常生活中,人們主要采用語音和圖像這兩種方式來進行信息的傳遞[1],隨著科學(xué)技術(shù)和數(shù)字媒體的不斷發(fā)展,圖像所包含的信息越來越豐富。在醫(yī)學(xué)、氣象監(jiān)控、藝術(shù)創(chuàng)作、傳真、微生物工程等都有很大應(yīng)用,因而圖像處理的技術(shù)變得越來越重要。而圖像邊緣是整個圖像的整體概貌,圖像的邊緣提取也就成了圖像處理技術(shù)過程中最基礎(chǔ)也最重要的一步,人們也希望找到一種方法可以抗噪強、定位準、不漏檢、不誤檢[2]。目前,邊緣提取算法主要可以分為三大類:
第一是基于導(dǎo)數(shù)的方法,比如[3]:1)Sobel算法:一階微分算法,在圖像空間利用兩個方向模板與圖像進行卷積;2)Roberts算法:一階微分的邊緣檢測算子,利用相鄰對角方向的兩個像素之差檢測邊緣;3)Prewitt算法:一階微分算法,利用水平和垂直兩個方向的卷與圖像的每個像素進行卷積,兩者得出的最大值即為結(jié)果;4)Kirsch算法:利用8個方向算子與圖像的像素進行卷積檢測邊緣;5)Canny算法:一種多級算法;
第二是基于能量準則的算法,比如:1)松弛算法: 指對于每個頂點v∈V,都設(shè)置一個屬性d[v],用來描述從源點s到v的最短路徑上權(quán)值的上界,稱為最短路徑估計;2)神經(jīng)網(wǎng)絡(luò)分析: 從神經(jīng)心理學(xué)和認知科學(xué)研究成果出發(fā),應(yīng)用數(shù)學(xué)方法發(fā)展起來的一種具有高度并行計算能力、自學(xué)能力和容錯能力的處理方法;3)Snake算法: 給出初始的輪廓,然后進行迭代,使輪廓沿能量降低的方向靠近,最后得到一個優(yōu)化的邊界;
第三種是剛發(fā)展的一些新技術(shù),比如:小波變換: 一種新的變換分析方法,它繼承和發(fā)展了短時傅立葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點,能夠提供一個隨頻率改變的“時間-頻率”窗口,是進行信號時頻分析和處理的理想工具。
2 常用邊緣提取算法的比較
傳統(tǒng)的邊緣算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。這些邊緣檢測算法操作簡單,速度快,但是檢測的邊緣容易受到噪聲的干擾,所以都存在檢測出的邊緣不準確,造成誤差的原因主要有:1)圖像本身所具有的真實灰度與我們想檢測的灰度值之間不完全吻合;2)算子模板方向固定,忽略了其他方向的邊緣;3)都比較容易受噪聲影響。[4]
表1對傳統(tǒng)邊緣提取的算法在邊緣輸出、漏檢、假檢、邊緣檢測精度、耗時、抗噪能力等方面進行了比較。從表中可以看出,Sobel算法除了耗時比較長以外,是幾種傳統(tǒng)算法中最實用的一種算法,本文通過比較,以傳統(tǒng)Sobel算法為基礎(chǔ),在此分析基礎(chǔ)上提出了一種改進后的Sobel算法。
3 傳統(tǒng)的sobel算法
3.1 傳統(tǒng)Sobel算法基本理論
Sobel算法是基于梯度的一階導(dǎo)數(shù)的邊緣檢測方法,由于圖像的灰度邊緣處會有跳變的現(xiàn)象[6],從而根據(jù)此現(xiàn)象來進行邊緣的檢測。傳統(tǒng)Sobel算子在圖像空間利用兩個方向模板與圖像進行卷積,一個是水平梯度方向,來檢測垂直邊緣;一個是垂直梯度方向,來檢測水平邊緣。模板中的數(shù)字為模板系數(shù),中間的點表示中心元素,梯度方向與邊緣方向總是正交垂直。兩個方向的算子如圖1所示:
3.2 算法實現(xiàn)
首先分別將水平和垂直方向上的兩個模板的中心點與圖像中的每個像素對應(yīng);然后用模板與圖像進行卷積;最后兩個模板與圖像進行卷積后得出的兩個值,比較大小,選出最大值,則為某點的新的像素值。也可理解為是求最大值的方法,用公式定義如下:
g(i,j)=|f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-f(i-1,j-1)-2f(i,j-1)-f(i+1,j-1)|+|f(i-1,j-1)+2f(i-1,j+1)+f(i+1,j-1)-2f(i+1,j)-f(i+1,j+1)|
卷積模板如圖1,卷積的最大值為該點的輸出值。由于傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個方向,忽略了邊緣的多方向性;其次,檢測出的邊緣有很多的偽邊緣,并且檢測出的邊緣較粗,本文提出了8方向的5*5模板的改進方法。
4 改進后的sobel算法
4.1 8個方向模板
傳統(tǒng)的Sobel算法只考慮了水平和垂直兩個方向,檢測出的邊緣較粗,并且具有偽邊緣,因此,有人提出了一些改進的方法,例如:1)先用Sobel進行邊緣檢測,用ostu二值化,最后用多像素邊緣細化算法進行細化;2)先用Sobel進行邊緣檢測,用Sobel進行細化,最后用自適應(yīng)的動態(tài)閾值計算方法進行二值化;3)基于Sobel算法梯度相乘的熱紅外圖像邊緣提取;4)自適應(yīng)權(quán)值的改進算法等等。而本文的改進方法是將邊緣方向擴展為0°、45°、90°、135°、180°、225°、270°、315° 8個方向,以此增加邊緣方向的準確性。如圖2,圖3所示[6]:
4.2 改進后算法的實現(xiàn)
設(shè)(i,j)為圖像上各點像素坐標(biāo),g(i,j)為圖像在該點的灰度值,[g(i,j)]矩陣為將要檢測的圖像,w(i,j)為最后檢測所得的結(jié)果,由于8個方向模板為5*5,s[g(i,j)]即為以點(i,j)為中心的5*5模板,f(k)為圖3中8個模板(其中k為0、1、2、3、4、5、6、7、),m為長度為8的數(shù)組。
第一步:將f(k)與s[g(i,j)]進行卷積,將計算所得的結(jié)果的絕對值存放在數(shù)組m中;
第二步:目的是:查找第一步算出的8個結(jié)果中的最大值,在一組數(shù)組中查找最大最小值,有二分法、冒泡排序法、選擇排序法等等,由于本文涉及的數(shù)組中數(shù)據(jù)較少,因此選擇順序查找法來找出數(shù)組中的最大值,順序查找法就是假定要從n個整數(shù)中查找最大值, 則從頭到尾逐個查找。具體步驟如下:
a、 令max=m[0],k=1;
b、 若m[k]>max,則max=m[k];否則,k=k+1;
c、 若k
第三步:將max賦給w(i,j),即為該點的輸出值[7]。
最后的輸出值即為該點新的像素值。
4.3 邊緣細化
我們采用改進后的算法對圖像進行邊緣提取,得到的圖像1與原始的圖像相比,圖像1的邊緣灰度有變化,在此基礎(chǔ)上,我們在對圖像1進行同樣的處理,再用改進后算法進行提取,得到的圖像2在圖像1的基礎(chǔ)上,中間的圖像部分變成了背景,得到的邊緣更細,兩次所到的圖像邊緣進行相減,即:2-1得到圖像3,關(guān)于圖像3,我們將其邊緣像素的負值全部改為0,所得到的圖像即為細化后的結(jié)果圖。
5 實驗結(jié)果
為檢測改進后的算法與傳統(tǒng)算法的效果,在VC++環(huán)境下,以轉(zhuǎn)經(jīng)筒和唐卡為例對進行邊緣提取后的效果圖進行對比。圖4圖5為原圖;圖6圖7為傳統(tǒng)算法提取的結(jié)果;圖8圖9為改進后的效果圖。有圖可以看出,;圖6檢測出的邊緣相對清晰完整,而圖5提取的邊緣比較模糊,并且數(shù)據(jù)比較亂,圖6相對圖5檢測的邊緣更加豐富,總的來說,本文的方法很好保護了各方向的邊緣,得到了更好的效果。
6 結(jié)論
針對傳統(tǒng)Sobel算法的一些弊端,本文擴展成5*5的8方向模板,重新定義了模板中的權(quán)值,和傳統(tǒng)Sobel算法相比,在一定程度較好的保留并檢測出了各個方向的邊緣,且相對簡單,對于傳統(tǒng)的其他算法,如Roberts算法、Prewitt算法等都可以依據(jù)此方法進行改進,增加模板、擴展邊緣方向為8個或者更多,以此得到更好的應(yīng)用。
參考文獻:
[1]鄭英娟.基于八方向Sobel算子的邊緣檢測[J].數(shù)字信息處理,2013(S2).
[2]章毓晉.圖像工程[M].北京:清華大學(xué)出版社,1999.
[3]何春華.基于改進Sobel算子的邊緣檢測算法的研究[J].信息光學(xué)與圖像處理,2012(3).
[4]李安安.幾種圖像邊緣檢測算法的比較和展望[J].信息 技術(shù)與通信,2009(12).
[5]高飛.Sobel邊緣檢測算子的改進研究[J].算法分析,2016(1).
本文結(jié)合計算機行業(yè)的發(fā)展,對計算機網(wǎng)絡(luò)云計算技術(shù)進行了分析研究,希望能為計算機技術(shù)的進步提供一定的理論支持。
一、計算機網(wǎng)絡(luò)的云計算技術(shù)概念
美國的網(wǎng)絡(luò)公司最早提出計算機網(wǎng)絡(luò)云計算技術(shù)的概念,隨著科學(xué)的進步與發(fā)展已經(jīng)逐漸成為了一門成熟的技術(shù),有著豐富的理論基礎(chǔ)與實踐經(jīng)驗?,F(xiàn)在的“云計算”技術(shù)是指能將網(wǎng)絡(luò)、硬件、設(shè)備相融合,同時實現(xiàn)規(guī)模性、安全性、虛擬性的技術(shù)。目前來看,對計算機網(wǎng)絡(luò)云計算的定義還沒有統(tǒng)一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點是:首先,每一個“云”都是獨立的計算機分布體系,基于網(wǎng)絡(luò)化、虛擬化的計算機服務(wù)層,與計算機中的資源保持一定的節(jié)奏,實現(xiàn)計算機資源的同步。其次,計算機網(wǎng)絡(luò)云是一個綜合體,并非是獨立的,計算機軟件的開發(fā)中離不開云計算的環(huán)節(jié),其重點就是網(wǎng)絡(luò)云計算特征的研究。對于計算機網(wǎng)絡(luò)的使用者來說,計算機集成軟件層面,能被接受與理解的就是云計算,在本文重點突出的就是云計算的屬性。最后,計算機網(wǎng)絡(luò)的使用者沒有進行長期的規(guī)劃后使用,很容易出現(xiàn)浪費現(xiàn)象,目前的云計算技術(shù)可以實現(xiàn)分或秒內(nèi)的數(shù)據(jù)計算,可以很好地避免資源過載或資源浪費現(xiàn)象。
通過研究可以看出,計算機網(wǎng)絡(luò)云計算技術(shù)可以定義成計算機網(wǎng)絡(luò)中進行的某種服務(wù)形式,其中相關(guān)的硬件設(shè)施與軟件系統(tǒng)統(tǒng)稱為計算機網(wǎng)絡(luò)云計算。定義中包括網(wǎng)絡(luò)計算機、超級計算機、集成技術(shù)等,相關(guān)的技術(shù)既有區(qū)別又有聯(lián)系。計算機網(wǎng)絡(luò)云計算技術(shù)的原理是:大量的數(shù)據(jù)分布于分布式計算機中,同時保證用戶的數(shù)據(jù)系統(tǒng)與計算機同步運行,進而實現(xiàn)及時將需要的資源切換到相應(yīng)的應(yīng)用中,根據(jù)使用者的訪問需求進行存儲系統(tǒng)與計算機系統(tǒng)的定位。計算機網(wǎng)絡(luò)云計算技術(shù)可以基于用戶服務(wù)需求及時提供所需的網(wǎng)絡(luò)信息資源。計算機網(wǎng)絡(luò)云計算技術(shù)適應(yīng)性強,彈性好,專業(yè)技術(shù)性高,發(fā)展前景十分好,應(yīng)用越來越廣泛。
二、計算機網(wǎng)絡(luò)云計算技術(shù)的分類
基于多樣化的標(biāo)準,計算機云計算的分類也有多種方式。比較常見的是:根據(jù)服務(wù)方式的不同,云計算可以分為私有云和公有云。私有云是根據(jù)用戶的自身情況進行獨立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進行開發(fā)利用。在選擇私有云與公有云時,應(yīng)該考慮的主要因素是:
1.服務(wù)的延續(xù)性
大部分情況下,公有云提供的服務(wù)容易受外界影響,如網(wǎng)絡(luò)故障等情況,而私有云則不會出現(xiàn)這種問題。
2.數(shù)據(jù)安全性
如果對于穩(wěn)定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監(jiān)控能力
公有云可以將使用用戶對系統(tǒng)的監(jiān)控能力屏蔽起來,這對于金融保險投資行業(yè)是十分有必要的。
三、計算機網(wǎng)絡(luò)云計算技術(shù)的實現(xiàn)
為了將計算機系統(tǒng)的系統(tǒng)處理過程進行簡化,通常將該過程劃分為預(yù)處理過程與功能實現(xiàn)過程兩大部分。對系統(tǒng)的各項功能進行分解,得到一些不需要進行功能實現(xiàn)過程與預(yù)處理過程的功能。對于可以進行預(yù)先處理過程的功能通常是一次性處理,在執(zhí)行過程中,可以將預(yù)處理過程得到的結(jié)果直接使用,以此完成特點的系統(tǒng)功能。該方法與原則的采用,極大地簡化了系統(tǒng),大幅度提高了系統(tǒng)運行效率。計算的云化中的系統(tǒng)就是計算云化系統(tǒng),它的計算量十分巨大,系統(tǒng)計算運行效率極高。但因為計算云化系統(tǒng)為一次處理系統(tǒng),只要計算云規(guī)則生成,計算云化系統(tǒng)的使命與任務(wù)也就完成,而不是在對計算機加以應(yīng)用時需要該系統(tǒng)。通常在計算機網(wǎng)絡(luò)云計算中形成的系統(tǒng)就是云計算系統(tǒng),是一個十分簡單的系統(tǒng),對計算機的處理能力沒有過高要求,同時應(yīng)用于各類計算機系統(tǒng)計算中。
四、計算機網(wǎng)絡(luò)云計算的計算與優(yōu)勢
建立計算機網(wǎng)絡(luò)云計算過程的第一步是服務(wù)器架構(gòu)的建立,其對計算機網(wǎng)絡(luò)云計算技術(shù)中的IAAS部分進行充當(dāng)。目前來看,仍沒有關(guān)于網(wǎng)絡(luò)云計算服務(wù)器架構(gòu)的專門、統(tǒng)一的標(biāo)準出現(xiàn),這需要一定的相關(guān)技術(shù)進行支持,例如計算區(qū)域網(wǎng)SAN和附網(wǎng)NAS等,這都是應(yīng)用比較多的服務(wù)器架構(gòu)技術(shù)。NAS文件計算系統(tǒng)是松散結(jié)構(gòu)型的集群,它的架構(gòu)有很明顯的分布式特征。NAS文件系統(tǒng)集群中的各個節(jié)點具有互補與相互影響的特點,文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數(shù)據(jù)信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統(tǒng)安全穩(wěn)定。如果客戶發(fā)出過多的請求,NAS系統(tǒng)的限制就表現(xiàn)出來,二級計算就可以通過NAS的云服務(wù)完成。
SAN是一種緊密結(jié)合類型的集群,在集群中存儲文件之后,可以分解成很多個數(shù)據(jù)塊。相比于集群之中的節(jié)點,各數(shù)據(jù)塊之間能夠進行相互訪問。節(jié)點可以借助于訪問文件間的數(shù)據(jù)塊針對客戶的請求進行處理。SAN系統(tǒng)之中可以通過節(jié)點數(shù)量增減來響應(yīng)請求,同時提升界定本身的性能。為了能夠?qū)⒁許AN為基礎(chǔ)的OBS發(fā)展起來,就需要更好的性能與更低的成本。而SAN計算建構(gòu)的硬件價格十分高,同時依托于SAN的服務(wù)價格,因此可以適當(dāng)?shù)亟档鸵幌滦阅?,保證更好的性能與更低的成本。
五、實例――基于谷歌云計算技術(shù)的AlphaGo亮點分析
AlphaGo通過谷歌云計算技術(shù),擁有與人類棋手類似的“棋感”,其技術(shù)遠勝于1997年IBM公司研制的超級電腦“深藍”?!吧钏{”面對的是相對圍棋簡單多的國際象棋,設(shè)計理念為根據(jù)棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術(shù),可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運算能力都集中在“棋感策略”網(wǎng)絡(luò)中最有可能的情況上。其背后的深層算法,具備三大亮點:(1)深度卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)技術(shù):“棋感策略”網(wǎng)絡(luò)的本質(zhì)學(xué)習(xí)人類圍棋大師走法思維。AlphaGo藉此擁有強大的盤面評估能力。(2)增強學(xué)習(xí)算法技術(shù):此算法可通過自我對弈來持續(xù)提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術(shù):“評價網(wǎng)絡(luò)”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機網(wǎng)絡(luò)云計算技術(shù)發(fā)展遇到的問題
在目前計算機網(wǎng)絡(luò)云計算技術(shù)廣泛地運用到各個領(lǐng)域的過程中,云計算技術(shù)也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應(yīng)用過程中應(yīng)采用足夠的措施來對數(shù)據(jù)信息的安全性進行可靠的保障,這是計算機網(wǎng)絡(luò)云計算技術(shù)發(fā)展過程中十分重要的一項課題?,F(xiàn)在的大部分云端是通過瀏覽器進行接入的,瀏覽器是計算機系統(tǒng)中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認證密鑰特別容易因為瀏覽器漏洞而產(chǎn)生泄密。同時由于不同的應(yīng)用都需要在云端中進行認證,這就需要保證認證機制的高效性與安全性。在應(yīng)用服務(wù)層之中,應(yīng)該采取安全有效的措施來保護用書的隱私安全,在基礎(chǔ)設(shè)施層中要采取安全可靠的方法保C數(shù)據(jù)的安全性。
七、采取措施保障網(wǎng)民數(shù)據(jù)安全
如果數(shù)據(jù)的安全不能得到保障,就會對云計算的發(fā)展產(chǎn)生不利影響,所以為了能夠保障網(wǎng)民數(shù)據(jù)的安全。就需要采取切實可行的手段來保證數(shù)據(jù)的安全性。
1.隔離操作系統(tǒng)與數(shù)據(jù)
為了能夠切實有效地保障網(wǎng)民信息的安全,就需要充分使用Hypervisor,從而將網(wǎng)民的操作系統(tǒng)與數(shù)據(jù)資源隔離起來,從而有效地保證了計算資源的安全性,避免了網(wǎng)民操作系統(tǒng)所帶來的可能的不利影響。
2.重置API保護層
服務(wù)商提供給用戶API,用戶根據(jù)需要進行應(yīng)用。但同時第三方也有可能對這些API進行使用。為了保證數(shù)據(jù)的安全性,就需要你安裝API保護層,重疊保護API。
3.嚴格身份認證
服務(wù)商應(yīng)嚴格的執(zhí)行身份認證,防范冒充網(wǎng)民身份的行為,加強對賬號與密碼的管理控制,確保網(wǎng)民只訪問自己的程序與數(shù)據(jù),從而保證數(shù)據(jù)資源的安全性。
【關(guān)鍵詞】清晰度評價函數(shù);一體化攝像機;高斯噪聲
The research of focusing evaluation function based on the room camera
HAN Seng-jie
(Civil Aviation University of China,College of Electronics and Information engineering,Tianjin,300300,China)
Abstract:Focusing evaluation function is important as to the room camera to achieve the focus of image and get high-quality image.We have a comprehensive performance comparison of several commonly used focusing evaluation functions,quantitative analysis of the efficiency of different algorithms including no bias,single peak and sensitivity according to the simplicity and real-time.The results showed that:Brenner functions and Laplace function is suitable for small-scale precision focusing for its relatively narrow peak width,high sensitivity.Tenengrad function,Robert function and squared gradient function is suitable for mid-range auto-focus, because they have relatively high sensitivity,and also they have a certain focus range.It’s instructive to the room camera to achieve automatic focusing.
Key words:focusing evaluation function;room camera;Gauss noise
1.引言
一般來說,一體化攝像機是指可以自動聚焦、鏡頭內(nèi)建的小型攝像機。外觀上,具有美觀、小巧。應(yīng)用上,其電源、視頻、控制信號均有直接插口,安裝方便。功能上可自動聚焦,近些年,一體化攝像機在視頻會議、安防監(jiān)控、高速公路監(jiān)控等場合的應(yīng)用越來越廣泛。
自動聚焦技術(shù)的發(fā)展對一體化攝像機的廣泛應(yīng)用也起著非常重要的作用。傳統(tǒng)的聚焦方法基本屬于測距法,利用超聲波或者紅外線測量目標(biāo)與攝像機之間的距離從而調(diào)整焦距以實現(xiàn)自動聚焦。由于要有發(fā)射和接收裝置,提高了成本,并且會使得攝像機顯得笨重。
隨著數(shù)字圖像處理理論的不斷成熟,越來越多的自動聚焦算法是基于圖像處理理論的。數(shù)字圖像處理理論認為,信號或圖像的大部分能量集中在幅度譜的低頻段和中頻段,但是圖像細節(jié)的豐富度和輪廓的銳度取決于圖像的高頻成分。因此,各種檢驗圖像邊緣信息或計算圖像高頻分量的自動聚焦算法應(yīng)運而生。一幀圖像中的高頻成分值被稱為清晰度評價函數(shù),自動聚焦的過程就是求取清晰度評價函數(shù)最大值的過程。當(dāng)圖像清晰時,圖像細節(jié)豐富,在空域表現(xiàn)為相鄰像素的特征值,如灰度、顏色等變化較大,在頻域表現(xiàn)為頻譜的高頻分量多。可以評判圖像中高頻分量的大小,并判斷對焦正確與否。
確定合適的清晰度評價函數(shù)是自動調(diào)焦的核心問題。理想的自動調(diào)焦評價函數(shù)必須具備以下幾個特征[1]:
a.無偏性。計算出來的曲線要和圖像的清晰度變化事實相吻合;
b.單峰性。在成像系統(tǒng)的正焦位置取得單一的極值,不能出現(xiàn)其他局部極值;
c.靈敏度。是指對不同程度的離焦圖片,清晰度評價值要求有一定的差別;
d.具有足夠的信噪比。在一定的噪聲干擾條件下,保證系統(tǒng)正確地檢測到離焦信號,完成自動調(diào)焦;
e.高效性。計算能夠滿足實時性要求,保證迅速完成自動調(diào)焦過程。
圖1是圖像高頻成分含量與聚焦鏡頭位置之間的關(guān)系。
2.常用清晰度評價函數(shù)的研究
圖像清晰度評價函數(shù)在基于圖像處理的自動調(diào)焦技術(shù)中起著關(guān)鍵的作用。圖像清晰度識別技術(shù)近年來已引起國內(nèi)外學(xué)者的重視,其中最流行的是時域?qū)Ρ榷仍u價函數(shù),常用的有Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)、方差函數(shù)和平方梯度等[2][3][4];還有頻域的頻譜評價函數(shù)[5];小波變換評價函數(shù)[6];基于DCT變換的評價函數(shù)[7];神經(jīng)網(wǎng)絡(luò)評價函數(shù)[8]。其中頻域類、統(tǒng)計學(xué)類等調(diào)焦函數(shù)由于在調(diào)焦過程中對環(huán)境的穩(wěn)定性要求較高,并且其調(diào)焦曲線非常不理想,大多數(shù)都不能正確的表達焦點的位置,同時考慮到聚焦速度和準確性的要求,因此沒有列入,我們選擇常用的時域?qū)Ρ榷仍u價函數(shù)進行分析。
Brenner函數(shù),是最簡單的與梯度有關(guān)的評價函數(shù)[9][10][11],它只是計算相差兩個單位的兩個像素的灰度差,該函數(shù)的優(yōu)點是具有較高的靈敏度且計算量較小,其表達式為:
式中,I(x,y)表示圖像中第x行第y列像素的灰度值。當(dāng)調(diào)焦評價函數(shù)F(I)數(shù)值最大時,圖像最清晰。
Robert梯度評價函數(shù),是在灰度差分絕對值之和算法基礎(chǔ)上考慮I(x,y)和I(x+1,y+1),灰度差的像元位置關(guān)系后,采用的一種評價函數(shù),其表達式如下:
式中I(x,y)表示圖像中第x行第y列像素的灰度值。
方差函數(shù),清晰聚焦的圖像應(yīng)有比模糊的圖像具有更大的灰度級差異,所以方差函數(shù)也可以作為一個對焦清晰的評價標(biāo)準[9][12]。方差函數(shù)定義為:
式中μ為平均灰度級,
即
I(x,y)表示圖像中第x行第y列像素的灰度值。
平方梯度函數(shù),它用相鄰點的差分計算一個點的梯度值[12],其算法如下:
其中I(x,y)為一幅圖像在點(x,y)的灰度值。
Tenengrad函數(shù),它使用Sobel算子來算圖像在水平方向和垂直方向的梯度,為了使圖像邊緣的梯度最大,對梯度進行平方運算,其表達式如下所示:
其中,S(x,y)>T(T為灰度閾值)
為梯度幅度Gx(x,y),Gy(x,y)的計算模版為
在此模版下,
Laplace函數(shù),使用Laplace算子和圖像進行卷積得到圖像的二階微分,其微分平方和作為最后評價結(jié)果,其表達式如下:
3.清晰度評價函數(shù)的性能分析
為了便于比較這六種算法的性能和特點,按照清晰度評價函數(shù)應(yīng)具備的特性,我們從三個角度對這六種清晰度評價函數(shù)的性能進行分析。本文采用小龍電器公司自主研制生產(chǎn)的一體化攝像機SMC-480,其光學(xué)系統(tǒng)參數(shù)表如表1所示。
3.1 清晰度評價函數(shù)的曲線特性對比
本文為研究清晰度評價函數(shù),其數(shù)據(jù)源都是針對同一組圖像進行處理,同時該組圖像是對同一平面目標(biāo),通過控制一體化攝像機調(diào)焦鏡頭的前后縱向位置來實現(xiàn)圖像的調(diào)焦,前后縱向移動的步進間隔距離為0.004mm。在聚焦點位置前后分別采集24個欠焦和24個過焦圖像。加上聚焦良好圖像,共得到50幅圖像。采集的圖像大小為640 pixel×480 pixel。本文的數(shù)據(jù)分析是以采集到的圖像數(shù)據(jù)為依據(jù),并將圖像序號按由最遠的欠焦?fàn)顟B(tài)經(jīng)過聚焦?fàn)顟B(tài)后,再到過焦?fàn)顟B(tài)編排,共采集了50張圖片,如圖2給出了其中的12幅示意圖。
為了便于比較各種算法的性能和特點,本文將上述六種算法的仿真結(jié)果描繪出來,如圖3所示。它的縱坐標(biāo)表示各種算法的歸一化圖像清晰度評價值,橫坐標(biāo)表示不同程度的離焦圖片的序號,共50張。圖4是對圖3函數(shù)極值的局部放大。
從圖3和圖4中可以得出如下結(jié)論:1)對圖像的單峰性來說,Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)和平方梯度等能得到比較一致的結(jié)果,并且只有一個極值點,具有單峰性,符合要求,而方差函數(shù)的極值點不夠突出,容易產(chǎn)生誤調(diào)焦,因此不能使用。2)從圖像的無偏性來說,Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)和平方梯度等的清晰度評價值都隨著圖像的離焦或者變焦程度變化而變化,都在第25幅圖像位置取得最大值,這和肉眼看到的事實是相符合的。3)從圖像的靈敏度角度來看,Laplace函數(shù)和Brenner函數(shù)的峰頂寬度相對較窄,相對而言,Laplace函數(shù)更為尖銳,靈敏度高,因此適合于小范圍精確調(diào)焦。也就是說,對微小焦距的改變更為敏感,性能上更加優(yōu)良。Tenengrad函數(shù)、Robert函數(shù)和平方梯度的靈敏度居中,在焦點附近具有比較高的靈敏度,同時也有一定的調(diào)焦范圍,適于中等范圍的自動調(diào)焦。
3.2 圖像加噪聲后清晰度評價函數(shù)的曲線特性
我們對標(biāo)準圖像加入噪聲,根據(jù)模糊成像原理,可以用高斯函數(shù)對標(biāo)準圖像進行處理。高斯模糊的基本思路是根據(jù)二維正態(tài)分布公式生成一個高斯矩陣,求新圖像中的每一點時,將高斯矩陣的中心對準舊圖像的這一點,并將所有點根據(jù)高斯矩陣上對應(yīng)的點加權(quán)平均。二維正態(tài)分布公式如下:
u,v分別為水平、豎直距離。高斯模糊的標(biāo)準差σ,表示模糊的延伸距離,它的缺省值一般設(shè)為1。當(dāng)時,高斯矩陣上對應(yīng)的權(quán)值已經(jīng)小得可以忽略,因此可以只計算一個大小為的矩陣。通過設(shè)置不同的模糊半徑(radius)參數(shù)即需要移位的像素數(shù),達到不同程度的高斯模糊效果。圖像數(shù)據(jù)源仍是圖二所示中采集到的圖像,現(xiàn)在我們對標(biāo)準圖像分別進行1×1-6×6半徑的高斯模糊,同時添加方差為20的高斯噪聲,得到6幅圖像,圖5給出了其中一幅聚焦清晰和一幅清晰圖像的加噪圖像。
實驗結(jié)果如圖6所示,縱坐標(biāo)是每個清晰度評價函數(shù)的歸一化值,橫坐標(biāo)是受不同噪聲影響的6幅不同圖像,從圖中可以看出,Laplace函數(shù)和Brenner函數(shù)在峰值附近變化明顯,在一定的噪聲干擾條件下,能識別出噪聲影響的程度,該函數(shù)性能靈敏度高,具有足夠的信噪比,其聚焦分辨力和抗噪性能明顯優(yōu)于其他方法。而Tenengrad函數(shù)、Robert函數(shù)和平方梯度的信噪比居中,方差函數(shù)的抗干擾性能則最差。
3.3 清晰度評價函數(shù)實驗驗證
上述中本文對清晰度評價函數(shù)的性能和特點進行了分析,不過為了進一步驗證Laplace函數(shù)、Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)和平方梯度函數(shù)的性能,本文采集了另外圖像進行驗證。通過控制一體化攝像機調(diào)焦鏡頭的前后縱向位置來實現(xiàn)圖像的調(diào)焦,前后縱向移動的步進間隔距離為0.008mm。在聚焦點位置前后分別采集14個欠焦和14個過焦圖像。加上聚焦良好圖像,即第15幅,共得到29幅圖像。采集的圖像大小為630 pixel×490 pixel。
通過matlab仿真,本文得到如下結(jié)論,如圖8所示。
在圖7中,Laplace函數(shù)、Bren-
ner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)和平方梯度函數(shù)的歸一化清晰度評價函數(shù)值的最大值都在圖像序號為15的位置,也剛好是最佳聚焦圖像。這和實際圖像采集中是相對應(yīng)的。同時,就Laplace函數(shù)和Brenner函數(shù)相比較而言,他們都滿足單峰性,不過Laplace函數(shù)更為尖銳,靈敏度高。Tenengrad函數(shù)、Robert函數(shù)和平方梯度和圖3及圖4的結(jié)論相一致。
4.結(jié)論
清晰度評價函數(shù)是數(shù)字圖象處理的一個重要內(nèi)容之一,對于實現(xiàn)一體化攝像機自動對焦具有重要的意義。本文在小龍電器公司生產(chǎn)的一體化攝像機SMC-480研究的基礎(chǔ)上,針對目前常用的清晰度評價函數(shù)的實用性能加以評價,對比實驗證明,Laplace函數(shù)和Brenner函數(shù)的峰頂寬度相對較窄,靈敏度高,因此適合于小范圍精確調(diào)焦。Tenengrad函數(shù)、Robert函數(shù)和平方梯度的靈敏度居中,在焦點附近具有比較高的靈敏度,同時也有一定的調(diào)焦范圍,適于中等范圍的自動調(diào)焦。
參考文獻
[1]屈玉福.視覺瞄準測頭的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2001:20-24.
[2]沈庭芳,方子文.數(shù)字圖像處理及模式識別[M].北京:北京理工大學(xué)出版社,1998.
[3]夏德深,傅德盛.現(xiàn)代圖像處理技術(shù)與應(yīng)用[M].南京:東南大學(xué)出版社,1997.
[4]Castleman K R.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,1998.
[5]李奇,馮華君,徐之海,等.數(shù)字圖像清晰度評價函數(shù)研究[J].光子學(xué)報,2002,31(6):
736-738.
[6]謝攀,張利,康宗明,等.一種基于尺度變化的DCT自動聚焦算法[J].清華大學(xué)學(xué)報,2003,43(1):55-58.
[7]陳國金,朱妙芬,施滸立等.基于最小各向同性小波濾波的圖像清晰度識別[J].光子學(xué)報,2008,37(2):395-399.
[8]陳國金,朱妙芬,施滸立.小波變換與神經(jīng)網(wǎng)絡(luò)復(fù)合的圖象清晰度識別研究[J].紅外技術(shù),2007,29(11):670-674.
[9]TTE Yeo,S H Ong,Jayasooriah and R Sinniah.Autofocusing for Tissue Microscope.Image and Vision Computing.1993,11(10):629-639.
[10]Lawrence Firestone,Kitty Cook,Kevin Culp,Neil Talsania,and Kendall,Preston,parison of Autofocus Methods for Automated Microscopy.1991(12):195-206.
[11]Brenner,J F,Dew,B S,Horton,J B,King,T,
Neirath,P W and Sellers,W D.An Automated Microscope for Cytologic Research.1971(24):
100-110.
1圖像特征表示方法概述
設(shè)計圖像的特征表示是計算機視覺中一項非常基本的研究內(nèi)容,圖像的分類、檢索、標(biāo)注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關(guān)圖像分析中取得更佳的效果.因此,圖像特征的設(shè)計與構(gòu)造,直接影響算法的性能.而如何定義一個好的圖像特征卻是非常困難的:一方面,設(shè)計的圖像特征對于同一類別下圖像之間的變化(比如尺度、光照變化、對象位置變化等)要有足夠的魯棒性;另一方面,設(shè)計的圖像特征要具備足夠的判別性來處理不同類別間圖像的變化.近年來,研究者提出了大量的底層特征用于各種圖像分析任務(wù),其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類特征取得了一定意義的成功,但研究者發(fā)現(xiàn),這類單一的底層特征并不足以在某些應(yīng)用上達到更好的效果,因此提出了一類中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類圖像特征表示方法的典型代表,該方法在場景分類中獲得了較好的性能.BoW算法生成圖像特征表示分為3個過程:圖像底層特征的獲取、學(xué)習(xí)過完備字典和計算圖像的碼字直方圖表示.然而,BoW方式并沒有考慮特征向量在圖像空間上的位置關(guān)系,使得其特征描述能力并沒有達到最大化.為了彌補這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡稱SPM)[4]方法通過在一幅圖像的不同層次上計算碼字直方圖,形成了一個BoW多層特征,將BoW模型與圖像空間進行合理融合.然而,由于SPM方法利用直方圖交核函數(shù)來度量兩幅圖像間的相似度,導(dǎo)致無法產(chǎn)生低維度的圖像特征表示,而且需要完整計算訓(xùn)練集圖像間相似度的Gram矩陣,因此,其算法復(fù)雜度為O(n2)(其中,n為訓(xùn)練集中圖像的個數(shù)).為了解決這一問題,有效匹配核算法(efficientmatchkernel,簡稱EMK)[5]在碼字間相似性的基礎(chǔ)上構(gòu)造了一個低維特征映射空間,整個圖像的特征可以表示為碼字映射在這個低維特征空間后的平均,且可以采用線性SVM方法訓(xùn)練分類器,在圖像分類應(yīng)用中獲得了非常不錯的效果.然而,有效匹配核算法仍然依賴于人為定義的圖像局部特征(如SIFT或HOG),只不過是通過計算有限維空間的局部線性特征表示來推出整體圖像的線性特征.
Bo等人擴展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡稱KD)[6]方法.這種方法只需定義任意兩個局部圖像塊之間的相似性,且該相似性函數(shù)滿足核函數(shù)定義.由于每個核函數(shù)都隱性定義了一個映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡稱RKHS)中一個非常高維的向量,這樣,核函數(shù)可以表示為RKHS中兩個高維向量的內(nèi)積,通過核主成分分析(kernelprincipalcomponentanalysis,簡稱KPCA)[7]算法,可以由核函數(shù)推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱為核描述子,并且采用EMK算法將其推廣到整個圖像的特征表示.盡管核描述子方法的設(shè)計思想較為新穎,但仍然存在計算復(fù)雜度過高這一缺陷,限制了其在大規(guī)模圖像數(shù)據(jù)庫上的應(yīng)用.事實上,在KPCA方法的離線階段,所有聯(lián)合基向量對之間的相似性都需要計算,這是非常耗時的.更重要的是:在線階段計算一個新圖像塊的特征映射時,該圖像塊與所有聯(lián)合基向量之間的相似性也是需要計算的,而這實際上是不需要的.Xie等人[8]通過使用不完整Cholesky分解替代KPCA算法,成功地解決了這個問題,并且通過迭代,應(yīng)用不完整Cholesky分解算法表示整個圖像特征[9].但文獻[8,9]中,通過不完整Cholesky分解得到的標(biāo)志聯(lián)合基向量并沒有對應(yīng)實際的圖像塊,因此,其產(chǎn)生的特征判別能力并沒有最大化地得到利用.
Wang等人提出了有監(jiān)督的核描述子方法[10],該方法利用訓(xùn)練集中的圖像類標(biāo)來輔助設(shè)計底層圖像塊特征.盡管他們利用該特征取得了不錯的分類效果,但這個算法運行過程中需要大量有類標(biāo)的圖像,并且對象優(yōu)化函數(shù)求解過程復(fù)雜,時間復(fù)雜度過高.除了上述生成圖像底層特征表示的方法以外,另外一類構(gòu)成圖像特征的方法基于深度學(xué)習(xí)理論.2006年,Hinton等人[11,12]提出了用于深度信任網(wǎng)絡(luò)(deepbeliefnetwork,簡稱DBN)的無監(jiān)督學(xué)習(xí)算法,DBN的多層結(jié)構(gòu),使得它能夠?qū)W習(xí)得到層次化的特征表示,實現(xiàn)自動特征抽象,文獻[12]將DBN模型成功用于手寫數(shù)字識別應(yīng)用上.Bengio等人在文獻[13]中提出了基于自編碼器(auto-encoder)[14]的深度學(xué)習(xí)網(wǎng)絡(luò),在手寫數(shù)字識別圖像數(shù)據(jù)庫上得到了類似的實驗結(jié)果.另外,文獻[1517]提出了一系列基于稀疏編碼的深層學(xué)習(xí)網(wǎng)絡(luò),在圖像應(yīng)用中取得了一定的成功.LeCun等人用誤差梯度設(shè)計并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡稱CNN),其在圖像分類,特別是手寫體字符識別應(yīng)用中得到優(yōu)越的性能.在此基礎(chǔ)上,Krizhevsky等人[21]將CNN模型應(yīng)用到分類大規(guī)模ImageNet圖像數(shù)據(jù)庫,更加充分地顯示了深度學(xué)習(xí)模型的表達能力.盡管在深度學(xué)習(xí)模型下獲得的圖像特征有很強的判別表示能力,但其要求計算機硬件條件較高,單機環(huán)境下很難實現(xiàn).除此之外,更加詳細地介紹圖像特征描述子領(lǐng)域的綜述可以參考文獻[23].本文在大數(shù)據(jù)時代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡稱EPLd)方法.該方法在不完整Cholesky分解基礎(chǔ)上,可以自動地進行圖像塊篩選,對于求解新圖像塊的線性特征表示,只需計算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對應(yīng)著一個圖像塊特征的集合,該集合可以看作是特征空間中基于某個分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個分布的距離.本文采用基于高維概率分布的MMD距離[24]進行估算,進而計算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實現(xiàn)過程以及如何利用MMD距離計算兩幅圖像的相似性,并在幾個著名的圖像分類數(shù)據(jù)庫上進行實驗,最后給出工作的結(jié)論和展望.
2核描述子方法簡介
核描述子方法是對圖像像素點屬性(梯度/形狀/顏色+位置)基礎(chǔ)上生成的聯(lián)合基向量應(yīng)用KPCA方法,從而計算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點的梯度屬性來介紹核描述子方法.通過公式(2)可以看到,核描述子方法的主要缺陷有以下3點:(1)算法計算復(fù)雜度高,因為需要對dodp維的聯(lián)合基向量形成的Gram矩陣計算特征值分解,如果聯(lián)合基向量的維度過高或者個數(shù)過多,KPCA算法甚至無法實施;(2)對聯(lián)合基向量進行KPCA獲得的tij并不是稀疏的,這也就意味著在計算新圖像塊的特征表示時,需要和所有的聯(lián)合基向量進行在線計算,所以算法需要存儲全部的聯(lián)合基向量;(3)算法無法進行特征選擇,即,并不知道聯(lián)合基向量中哪些樣本最具代表性.
3有效圖像塊描述子算法
針對核描述子方法的3點不足之處,文獻[8]解決了其主要缺陷的第一、第二兩點,但是文獻[8]在本質(zhì)上仍然使用聯(lián)合基向量,所以沒有明確地進行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒有達到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱為有效圖像塊描述子.該方法基于對圖像塊相似度矩陣執(zhí)行不完整Cholesky分解。總體上來說,有效圖像塊描述子算法由兩部分構(gòu)成:1)首先從訓(xùn)練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執(zhí)行不完整Cholesky分解算法.如果設(shè)定N代表圖像塊的個數(shù),M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點:首先,在分解過程中只需要按需計算O(MN)個Gram矩陣元素的值;其次,對Gram矩陣執(zhí)行Cholesky分解的時間復(fù)雜度為O(M2N),遠遠低于KPCA算法的O(N3).2)經(jīng)過第1步分解步驟之后,選擇出了M個最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過O(M)次計算就可以得到.算法的具體步驟將在以下部分詳細介紹.
3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標(biāo)就是找到一個矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執(zhí)行不完整Cholesky分解算法的過程中,選擇出M個最具代表性的基圖像塊,利用所有圖像塊和這M個基圖像塊之間的相似性,可以近似恢復(fù)Gram矩陣K.這里,M的值是可以通過算法在線確定的,由算法中提前給定的近似精度參數(shù)來控制.關(guān)于不完整Cholesky分解的詳細執(zhí)行過程可以參考文獻[26],其中,作為輸入?yún)?shù)的Gram矩陣K實際上是按需計算的,即,算法執(zhí)行過程中需要用到哪兩個訓(xùn)練圖像塊間的相似度,就按照公式(1)計算得到.算法執(zhí)行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號,同時得到了矩陣G,使得.TGGK
3.2構(gòu)造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構(gòu)造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復(fù)得到。通過算法1可以看到:選擇出的M個最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個新圖像塊和這些基圖像塊進行相似性度量的過程,也可看成是對這個新圖像塊進行特征提取的過程.另外,針對圖像塊相似度矩陣執(zhí)行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過程中只與某些訓(xùn)練樣本(圖像塊)有關(guān).也就是說,利用這些訓(xùn)練樣本就可以很好地近似恢復(fù)相似度矩陣,所以訓(xùn)練集中的圖像塊具有不同程度的重要性.因此,我們稱重要性最高的前M個圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們在Scene-15圖像庫上提取了最重要的前16個基圖像塊,如圖1所示(每個圖像塊由其像素點的梯度幅值來表示).可以看到,每個圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻[8]的有效性,而且很好地解決了核描述子算法中的第3點缺陷,最大限度地發(fā)揮了圖像塊特征的判別能力.
4利用MMD距離計算圖像間的相似性
基于算法1,每一個圖像塊都可以用有效圖像塊描述子來表示.一幅圖像通過稠密采樣確定很多關(guān)鍵點,每一個關(guān)鍵點都對應(yīng)著一個局部的圖像塊,因此,一幅圖像就對應(yīng)著一個局部特征的集合.假定圖像I1包含m個圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來自分布p的一個樣本集,同樣,Fq也可以看作是來自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個分布的距離表示.當(dāng)然,這兩個概率分布之間的距離只能通過這兩個樣本集進行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進行估算.MMD距離可以看作是將兩個概率分布,通過非線性核函數(shù)映射到再生核希爾伯特空間(RKHS)后均值的距離.對于上述分布p和q的MMD距離估計可由公式(3)計算。單純地利用公式(3),并沒有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個問題,本文首先采用空間金字塔方法將整幅圖像進行逐層劃分;然后,在兩幅圖像每個層次對應(yīng)的小圖像上計算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對應(yīng)層次的權(quán)重進行匯總求和,然后度量兩幅圖像I1與I2之間的差異性.
5實驗
本文使用像素點的梯度、形狀和顏色屬性分別構(gòu)造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測試有效圖像塊描述子算法的性能,分別在3個著名的圖像分類數(shù)據(jù)庫(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實驗.在接下來的實驗中,計算3個不同類型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過300300像素點;特別地,在計算EPLd-G和EPLd-S時,將縮放后的圖像中的像素點的灰度值標(biāo)準化為[0,1]范圍.圖像塊通過每隔8個像素點的稠密采樣方式從訓(xùn)練集圖像中進行抽取,大小為1616像素點.EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個描述子串接起來形成的.訓(xùn)練線性SVM分類器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來定義.在計算MMD時,將圖像按照11,22和33分為3個層次來匯總求和,尺度參數(shù)在不同的數(shù)據(jù)庫上利用交叉驗證方法確定.所有的實驗均重復(fù)10次,每次的訓(xùn)練集和測試集都隨機抽取確定,將10次分類準確率的平均值和方差記錄下來.實驗中的其他參數(shù)從公平比較的角度考慮,與文獻[6,8]設(shè)置相同.
5.1Scene-15Scene-15場景數(shù)據(jù)庫包含4485張圖片,這些圖片分屬15個類別,有室內(nèi)場景和室外場景,每一個類別包含200張~400張圖片不等.按照慣例,從每個類別中隨機抽取100張圖片作為訓(xùn)練,剩余圖片作為測試.在算法中設(shè)置Pivots的個數(shù)為200,即,利用不完整Cholesky分解選出200個最具代表性的基圖像塊來構(gòu)造維度為200的有效圖像塊描述子.實驗結(jié)果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個數(shù)據(jù)庫上的最佳分類準確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過了文獻[6,8].在實驗中,除了測試分類準確率來體現(xiàn)EPLd的判別能力,還通過不同維度下測試分類準確率來體現(xiàn)EPLd的有效性.我們發(fā)現(xiàn),在特征維度只有50維的情況下也獲得了接近最優(yōu)分類準確率的性能,這充分體現(xiàn)出EPLd算法的有效性和健壯性.事實上,通過表2可以看到:特征維度從50維增加到300維,分類準確率并沒有得到明顯的提升.造成這一現(xiàn)象的原因是,不完整Cholesky分解容易獲得高質(zhì)量的低秩近似.表2中的數(shù)據(jù)表明:即使是50維的低秩近似也足以體現(xiàn)Gram矩陣中的關(guān)鍵信息,而這些關(guān)鍵信息直接決定了分類的性能.在后面的實驗中,從算法效率的角度考慮都使用了100維的特征表示.
5.2Caltech-101Caltech-101圖像數(shù)據(jù)庫包含9144張圖片.這9144張圖片隸屬于101個對象類別外加一個背景類別,每個類別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進行了對比.同樣根據(jù)慣例,每個類別隨機挑出30張圖片進行訓(xùn)練,從剩余圖片中挑選不超過50張進行測試.可以看到:EPLd算法達到了最佳的分類準確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達到了非常不錯的分類效果(73.7%).
5.3UIUC-8UIUC-8圖像數(shù)據(jù)庫包含1579張圖片,這1579張圖片隸屬于8個運動類別,每個類別下包含圖片137張~250張不等.按照慣例,隨機從每個類別中抽取70張圖片進行訓(xùn)練,從剩余圖片中挑選60張進行測試.分類準確率結(jié)果列于表4中.通過表4可以看到,EPLd-All非常接近最佳分類準確率(87.2%vs.87.23%).在實驗部分的最后,本文對比了構(gòu)造3種不同描述子(EPLdvs.KDvs.EKD)的計算效率.其中,最耗時的是形狀特征,一幅標(biāo)準圖像(最大300300分辨率,圖像塊大小為1616像素點,圖像塊間隔8個像素點)上的EPLd-S與EKD-S描述子在Matlab環(huán)境下計算需要耗時2s,而KD-S需要耗時2.5s.對于梯度特征,EPLd-G與EKD-G描述子耗時0.9s,KD-G耗時1s.以上對比結(jié)果列在表5中.表5中的對比結(jié)果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計算效率提升相對于KD會表現(xiàn)得更加明顯.另外一點需要指出的是:EPLd與EKD的計算耗時雖然基本相同,但EPLd描述子的特征判別能力相對于EKD描述子要強很多,這一點通過在3個圖像數(shù)據(jù)庫上的實驗對比結(jié)果可以得到印證.所以,綜合考慮,EPLd描述子無論在計算效率還是在判別能力上都要優(yōu)于EKD和KD描述子.
6結(jié)束語