公務員期刊網(wǎng) 論文中心 正文

面向野外環(huán)境下的多模態(tài)融合算法

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了面向野外環(huán)境下的多模態(tài)融合算法范文,希望能給你帶來靈感和參考,敬請閱讀。

面向野外環(huán)境下的多模態(tài)融合算法

關鍵詞:野外監(jiān)控網(wǎng);目標識別;深度學習;多模態(tài)融合;特征

提取在國內,通常將部署于野外環(huán)境中進行監(jiān)控和偵察任務的無線傳感器網(wǎng)絡稱為野外監(jiān)控傳感網(wǎng)。野外監(jiān)控傳感網(wǎng)通常由聲響、震動、圖像、被動紅外等傳感器組成。采集到的信號,在經(jīng)過處理后,不但可以檢測出該區(qū)域內人員、車輛等目標的入侵,還可以獲得其方向、速度、隊伍規(guī)模、武器裝備等重要情報,最后通過無線通信設備將這些信息傳送到控制中心,即可實現(xiàn)對區(qū)域的監(jiān)控和偵察。野外傳感網(wǎng)中的傳感器種類多種多樣,僅僅依靠單一傳感器采集的信息很難達到可信的判決結果,例如震動傳感器易受地質條件的影響、聲陣列對環(huán)境噪聲非常敏感、圖像傳感器無法解決遮擋情況下的目標檢測和識別等等。研究表明,單模態(tài)目標識別系統(tǒng)的一些缺陷可以通過多模態(tài)目標識別系統(tǒng)來彌補。多模態(tài)目標識別系統(tǒng)實際上是通過集成融合多種傳感器所提取的特征信息(例如震動、聲音、圖像等)完成分類鑒別功能。近年來計算機技術和大規(guī)模數(shù)據(jù)處理技術的迅速發(fā)展,神經(jīng)網(wǎng)絡的高熱度研究,都給深度學習帶來了新的生命力和活力,刺激了深度學習在各個方面研究和應用,多模態(tài)機器學習也在深度學習的浪潮下實現(xiàn)了長足的進步和發(fā)展[1-3]。如今,深度學習已經(jīng)在RGB攝像頭、深度攝像頭、聲卡等多模態(tài)信息融合方面發(fā)揮了很大的作用,融合手段和方式也多種多樣[4-6]。在此背景下,本文提出了一種基于深度學習的多模態(tài)特征融合算法,根據(jù)震動、聲音和圖像傳感器所采集信息的特征,分別采用了不同的卷積神經(jīng)網(wǎng)絡來提取特征,并對特征進行融合。融合后的特征,對野外環(huán)境的目標分類鑒別具有更強的魯棒性。

1面向野外環(huán)境的多模態(tài)融合算法研究

本文所設計的系統(tǒng)結構如圖1所示。Avg.L表示均值化處理,L1~L4分別表示512、1024、2048和N個神經(jīng)元組成的全連接層。N表示系統(tǒng)的分類類別數(shù)。該系統(tǒng)總共包括五個部分:特征提取、編碼、特征融合、解碼和分類。特征提取模塊從數(shù)據(jù)中提取特征,編碼器和解碼器是對稱的網(wǎng)絡結構,編碼器將特征數(shù)據(jù)進一步處理,解碼器試圖還原特征數(shù)據(jù),特征融合層對三個模態(tài)特征進行整合從而得到場景的全局特征。分類器對融合得到的全局特征進行分類判別。

1.1特征提取模塊

針對三種模態(tài)數(shù)據(jù)所設計的特征提取單元。對于圖片數(shù)據(jù),我們使用GoogLeNet[7]網(wǎng)絡來從RGB數(shù)據(jù)中提取特征,得到的特征長度為1024維。對于麥克風陣列采集的聲音數(shù)據(jù),先對數(shù)據(jù)做預處理提取聲音數(shù)據(jù)的梅爾倒譜系數(shù)MFCC[8]。圖2是不同風噪條件下履帶車的MFCC圖譜。本文,將聲音數(shù)據(jù)轉化為MFCC頻譜圖,以MFCC頻譜圖作為GoogLeNet的輸入,提取聲音數(shù)據(jù)的特征。對于磁敏傳感器采集的震動信號,本文采用4層的一維卷積來對震動信號進行處理,每層卷積后都有一個Maxpooling來提取最大值,網(wǎng)絡命名為VibrationNet。該網(wǎng)絡分支的具體參數(shù)如表1所示。輸入到VibrationNet的震動信號長度為8192,該信號經(jīng)過網(wǎng)絡處理后,可以獲取長度為1024維的特征。這三個特征提取模塊需要單獨訓練,對于圖像和聲音特征提取網(wǎng)絡,我們可以直接在ImageNet預訓好的GoogLeNet模型基礎上進行微調。而震動信號特征提取網(wǎng)絡則需要重新訓練。

1.2編解碼模塊

編解碼模塊是兩個對稱的結構,編碼器對輸入的特征進行編碼,解碼器則盡可能地恢復輸入的特征,并使得兩者的error足夠小。編碼器的輸入是3個1024維度fm(m=1,2,3)的特征,解碼器的輸出為3個1024維的特征gm(m=1,2,3)。編碼器是由四層全連接組成,神經(jīng)元數(shù)量分別為1024、512、512和256。

1.3特征融合模塊

圖像、聲音和震動信號經(jīng)編碼后所得到的特征長度均為256維。這里的特征融合模塊主要是進行均值化操作,模塊的輸入是三個256維的特征均值化后輸出的則是一個256維度的特征。

1.4分類模塊

假設需要進行的是N分類,圖1中的分類模塊是由4個全連接層組成。神經(jīng)元的個數(shù)依次為512、1024、1024和N。網(wǎng)絡的最后再接一個N維的softmax,輸出對應的分類結果。

1.5損失函數(shù)

該系統(tǒng)的損失函數(shù)定義為:其中,Lclass表示分類模塊的交叉熵損失函數(shù)。fm(m=1,2,3)和gm(m=1,2,3)分別表示三種模態(tài)數(shù)據(jù)對編碼器的輸入特征和解碼器的輸出特征。

2實驗結果分析討論

野外傳感網(wǎng)檢測所感興趣的目標一般是人員、履帶車、輪式車和卡車四種。本文所用的實驗數(shù)據(jù)是從四個不同的野外環(huán)境中采集所得,采集設備主要有攝像頭、麥克風陣列和磁敏傳感器分別獲得圖像、聲音和震動三種模態(tài)數(shù)據(jù)??偣膊杉?22731條數(shù)據(jù),實驗時隨機選取每類總數(shù)據(jù)的80%的用來訓練模型,剩下的20%用來測試模型。四個場地采集的數(shù)據(jù)分布如表2所示。本文的實驗總共分為兩個部分,實驗1是將四個場景的數(shù)據(jù)全部用來訓練模型并測試,模型的識別結果如表3。從表3的結果來看,履帶車的識別精度最高(表格中的加粗項),人員最低,這主要是因為相比于其他三種目標,履帶車較重,運動時產(chǎn)生的聲音及震動信號較強,而人員運動時麥克風陣列和磁敏傳感器采集的信號都較弱,真實信號容易淹沒在噪聲中,導致識別結果較差。但總體來看,該系統(tǒng)的平均識別率基本都在95%以上,滿足項目中對野外環(huán)境監(jiān)控的要求。同時,也對實驗過程中每條數(shù)據(jù)的處理時間進行了統(tǒng)計,平均為0.543s,滿足判定結果實時上報服務器匯總的需求。實驗2是從四個場景中隨機挑選三個場景的數(shù)據(jù)用來訓練模型,剩余場景的數(shù)據(jù)用來測試模型,模型總共訓練并測試了4輪。實驗結果請參照表4。從表4的實驗結果來看,場地3作為測試樣本時,系統(tǒng)的性能較差,這主要是因為場地3的數(shù)據(jù)在采集時有很多突發(fā)情況,比如出現(xiàn)了很多意外路過的車輛以及采集數(shù)據(jù)當天的風力較大等,這些都對場地3數(shù)據(jù)的質量造成了很大的影響,這就導致實驗2中場地3單獨作為測試樣本時,模型性能有些下降。但總的來講,雖然用來測試的場地沒有參與模型的訓練,模型的識別性能同實驗1相比下降不是很明顯,這表明所搭建的系統(tǒng)具有一定的遷移性及魯棒性。

3結束語

本文提出了一種聯(lián)合多種模態(tài)信息,對野外監(jiān)控網(wǎng)中運動目標進行檢測的方法,可以從多種模態(tài)信息中同時提取對分類有用的全局信息。實驗結果表明,本文所設計的系統(tǒng)對野外環(huán)境中的目標檢測有一定的應用價值,并且通過不同場景下的實驗結果來看,該系統(tǒng)對于訓練數(shù)據(jù)的依賴性較低,有一定的遷移性及魯棒性。四種場景均參與模型訓練的情況下,每種類別的精度基本可以達到95%以上,每一條數(shù)據(jù)的判別時間為0.543s,基本上可以滿足野外監(jiān)控對于精度和實時性方面的需要。目前網(wǎng)絡的訓練還是分段進行的,需要先訓練特征提取器,再訓練后面的分類器,結構較為復雜。下一步將嘗試對模型結構進行改進,設計一種端到端的網(wǎng)絡,同時還要進一步降低模型參數(shù),減輕模型移植方面的壓力。

參考文獻

[1]高源.多傳感器信息融合及其應用研究[J].產(chǎn)業(yè)創(chuàng)新研究,2018(8):67-68

[2]董立羽.現(xiàn)代生物特征識別技術發(fā)展綜述[J].電腦與信息技術,2007,15(5):11-13

[3]黃子超,劉政怡.特征融合與S-D概率矯正的RGB-D顯著檢測[J].中國圖象圖形學報,2016,21(10):1392-1401

作者:俞嶺 丁園園 范?,?單位:裝備發(fā)展部駐上海軍代室