前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的特性主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);自動編碼器;非監(jiān)督訓(xùn)練;多尺度分塊;目標(biāo)識別
中圖分類號:TP391.41文獻(xiàn)標(biāo)志碼:A英文標(biāo)題
0引言
對圖像中目標(biāo)的精確和魯棒識別是模式識別及人工智能領(lǐng)域的核心內(nèi)容,在道路監(jiān)控、戰(zhàn)場偵察、精確打擊等領(lǐng)域中有著重要的作用和廣泛的前景。近年來,隨著深度神經(jīng)網(wǎng)絡(luò)成為機(jī)器學(xué)習(xí)新的熱點(diǎn),基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的圖像識別算法因其較強(qiáng)的魯棒性和突出的識別率被學(xué)術(shù)界和工業(yè)界所重視。
Alex等[1]提出基于大型深層CNN的自然圖像識別算法,在ImageNet數(shù)據(jù)集上取得了很高的識別率;Dan等[2]提出了基于多核的CNN,并采用GPU并行運(yùn)算的方法在三維NORB數(shù)據(jù)集上取得了很好的識別效果。以上算法雖然都取得了較高的目標(biāo)識別率,但是由于算法采用有監(jiān)督的訓(xùn)練方式,需要大量標(biāo)簽數(shù)據(jù)對網(wǎng)絡(luò)權(quán)重進(jìn)行調(diào)整,當(dāng)數(shù)據(jù)量較小時會導(dǎo)致模型前幾層網(wǎng)絡(luò)無法得到充分訓(xùn)練,故只能針對含標(biāo)簽數(shù)據(jù)較多的大型數(shù)據(jù)集。針對此問題,目前主流的解決方法是采用特征提取算法對CNN的濾波器集進(jìn)行非監(jiān)督的預(yù)訓(xùn)練。文獻(xiàn)[3]采用稀疏編碼提取訓(xùn)練圖像的基函數(shù)作為CNN的初始濾波器;文獻(xiàn)[4]將獨(dú)立成分分析(Independent Component Analysis,ICA)應(yīng)用于CNN的預(yù)訓(xùn)練階段,利用ICA訓(xùn)練濾波器集合,使識別率得到了一定提高。然而無論是稀疏編碼還是ICA,其特征提取的效果都比較一般,應(yīng)用于預(yù)訓(xùn)練階段對算法識別率的提升也比較有限。所以如何更好地選擇濾波器的預(yù)訓(xùn)練算法仍是十分困難的問題。
除了預(yù)訓(xùn)練外,影響CNN識別率和魯棒性的關(guān)鍵參數(shù)還有濾波器的尺寸和下采樣層的采樣間隔。濾波器尺寸反映了CNN對輸入圖像局部特征的提取情況,文獻(xiàn)[5]證明濾波器尺寸對最終識別結(jié)果有很大影響,并給出了單層條件下相對最優(yōu)的濾波器尺寸。下采樣層主要負(fù)責(zé)對特征進(jìn)行模糊,從而獲得平移、尺度等不變性。采樣間隔反映了模糊的程度,間隔越大模糊越嚴(yán)重,模糊后的特征保持的全局空間信息就越少。文獻(xiàn)[6]證明當(dāng)采樣間隔較小時,即使經(jīng)過2次卷積和2次最大下采樣(maxpooling),網(wǎng)絡(luò)輸出的激活值仍能重構(gòu)出與原始輸入看似相同的圖案。然而下采樣間隔過小會導(dǎo)致不變性喪失,過大則會損失大量細(xì)節(jié)信息,兩者均會導(dǎo)致識別率的下降。
針對以上問題,本文提出基于多尺度分塊卷積神經(jīng)網(wǎng)絡(luò)(MultiScale Convolutional Neural Network, MSCNN)的圖像目標(biāo)識別算法。首先利用稀疏自動編碼器(Sparse AutoEncoder,SAE)對卷積神經(jīng)網(wǎng)絡(luò)的濾波器進(jìn)行非監(jiān)督預(yù)訓(xùn)練,通過最小化重構(gòu)誤差獲得待識別圖像的隱層表示,進(jìn)而學(xué)習(xí)得到含有訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)特性的濾波器集合,預(yù)訓(xùn)練效果相比ICA更好。其次提出多尺度分塊的方法構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),為了增加魯棒性并減小下采樣對特征表示的影響,對輸入圖像進(jìn)行多尺度分塊形成多個通路,并設(shè)計(jì)相應(yīng)尺寸的濾波器進(jìn)行卷積運(yùn)算,將不同通路下采樣后的輸出進(jìn)行融合從而形成新的特征,輸入softmax分類器完成圖像目標(biāo)的識別。最后通過大量實(shí)驗(yàn)對比MSCNN算法與經(jīng)典算法在通用圖像識別任務(wù)中的識別率和魯棒性差異,從而驗(yàn)證算法的有效性。
4仿真實(shí)驗(yàn)及分析
本文使用STL10公開數(shù)據(jù)集以及從全色波段的QuiekBird遙感衛(wèi)星和GoogleEarth軟件中截取的遙感飛機(jī)圖像數(shù)據(jù)集進(jìn)行測試實(shí)驗(yàn),將所有圖片變?yōu)?4×64像素的RGB圖。選擇STL10數(shù)據(jù)集的原因是因?yàn)槠浜胁话瑯?biāo)簽的訓(xùn)練集,可用于本文的非監(jiān)督預(yù)訓(xùn)練算法,且圖像中包含更多類內(nèi)變化。STL10共10類目標(biāo),本文選用其中的4類目標(biāo)進(jìn)行實(shí)驗(yàn)。選擇遙感飛機(jī)圖像數(shù)據(jù)則是為了驗(yàn)證本文算法在遙感圖像解譯方面的可用性。該數(shù)據(jù)集包含5類遙感飛機(jī),共400幅。實(shí)驗(yàn)時隨機(jī)選取遙感飛機(jī)圖像庫中50%的圖像作為訓(xùn)練樣本,其余作為測試樣本。本文的實(shí)驗(yàn)環(huán)境為CPU2.8GHz、內(nèi)存3GB的計(jì)算機(jī),實(shí)現(xiàn)算法的軟件為Matlab(2011a)。
4.1算法識別率對比測試
MSCNN的各通路尺寸參數(shù)設(shè)置如圖4所示,每個通道使用300個濾波器,濾波器初始值按照不同通道感受野大小利用稀疏自動編碼器預(yù)訓(xùn)練得到。編碼器設(shè)定為3層,稀疏參數(shù)ρ設(shè)定為0.05,訓(xùn)練周期為400。卷積神經(jīng)網(wǎng)絡(luò)的下采樣方式采用最大下采樣(max pooling)。
按照上述參數(shù)設(shè)置,通路1輸出特征維度為2700,通路2輸出特征維度為4800,通路3輸出特征維度為4800,MSCNN輸出特征維度總共為12300。所有算法的訓(xùn)練周期均為50。傳統(tǒng)CNN參數(shù)設(shè)定與通路1參數(shù)設(shè)定相同,同樣使用300個濾波器,濾波器初始值通過隨機(jī)初始化得到。輸出特征維度為2700。實(shí)驗(yàn)結(jié)果如表1所示。
從表1可看出,加入LCN的CNN較未加入的CNN對兩種數(shù)據(jù)集的識別率有一定的提高,說明了加入LCN對目標(biāo)識別率是有一定的貢獻(xiàn)的;在兩種數(shù)據(jù)集上MSCNN相比原始CNN都擁有更高的識別率。MSCNN通路1雖然參數(shù)設(shè)置與CNN相同,但在相同訓(xùn)練周期下識別率較加入LCN的CNN又有一定提高,說明了非監(jiān)督預(yù)訓(xùn)練對識別率提高的有效性。對于STL10數(shù)據(jù)集,可看出通路2的識別率在3個通路中最高,通路3則最低,這是因?yàn)橥?輸入的圖像尺寸最小,而STL10類內(nèi)變化很大且目標(biāo)不全在圖像中心,故識別率有所下降。通路之間進(jìn)行兩兩累加后識別率都有所提高,在3個通路共同作用時識別率最高,達(dá)到83.5%。對于遙感飛機(jī)圖像集而言,可看出3個通路中通路2的識別率最高,這是因?yàn)檫b感飛機(jī)圖像集均為飛機(jī)圖像,不同類別之間的全局特征差異并不明顯,而局部特征更能表示不同的飛機(jī)類別。通路3由于輸入尺寸較小,識別率稍有下降。同樣的,不同通路之間的疊加都讓識別率有所提升,最終MSCNN三通路特征融合后的識別率達(dá)到了96.5%,完全滿足對于可見光遙感圖像目標(biāo)識別的需求。
從表1還可看出,本文算法在3個通路CNN的情況下的識別率較1個通路或2個通路的CNN的識別率高,由此可以推斷3個通路CNN所提取的特征具有較強(qiáng)的泛化能力和魯棒性。此外3個通道能夠兼顧不同的尺度,使模型能提取到尺度不同的特征。
4.2算法魯棒性實(shí)驗(yàn)
為驗(yàn)證MSCNN的魯棒性,在數(shù)據(jù)集中選取不同類別的圖像對其進(jìn)行平移、尺度、旋轉(zhuǎn)變換,然后計(jì)算MSCNN輸出的第一層全連接特征與圖像變換后輸出特征之間的歐氏距離,根據(jù)距離的大小可以衡量輸出特征對于目標(biāo)變化的魯棒性,歐氏距離越小就說明特征對于目標(biāo)變化越不敏感,魯棒性就越好。對于STL10選取四類目標(biāo)進(jìn)行實(shí)驗(yàn),對比算法為CNN;對于遙感飛機(jī)圖像集隨機(jī)選取10幅進(jìn)行實(shí)驗(yàn),并取距離的平均值,對比算法為ICA和CNN。測試結(jié)果如圖6~7所示。
圖6中虛線表示傳統(tǒng)CNN算法得到的結(jié)果,實(shí)線則表示MSCNN得到的結(jié)果,從圖6可看出:無論是面對平移、尺度還是旋轉(zhuǎn)變換,MSCNN算法最終輸出的特征向量變化率均小于CNN算法,證明其魯棒性要好于CNN。
從圖7也可看出:本文算法對于遙感飛機(jī)圖像集的平移、尺度、旋轉(zhuǎn)均表現(xiàn)出良好的魯棒性,相比而言ICA提取的特征魯棒性較差,目標(biāo)圖像微小的變化就導(dǎo)致了特征較大的改變。本文算法魯棒性較好首先是因?yàn)镸SCNN采用非監(jiān)督的預(yù)訓(xùn)練方式,訓(xùn)練得到的濾波器含有更多圖像不變性特征;其次是因?yàn)镸SCNN采用多尺度輸入,小塊圖像輸入在一定程度上相當(dāng)于另一種局部特征,這些特征相比全尺寸輸入擁有更好的不變性;最后是MSCNN采用了局部對比度標(biāo)準(zhǔn)化,對于亮度變化較大和存在噪聲的目標(biāo)圖像魯棒性明顯增強(qiáng)。
另外,本文算法采用了多通路多尺度分塊的方法,必然會使網(wǎng)絡(luò)參數(shù)增加,從而會使訓(xùn)練時間比較耗時;但在測試階段,輸入樣本的計(jì)算僅包含一些簡單的卷積和下采樣,算法復(fù)雜度并沒有因?yàn)橥ǖ赖脑黾佣黾樱虼嗽跍y試階段的實(shí)時性較傳統(tǒng)的CNN并沒有太大變化。
5結(jié)語
本文提出了MSCNN算法在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上通過非監(jiān)督預(yù)訓(xùn)練濾波器的方法解決傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)前幾層無法得到有效訓(xùn)練的問題。針對傳統(tǒng)神經(jīng)網(wǎng)絡(luò)對于復(fù)雜背景圖像識別率不高的問題,利用多尺度輸入圖像增加局部不變信息,利用不同尺寸濾波器卷積搭配不同下采樣間隔的方法在獲得特征不變性的同時不至于喪失目標(biāo)的細(xì)節(jié)信息,有效提升了識別率和魯棒性。與經(jīng)典算法的對比實(shí)驗(yàn)結(jié)果表明:該方法能夠有效識別可見光自然圖像和遙感圖像,并對平移、尺度和旋轉(zhuǎn)變換具有較強(qiáng)的魯棒性。
參考文獻(xiàn):
[1]
ALEX K, ILYA S, HINTON G E. ImageNet classification with deep convolutional neural networks[EB/OL]. [20150210]. http://papers.nips.cc/paper/4824imagenetclassificationwithdeepconvolutionalneuralnetworks.pdf.
[2]
DAN C, UELI M, JURGEN S. Multicolumn deep neural networks for image classification[C]// Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649.
[3]
KAVUKCUOGLU K, SERMANET P, BOUREAU Y, et al. Learning convolutional feature hierarchies for visual recognition[EB/OL]. [20150210]. http://cs.nyu.edu/~ylan/files/publi/koraynips10.pdf.
[4]
KAVUKCUOGLU K, RABZATO M, FERGUS R, et al. Learning invariant features through topographic filter maps[C]// IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2009: 1605-1612.
[5]
COATES A, LEE H, NG A Y. An analysis of singlelayer networks in unsupervised feature learning[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics. Piscataway, NJ: IEEE, 2011: 215-223.
[6]
ZEILER M D, FERGUS, R. Visualizing and understanding convolutional neural networks [C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Berlin: Springer, 2014: 818-833.
[7]
BALDI P, LU ZHIQIN. Complexvalued autoencoders [J]. Neural Networks, 2012, 33:136-147.
[8]
HAYKIN S.神經(jīng)網(wǎng)絡(luò)與機(jī)器學(xué)習(xí)[M].3版.申富饒, 徐燁, 鄭俊, 譯. 北京: 機(jī)械工業(yè)出版社, 2011:81-89.(HAYKIN S. Neural Networks and Learning Machines[M]. 3rd ed. SHEN F R, XU Y, ZHENG J, translated. Beijing: China Machine Press, 2011:81-89.
[10]
LECUN Y, BOTTOU L, BENGIO Y. Gradientbased learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[11]
DERMANET P, LECUN Y. Traffic sign recognition with multiscale convolutional networks [C]// Proceedings of the 2011 International Joint Conference on Neural Networks. Piscataway, NJ: IEEE, 2011: 2809-2813.
[12]
GONG Y C, WANG L W, GUO R Q, et al. Multiscale orderless pooling of deep convolutional activation features[C]// ECCV 2014: Proceedings of the 13th European Conference on Computer Vision. Piscataway, NJ: IEEE, 2014: 392-407.
[13]
JARRETT K, KAVUKCUOGLU K, RANZATO M, et al. What is the best multistage for object architecture?[C]// Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Piscataway, NJ: IEEE, 2009: 2146-2153.
[14]
BOUVRIE J. Notes on convolutional neural networks [EB/OL]. [20150210]. http://math.duke.edu/~jvb/papers/cnn_tutorial.pdf.
Background
This work is partially supported by the National Natural Science Foundation of China (61372167, 61379104).
ZHANG Wenda, born in 1991, M. S. candidate. His research interests include pattern recognition and artificial intelligence.
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換
中圖分類號:TP18文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)32-9050-02
Wireless Signal Simulation Algorithm for Automatic Identification
ZHANG Meng
(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)
Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.
Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform
在軍事電子對抗等多方面的重要應(yīng)用,通信信號調(diào)制的自動識別分類問題也相繼發(fā)展起來。無線電信號調(diào)制實(shí)識別就是要判斷截獲信號的調(diào)制種類。為此,需要事先對其特征進(jìn)行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對信號進(jìn)行特征測量,并根據(jù)測量結(jié)果對信號的調(diào)制進(jìn)行分類判決。
如果把無線電信號的調(diào)制識別與分類視為一種模式識別問題,那末,從模式識別理論來看,模式分類是模式識別的一個子系統(tǒng)。因此,在模式識別理論框架下,無線電信號的調(diào)制識別是一個總體概念。而調(diào)制分類則只是調(diào)制識別的一個分支[1]。
1 基于決策理論的模擬調(diào)制方式識別方法
此算法主要實(shí)現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對象序列s(n)是由接收機(jī)中頻輸出并經(jīng)過采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個步驟:
第一步,根據(jù)信號的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開,因?yàn)榍叭N信號的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實(shí)際中接近恒定)。因而可以從中提取一個特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠(yuǎn)遠(yuǎn)小于前三種信號。實(shí)際中若R
第二步,根據(jù)信號頻譜的對稱性,將AM與USB與LSB區(qū)分開,因?yàn)锳M的單邊頻譜關(guān)于載頻是近似對稱的,USB和LSB的單邊頻譜對于載頻來說分別只有上邊頻和下邊頻。因而可以從中提取另一個特征參數(shù) 。理論上,由于AM的上下邊頻對稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實(shí)際中若|P|< 0.5,判為AM信號,若P>0.5,判為LSB,P
第三步,零中心非弱信號段瞬時相位非線性分量絕對值的標(biāo)準(zhǔn)偏差:σap 。
σap由下式定義:
(1)
式中,at是判斷弱信號段的一個幅度判決門限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號值的個數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時相位的非線性分量,在載波完全同步時,有:?準(zhǔn)NL(i)= φ(i)-φ0
式中:,φ(i)為瞬時相位。用σap來區(qū)分是DSB信號還是AM-FM信號。
第四步,零中心非弱信號段瞬時相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。
σdp由下式定義:
(2)
σdp主要用來區(qū)別不含直接相位信息的AM、VSB信號類和含直接相位信息的DSB、LSB、USB、AM-FM信號類,其判決門限設(shè)為t(σdp) 。
2 決策論方法的改進(jìn)
前面介紹的基于決策理論的模擬調(diào)制方式識別方法存在缺陷針對上述問題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識別方法。
2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識別方法
該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過不斷比較網(wǎng)絡(luò)的實(shí)際輸出與指定期望輸出間的差異來不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對模型細(xì)節(jié)中的諸多問題均有良好效果。
基于NN的模擬信號調(diào)制識別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個輸入層,1個輸出層,1個中間層。中間層可采用多層。但由于受到計(jì)算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見。本圖中間層采用單層25個節(jié)點(diǎn),輸入層和輸出層的節(jié)點(diǎn)數(shù)取決于信號特征參數(shù)的個數(shù)和信號的分類數(shù),因而分別為4和7。
神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲、大規(guī)模自適應(yīng)并行處理和高度容錯特性,適用于模式識別的基礎(chǔ)。其學(xué)習(xí)能力和容錯特性對不確定性模式識別具有獨(dú)到之處[3]。通信信號在傳播過程中受到信道噪聲的污染,接受到的信號是時變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯性和推廣能力,兩者優(yōu)勢的結(jié)合可以得到良好的信號模式自動識別特性,從而形成各種處理方法。
2.2 基于小波的特征提取和識別方法
小波特別適用于非穩(wěn)定信號的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點(diǎn)是它能夠提供一個信號局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號分解成不同頻率的塊信號,它對不同的時間和頻率有不同的解釋,因此,對調(diào)制信號進(jìn)行小波分解,得到不同水平下的細(xì)節(jié)信息,這些信息對于不同類別的調(diào)制信號來說是有差別的[4]。
在實(shí)際應(yīng)用中,小波變換常用的定義有下列兩種:
(3)
(4)
式中,星號*表示共軛。式(3)表示小波變換是輸入信號想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。
將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):
(5)
Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實(shí)、頻兩域都具有很好的局部性,它的時域形式如下:
(6)
雖然信號特征有很多種,神經(jīng)網(wǎng)絡(luò)在進(jìn)行信號識別時,主要是依據(jù)譜峰位置的不同,因此提取信號特征主要任務(wù)就是尋找信號類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個數(shù)學(xué)顯微鏡,通過它,可以詳細(xì)了解各類信號在不同低頻段上的頻譜構(gòu)成。
整個系統(tǒng)在PC機(jī)上進(jìn)行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進(jìn)行聲音錄制。
在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。
3 結(jié)束語
本文僅限于理論理論研究,用MatLab仿真實(shí)現(xiàn),沒有用DSP芯片等物理電路實(shí)現(xiàn),僅為實(shí)際實(shí)現(xiàn)提供理論指導(dǎo)。
參考文獻(xiàn):
[1] 羅利春.無線電偵察信號分析與處理[M].北京:國防工業(yè)出版社,2003.
[2] 楊小牛,樓才義,徐建良.軟件無線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.
P鍵詞關(guān)鍵詞:視網(wǎng)膜;PCNN;血管分割;MATLAB;GUIDE
DOIDOI:10.11907/rjdk.161883
中圖分類號:TP319
文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2016)008-0068-03
0 引言
眼睛是人體接受外界信息最主要的器官,約75%左右的信息來源于視覺信息。因此,眼睛健康與否對人的學(xué)習(xí)、生活和工作的影響非常大。而眼底則是這個器官的重要組成部分,主要包括視網(wǎng)膜、脈絡(luò)膜、黃斑和視盤等。眼底視網(wǎng)膜中的血管是人體內(nèi)唯一可以非創(chuàng)傷的方式直接觀察到的較深層微血管,其顏色、亮度、位置分布、形狀以及曲率等變化可以直接反映出疾病對血管網(wǎng)絡(luò)形態(tài)結(jié)構(gòu)的影響,是心腦血管疾病對血管微循環(huán)檢查的重要部位。因此,視網(wǎng)膜圖像中血管網(wǎng)絡(luò)的檢測與分割對心腦血管疾病的診斷及治療具有重要意義[1]。
由于該方法計(jì)算公式復(fù)雜,涉及參數(shù)較多,且目前主要使用編寫腳本程序的方式進(jìn)行視網(wǎng)膜眼底圖像中的血管分割,各個參數(shù)的調(diào)整都要在腳本程序中進(jìn)行,非常復(fù)雜,不便于可視化地觀察實(shí)驗(yàn)結(jié)果變化。因此,設(shè)計(jì)開發(fā)一款界面友好、操作簡單的視網(wǎng)膜血管分割系統(tǒng)是非常必要的。
MATLAB是一款由Mathworks公司推出的數(shù)學(xué)軟件,它在數(shù)值分析、矩陣運(yùn)算、數(shù)值擬合以及圖形繪制等方面均有極其強(qiáng)大的功能,已被廣泛應(yīng)用于數(shù)字圖像處理、信號處理和系統(tǒng)仿真等各個領(lǐng)域。同時,MATLAB 軟件具有界面友好、操作簡單的圖形可視化界面設(shè)計(jì)工具,其集成圖形用戶界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜單、對話框、按鈕和文本等各種控件[2]。用戶通過對控件進(jìn)行布局,編寫控件的回調(diào)函數(shù)即可實(shí)現(xiàn)GUI 與用戶之間的交互,操作十分方便。
本系統(tǒng)在對視網(wǎng)膜眼底圖像中的血管進(jìn)行預(yù)處理并運(yùn)用脈沖耦合神經(jīng)網(wǎng)絡(luò)(Pulse Coupled Neural Network,PCNN)迭代原理分割的基礎(chǔ)上,利用MATLAB 的圖形用戶界面開發(fā)環(huán)境(GUIDE)實(shí)現(xiàn)了視網(wǎng)膜血管分割系統(tǒng)。該系統(tǒng)為醫(yī)學(xué)圖像研究提供了一種有效的視網(wǎng)膜血管分割方法,也為醫(yī)學(xué)圖像處理提供了一個操作方便的實(shí)驗(yàn)平臺。
1 研究方法
首先是對視網(wǎng)膜眼底圖像中的血管進(jìn)行預(yù)處理,然后利用PCNN方法對視網(wǎng)膜圖像中的血管進(jìn)行分割。
1.1 視網(wǎng)膜血管圖像預(yù)處理
所處理的視網(wǎng)膜圖像為眼底視網(wǎng)膜RGB彩色圖像,通過將RGB 彩色圖像分解成紅、綠、藍(lán)三通道單色圖像可以發(fā)現(xiàn),綠色通道的視網(wǎng)膜圖像中血管和背景對比度最高, 而紅、藍(lán)色通道的單色圖像中噪聲較多、對比度較低, 因此采用綠色通道的視網(wǎng)膜圖像進(jìn)行處理。
由于視網(wǎng)膜眼底圖像是由專門的醫(yī)學(xué)設(shè)備采集的,血管周圍區(qū)域難免會對后續(xù)處理產(chǎn)生干擾,因此需要對視網(wǎng)膜圖像進(jìn)行有效區(qū)域的選取。將RGB圖像進(jìn)行二值化處理,使其歸一化到[0,1]之間,再依次應(yīng)用形態(tài)學(xué)中的開運(yùn)算、閉運(yùn)算和腐蝕操作,生成二值掩膜圖像。
由于血管直徑大小不一、背景干擾以及成像時光照不均等因素影響,使得血管與背景的對比度較低。為獲得理想的分割效果,要對眼底圖像進(jìn)行預(yù)處理,以增強(qiáng)血管和背景的對比度。本系統(tǒng)主要采用對比度受限制的自適應(yīng)直方圖均衡化(CLAHE)[3]與二維高斯匹配濾波[4]方法對視網(wǎng)膜血管進(jìn)行對比度的增強(qiáng)。
直方圖均衡化(HE)的基本思想是通過圖像的灰度分布直方圖確定一條映射曲線,用來對圖像進(jìn)行灰度變換,以達(dá)到提高圖像對比度的目的。然而HE是對圖像全局進(jìn)行調(diào)整的方法,不能有效提高局部對比度。為了提高圖像的局部對比度,有研究者提出自適應(yīng)直方圖均衡化(AHE)方法,將圖像分成若干子塊,對子塊進(jìn)行HE處理。但是AHE 對局部對比度提高過大,將導(dǎo)致圖像失真。為了解決這個問題,必須對局部對比度進(jìn)行限制,這便是CLAHE方法。CLAHE處理后的圖像既能體現(xiàn)不同位置灰度分布之間的差異,又能使全局灰度較為協(xié)調(diào)。
二維高斯匹配濾波的原理主要是根據(jù)血管曲率較小且寬度漸進(jìn)改變這一特點(diǎn),將血管近似分段為等寬度的線段,然后用高斯曲線模擬其橫截面的灰度輪廓。由于血管方向具有任意性,因此需要旋轉(zhuǎn)高斯曲線來匹配不同方向的血管。每30°旋轉(zhuǎn)一次,得到從0°~180°的6個匹配濾波器,再分別與經(jīng)過CLAHE處理后的圖像進(jìn)行卷積,選擇其中最大的卷積值作為增強(qiáng)圖像的像素值。
最后,將經(jīng)過CLAHE處理之后的圖像減去經(jīng)過CLAHE、二維高斯匹配濾波后的圖像,即可得到最終的預(yù)處理結(jié)果。
1.2 基于PCNN的視網(wǎng)膜血管分割
脈沖耦合神經(jīng)網(wǎng)絡(luò) (PCNN ,Pulse Coupled Neutral Network)[5]是20世紀(jì)90年代形成和發(fā)展的與傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)有著根本不同的新型神經(jīng)網(wǎng)絡(luò),其模型直接來源于高級哺乳動物的視覺神經(jīng)系統(tǒng),具有現(xiàn)實(shí)的生物學(xué)依據(jù),在圖像處理與分析及計(jì)算機(jī)視覺領(lǐng)域中有著廣泛應(yīng)用。它不僅能夠克服微小變化造成的影響,而且能夠較完整地保留圖像的區(qū)域信息。因此,使用PCNN進(jìn)行視網(wǎng)膜血管圖像分割具有一定優(yōu)勢。
本系統(tǒng)采用PCNN簡化模型對視網(wǎng)膜圖像血管自動分割,該模型不僅保持了原始模型的重要特性,而且減少了部分參數(shù)。用迭代公式可以描述為:
式中,Sij是外部刺激,即點(diǎn)(i,j)對應(yīng)像素的灰度值,F(xiàn)ij是神經(jīng)元的輸入項(xiàng),Lij、Uij、Yij、Eij分別是神經(jīng)元的耦合連接輸入、內(nèi)部活動項(xiàng)、脈沖輸出和動態(tài)閾值。VL為連接輸入域的放大系數(shù),β為神經(jīng)元之間的連接強(qiáng)度系數(shù),VE和αE分別為動態(tài)閾值的放大系數(shù)和衰減常數(shù)因子,W為連接加權(quán)系數(shù)矩陣。PCNN應(yīng)用于眼底圖像處理時,其神經(jīng)元數(shù)目與圖像像素?cái)?shù)目一致,各神元與像素一一對應(yīng),像素的灰度值作為對應(yīng)神經(jīng)元的輸入Sij。當(dāng)連接加權(quán)系數(shù)矩陣W所在鄰域內(nèi)有相似灰度值像素時,若其中某個神經(jīng)元點(diǎn)火產(chǎn)生脈沖輸出,會引起鄰域內(nèi)相近灰度值像素對應(yīng)的神經(jīng)元點(diǎn)火,產(chǎn)生脈沖序列輸出,這些輸出脈沖序列構(gòu)成的二值圖像Y即為輸出的分割圖像。
2 系統(tǒng)設(shè)計(jì)思路及方法
根據(jù)上述分割過程,將系統(tǒng)設(shè)計(jì)成兩大模塊,分別對應(yīng)于兩個界面,主界面為視網(wǎng)膜圖像預(yù)處理模塊,子界面為視網(wǎng)膜血管分割模塊。通過使用MATLAB GUIDE中的控件進(jìn)行布局和編寫相應(yīng)的回調(diào)函數(shù)來實(shí)現(xiàn)各模塊功能。
利用MATLAB GUI實(shí)現(xiàn)視網(wǎng)膜血管分割系統(tǒng)的過程可以分為GUI 圖形界面布局和GUI 程序?qū)崿F(xiàn)兩部分[6]。對于界面布局,首先要考慮窗口大小、控件位置以及界面所要實(shí)現(xiàn)的功能及各控件需要完成的任務(wù)。完成控件的布局之后,接著應(yīng)對控件屬性進(jìn)行設(shè)置,通過在相應(yīng)的控件上雙擊鼠標(biāo)左鍵,打開屬性查看器,設(shè)置該控件屬性。最后需要對各個控件進(jìn)行回調(diào)函數(shù)的編寫,這是界面設(shè)計(jì)的關(guān)鍵一步,直接影響界面各個功能的實(shí)現(xiàn)。
3 系統(tǒng)功能實(shí)現(xiàn)
3.1 視網(wǎng)膜圖像預(yù)處理模塊
視網(wǎng)膜圖像預(yù)處理模塊包括選擇圖片、選擇RGB通道、CLAHE增強(qiáng)處理、二維高斯匹配濾波處理以及最終預(yù)處理結(jié)果5個子模塊,如圖1所示。
具體操作如下:界面初始化后自動加載一幅默認(rèn)圖片,也可以由用戶選擇其它圖片;單擊“選擇圖片”按鈕,之后會彈出一個對話框,選擇要載入的圖片,可以看到圖片顯示在界面的左上角,文件名顯示在圖片正下方;然后選擇彩色通道,默認(rèn)為綠色通道,選擇的通道圖像顯示在右邊區(qū)域左上角。如果勾選 “生成掩膜”選項(xiàng),則后面的運(yùn)行結(jié)果均會顯示出單擊“生成掩膜”之后的圖像,默認(rèn)狀態(tài)為未勾選;接下來需要進(jìn)行CLAHE處理,以增強(qiáng)圖像對比度。在這里,主要是對adapthisteq函數(shù)中的參數(shù)進(jìn)行設(shè)置;最后單擊“運(yùn)行”按鈕,結(jié)果顯示在右邊區(qū)域的右上角。在進(jìn)行CLAHE處理之后,需要進(jìn)行二維高斯匹配濾波處理,主要是對濾波核個數(shù)、血管半徑及血管段長度進(jìn)行設(shè)置,以進(jìn)一步增強(qiáng)血管與背景的對比度;然后單擊“運(yùn)行”按鈕,結(jié)果顯示在右邊區(qū)域的左下角;單擊“最終預(yù)處理結(jié)果”按鈕,結(jié)果顯示在右邊區(qū)域的右下角。
3.2 視網(wǎng)膜血管分割模塊
視網(wǎng)膜血管圖像分割模塊主要是根據(jù)PCNN算法迭代原理,調(diào)節(jié)PCNN各個參數(shù),對視網(wǎng)膜血管圖像進(jìn)行分割,如圖2所示。
具體操作如下:單擊主界面中的“PCNN分割”按鈕,即可進(jìn)入視網(wǎng)膜血管分割模塊的界面;接著選擇所需PCNN模型和核,并設(shè)置核的半徑大小。若選擇“原始模型”,則需要設(shè)置PCNN的6個參數(shù),若選擇“改進(jìn)模型”,則只需設(shè)置PCNN的4個參數(shù);之后設(shè)置迭代次數(shù)和beta的值,單擊“運(yùn)行”按鈕,在彈出的對話框中,選擇一幅迭代圖片,將自動生成分割結(jié)果;對于分割后的結(jié)果,單擊“保存”按鈕,可以保存圖片;最后單擊“返回”按鈕,可以返回主界面。
4 結(jié)語
基于MATLAB 軟件在圖形繪制、數(shù)值運(yùn)算及可視化界面開發(fā)等方面的優(yōu)勢,在對視網(wǎng)膜眼底圖像中的血管預(yù)處理并運(yùn)用PCNN算法迭代原理進(jìn)行分割的基礎(chǔ)上,通過MATLAB GUI 設(shè)計(jì)完成了視網(wǎng)膜血管分割系統(tǒng),可以實(shí)現(xiàn)視網(wǎng)膜血管圖像的增強(qiáng)處理,進(jìn)而利用脈沖耦合神經(jīng)網(wǎng)絡(luò)方法對視網(wǎng)膜血管圖像進(jìn)行分割。本系統(tǒng)提供了一種有效的視網(wǎng)膜血管分割方法,在醫(yī)學(xué)圖像研究方面具有一定參考價值。同時,系統(tǒng)具有界面友好、操作簡單等特點(diǎn),為醫(yī)學(xué)圖像處理提供了一個操作方便的實(shí)驗(yàn)平臺。
參考文獻(xiàn):
[1] 姚暢,陳后金,李居朋. 基于過渡區(qū)提取的視網(wǎng)膜血管分割方法[J].電子學(xué)報(bào),2008,36(5):974-978.
[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序設(shè)計(jì)[J]. 電腦知識與技術(shù),2009,27(5):7767-7768.
[3] 陳萌夢,熊興良,張琰,等. 1種視網(wǎng)膜眼底圖像增強(qiáng)的新方法[J]. 重慶醫(yī)科大學(xué)學(xué)報(bào),2014,39(8):1087-1090.
[4] 姚暢,陳后金. 一種新的視網(wǎng)膜血管網(wǎng)絡(luò)自動分割方法[J].光電子?激光,2009,20(2):274-278.
前 言
雖然目前公眾媒體將無線通信炒的很熱,但這個領(lǐng)域從1897年馬可尼成功演示無線電波開始,已經(jīng)有超過一百年的歷史。到1901年就實(shí)現(xiàn)了跨大西洋的無線接收,表明無線通信技術(shù)曾經(jīng)有過一段快速發(fā)展時期。在之后的幾十年中,眾多的無線通信系統(tǒng)生生滅滅。
20世紀(jì)80年代以來,全球范圍內(nèi)移動無線通信得到了前所未有的發(fā)展,與第三代移動通信系統(tǒng)(3g)相比,未來移動通信系統(tǒng)的目標(biāo)是,能在任何時間、任何地點(diǎn)、向任何人提供快速可靠的通信服務(wù)。因此,未來無線移動通信系統(tǒng)應(yīng)具有高的數(shù)據(jù)傳輸速度、高的頻譜利用率、低功耗、靈活的業(yè)務(wù)支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實(shí)現(xiàn)信息傳輸?shù)?。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴(kuò)展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經(jīng)常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術(shù)還需要克服時變性和干擾本文由收集由于這個原因,無線通信中的信道建模以及調(diào)制編碼方式都有所不同。
1.無線數(shù)字通信中盲源分離技術(shù)分析
盲源分離(bss:blind source separation),是信號處理中一個傳統(tǒng)而又極具挑戰(zhàn)性的問題,bss指僅從若干觀測到的混合信號中恢復(fù)出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統(tǒng)特性事先未知這兩個方面。在科學(xué)研究和工程應(yīng)用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨(dú)立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數(shù)據(jù)分析的有力工具,而bss比ica適用范圍更寬。目前國內(nèi)對盲信號分離問題的研究,在理論和應(yīng)用方面取得了很大的進(jìn)步,但是還有很多的問題有待進(jìn)一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計(jì),盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強(qiáng)大的信號處理方法,在生物醫(yī)學(xué)信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領(lǐng)域得到了廣泛的應(yīng)用。
根據(jù)源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。
1.1 線性瞬時混合盲源分離
線性瞬時混合盲源分離技術(shù)是一項(xiàng)產(chǎn)生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術(shù),該技術(shù)的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應(yīng)而被人們提出的,雞尾酒會效應(yīng)指的是雞尾酒會上,有音樂聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當(dāng)某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應(yīng),或者朝 說話人望去,或者注意說話人下面說的話等。該效應(yīng)實(shí)際上是聽覺系統(tǒng)的一種適應(yīng)能力。當(dāng)盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術(shù)是對線性無記憶系統(tǒng)的反應(yīng),它是將n個源信號在線性瞬時取值混合后,由多個傳感器進(jìn)行接收的分離模型。
20世紀(jì)八、九十年代是盲源技術(shù)迅猛發(fā)展的時期,在1986年由法國和美國學(xué)者共同完了將兩個相互獨(dú)立的源信號進(jìn)行混合后實(shí)現(xiàn)盲源分離的工作,這一工作的成功開啟了盲源分離技術(shù)的發(fā)展和完善。在隨后的數(shù)十年里對盲源技術(shù)的研究和創(chuàng)新不斷加深,在基礎(chǔ)理論的下不斷有新的算法被提出和運(yùn)用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學(xué)者首次將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到盲源分離問題當(dāng)中,為盲源分離提出了一個比較完整的數(shù)學(xué)框架。到了1995年在神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)上盲源分離技術(shù)有了突破性的進(jìn)展,一種最大化的隨機(jī)梯度學(xué)習(xí)算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術(shù)的發(fā)展進(jìn)程。
1.2 線性卷積混合盲源分離
相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復(fù)雜。在線性瞬時混合盲源分離技術(shù)不斷發(fā)展應(yīng)用的同時,應(yīng)用中也有無法準(zhǔn)確估計(jì)源信號的問題出現(xiàn)。常見的是在通信系統(tǒng)中的問題,通信系統(tǒng)中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發(fā)生相對運(yùn)動,或是交通工具發(fā)生的運(yùn)動都會使得源信號在通信環(huán)境中出現(xiàn)時間延遲的現(xiàn)象,同時還造成信號疊加,產(chǎn)生多徑傳輸。正是因?yàn)檫@樣問題的出現(xiàn),使得觀測信號成為源信號與系統(tǒng)沖激響應(yīng)的卷積,所以研究學(xué)者將信道環(huán)境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。
1.3 非線性混合盲源分離
非線性混合盲源分離技術(shù)是盲源分離技術(shù)中發(fā)展、研究最晚的一項(xiàng),許多理論和算法都還不算成熟和完善。在衛(wèi)星移動通信系統(tǒng)中或是麥克風(fēng)錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術(shù)受到社會各界的廣泛關(guān)注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數(shù)化方法、非參數(shù)化方法、高斯化方法來抵消和補(bǔ)償非線性特征。
2.無線通信技術(shù)中的盲源分離技術(shù)
在無線通信系統(tǒng)中通信信號的信號特性參數(shù)復(fù)雜多變,實(shí)現(xiàn)盲源分離算法主要要依據(jù)高階累積量和峭度兩類參數(shù)。如圖一所示,這是幾個常見的通信信號高階累積量。
在所有的通信系統(tǒng)中,接收設(shè)備處總是會出現(xiàn)白色或是有色的高斯噪聲,以高階累積量為準(zhǔn)則的盲源分離技術(shù)在處理這一問題時穩(wěn)定性較強(qiáng),更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準(zhǔn)則的盲源分離算法在通信系統(tǒng)中優(yōu)勢明顯。
分離的另一個判據(jù)就是峭度,它是反映某個信號概率密度函數(shù)分布情況與高斯分布的偏離程度的函數(shù)。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。
關(guān)鍵詞:人工智能 心血管 超聲
大數(shù)據(jù)是現(xiàn)代醫(yī)學(xué)模式的重要特征。在這種醫(yī)療模式下,要求醫(yī)療人員在確?;颊甙踩徒】档耐瑫r追求效率的最大化[1]。對于高分辨率的醫(yī)學(xué)影像成像,集中體現(xiàn)在醫(yī)務(wù)人員快速、準(zhǔn)確、有效地解釋影像數(shù)據(jù)(包括肉眼可見和不可見),挖掘利于診斷和治療的有用信息。在此背景下,人工智能(artificial intelligence,AI)應(yīng)運(yùn)而生,它為促進(jìn)圖像采集、測量、報(bào)告和隨后的臨床路徑以及影像和臨床數(shù)據(jù)的整合提供了有效手段[2]。心血管影像的精確性成為AI臨床應(yīng)用中的主要領(lǐng)域之一,本文對此作一綜述。
1 人工智能及其在醫(yī)學(xué)上的應(yīng)用
AI是一個廣義的術(shù)語,指的是機(jī)器或計(jì)算程序執(zhí)行具有人類智能特征的任務(wù)的能力,如模式識別和解決問題的能力等。AI可以通過彌補(bǔ)人類智能,使現(xiàn)有醫(yī)療診斷和預(yù)后價值最大化,同時使醫(yī)師負(fù)擔(dān)最小化,從而顯著改善健康診療過程和結(jié)果。AI在臨床實(shí)踐中的應(yīng)用預(yù)示著醫(yī)學(xué)領(lǐng)域一個更為劇烈變化時代的到來,在影像學(xué)方面尤其如此。一項(xiàng)通過分析科學(xué)網(wǎng)數(shù)據(jù)庫的研究[3]發(fā)現(xiàn),目前AI在醫(yī)學(xué)的研究領(lǐng)域主要集中在大數(shù)據(jù)分析、腦卒中康復(fù)、心臟手術(shù)和醫(yī)療診斷和預(yù)后預(yù)測等方面。其中,用于醫(yī)學(xué)診斷、預(yù)后預(yù)測和分類的神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)是主要熱點(diǎn),占所有文獻(xiàn)的26%;而未來最引人關(guān)注的研究主題是基于AI的微創(chuàng)手術(shù)。然而,關(guān)于AI數(shù)據(jù)管理、模型可靠性、模型臨床效用驗(yàn)證等問題尚未進(jìn)行廣泛研究。
2 人工智能的機(jī)器學(xué)習(xí)法
大數(shù)據(jù)是一個經(jīng)常用來描述大量收集數(shù)據(jù)的術(shù)語,如來自大型生物信息庫的基因組數(shù)據(jù)、電子健康記錄檔案和大型研究隊(duì)列數(shù)據(jù)以及影像學(xué)掃描數(shù)據(jù)等。AI系統(tǒng)通過識別和提取一組觀測數(shù)據(jù)(數(shù)據(jù)集)的模式來自主獲取知識的過程稱為機(jī)器學(xué)習(xí)(machine learning,ML)。ML是人工智能的一個組成部分,描述為計(jì)算機(jī)從經(jīng)驗(yàn)中學(xué)習(xí)的過程,并在沒有事先知識的情況下執(zhí)行預(yù)定的任務(wù)[4]。機(jī)器學(xué)習(xí)可以進(jìn)一步分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),這取決于用于學(xué)習(xí)的樣本是否完全標(biāo)記、部分標(biāo)記或未標(biāo)記。ML的典型例子是人工神經(jīng)網(wǎng)絡(luò),后者基于人類大腦的神經(jīng)元及其連接,神經(jīng)元之間的相互依賴關(guān)系反映出不同的權(quán)重,每個神經(jīng)元接受多個輸入,所有的輸入一起決定了神經(jīng)元的激活。通過樣本訓(xùn)練找到這些合適權(quán)重的過程就是學(xué)習(xí)。學(xué)習(xí)過程的復(fù)雜性和所需的樣本量隨著神經(jīng)元數(shù)量的增加而增加。由于計(jì)算能力和樣本大小的限制,機(jī)器學(xué)習(xí)應(yīng)用程序的成功依賴于從原始樣本中手工提取特征來減少神經(jīng)元的數(shù)量。為了解決這一問題,人們提出了深度學(xué)習(xí)的方法,即自動學(xué)習(xí)代表性的樣本。深度學(xué)習(xí)是指一種特別強(qiáng)大的ML方法,它利用卷積神經(jīng)網(wǎng)絡(luò)模擬人類的認(rèn)知,常用于影像模式識別和分類。
模型訓(xùn)練是所有ML類型的共同過程,它是利用模型分析所提供的數(shù)據(jù)中的各種特性來學(xué)習(xí)如何生成輸出標(biāo)簽的過程[5]。如在超聲心動圖中,一個模型可以分析各種特征,如左心室壁厚度和左心室射血分?jǐn)?shù),以確定患者是否具有特定的條件。然而,在分析中包含不相關(guān)的特征可能會導(dǎo)致模型過度擬合,從而在呈現(xiàn)新數(shù)據(jù)集時降低其準(zhǔn)確性。這強(qiáng)調(diào)了擁有一個能夠代表總體的訓(xùn)練數(shù)據(jù)集的重要性。數(shù)據(jù)集的質(zhì)量對于最終ML模型的質(zhì)量至關(guān)重要。盡管ML算法可以使用小數(shù)據(jù)集或大數(shù)據(jù)集進(jìn)行訓(xùn)練,但大數(shù)據(jù)集可以最大限度地提高訓(xùn)練算法的內(nèi)部和外部有效性,降低過度擬合的風(fēng)險。正確模型的選擇通常取決于操作員的專業(yè)知識、數(shù)據(jù)集的性質(zhì)和最終人工智能系統(tǒng)的目的。
3 人工智能在心血管超聲的應(yīng)用
心血管成像領(lǐng)域,包括超聲心動圖、心臟計(jì)算機(jī)斷層掃描、心臟磁共振成像和核成像,具有復(fù)雜的成像技術(shù)和高容量的成像數(shù)據(jù),處于精準(zhǔn)心臟病學(xué)革命的前沿。然而,在基于AI的臨床轉(zhuǎn)化方法中,心血管成像一直落后于腫瘤學(xué)等其他領(lǐng)域。人工智能在超聲心動圖中的應(yīng)用包括自動心室定量和射血分?jǐn)?shù)計(jì)算、應(yīng)變測量和瓣膜形態(tài)及功能評估以及ML在心臟疾病自動診斷中的應(yīng)用。
3.1 心室定量和EF自動化。
自動心室量化和EF計(jì)算的算法旨在提供準(zhǔn)確、快速和可重復(fù)的心尖視圖分類、解剖標(biāo)志檢測、心室壁分割和心內(nèi)膜跟蹤。有研究[6]比較了AI軟件自動測量(AutoEF)和手工追蹤雙平面Simpson法測量左室EF的準(zhǔn)確性,并與心臟MRI進(jìn)行了比較。結(jié)果表明AutoEF與手動雙平面Simpson法測得的EF相關(guān)性較好,且與MRI相關(guān)性良好,但AutoEF低估了左室舒張末期容積(EDV)和收縮期末期容積(ESV)。此外,在不同切面,測量的準(zhǔn)確性存在差異,以胸骨旁長軸切面的準(zhǔn)確性最高,達(dá)96%,而在心尖切面時整體精度降低(84%)。腔室定量和左室EF測量的中位數(shù)絕對偏差在15%~17%,其中ESV的絕對偏差最?。蛔蠓咳莘e和左室EDV被高估。
3.2 心肌運(yùn)動和應(yīng)變測量。
Kusunose等[7]研究發(fā)現(xiàn)與傳統(tǒng)二維超聲心動圖相比,利用深度卷積神經(jīng)網(wǎng)絡(luò)可更好的檢測區(qū)域壁運(yùn)動異常并區(qū)分冠狀動脈梗死區(qū)域。Cikes等[8]利用復(fù)雜超聲心動圖數(shù)據(jù)(整個心動周期的左室容積和變形數(shù)據(jù),而不是單個數(shù)據(jù)點(diǎn))和臨床參數(shù)的ML算法識別心衰并對心臟再同步化治療的反應(yīng)進(jìn)行評估,證實(shí)通過整合臨床參數(shù)和全心周期成像數(shù)據(jù),無監(jiān)督的ML可以為表型異質(zhì)性心力衰竭隊(duì)列提供一個有臨床意義的分類,并可能有助于優(yōu)化特定治療的反應(yīng)率。另有研究證實(shí)[9-10],ML算法有助于區(qū)分縮窄性心包炎、限制性心肌病以及肥厚性心肌的重塑。Zhang等[11]采用AI軟件和手工勾畫對左室心肌的縱向應(yīng)變進(jìn)行了比較研究。發(fā)現(xiàn)AI自動測量的心肌全局縱向應(yīng)變與手動應(yīng)變變化最?。ń^對值為1.4%~1.6%)。
3.3 心臟瓣膜評估。
有學(xué)者[12]采用AI軟件對二尖瓣幾何形狀進(jìn)行測量,測量參數(shù)包括二尖瓣環(huán)面積、瓣環(huán)高度和寬度、瓣葉連合間距、前后葉長度等。發(fā)現(xiàn)相對于常規(guī)超聲心動圖,所有評估的成像參數(shù)均獲得了更好的觀察者間一致性,而且所花費(fèi)的時間明顯較少。Prihadi等[13]研究證實(shí),經(jīng)食管超聲心動圖AI軟件能夠精確地對主動脈瓣結(jié)構(gòu)以及冠狀動脈開口進(jìn)行測量和定位,且與多層螺旋CT的測量結(jié)果具有良好的相關(guān)性。
4 展望
在海量醫(yī)學(xué)信息和影像數(shù)字化日益積累的現(xiàn)代醫(yī)學(xué)時代,AI和ML為疾病診斷和風(fēng)險預(yù)測等問題提供了新的解決方案。通過AI對超聲心動圖數(shù)據(jù)進(jìn)行預(yù)測、建模和精確分析,可以幫助超聲醫(yī)師快速、準(zhǔn)確地處理大量心臟超聲影像學(xué)數(shù)據(jù),既有利于應(yīng)對當(dāng)前醫(yī)療信息數(shù)量的急劇增長,又有利于提高處理數(shù)據(jù)信息的能力。未來,針對AI的研究應(yīng)關(guān)注超聲圖像數(shù)據(jù)特征定義及其提取方法的標(biāo)準(zhǔn)化,以確??赏茝V性和可再現(xiàn)性,促進(jìn)AI向更加個性化的醫(yī)療模式轉(zhuǎn)變。此外,AI系統(tǒng)與遠(yuǎn)程醫(yī)療等軟件的集成,將使智能心臟超聲診斷系統(tǒng)滲透到資源消耗負(fù)擔(dān)最繁重的地區(qū),提高經(jīng)濟(jì)效益。
參考文獻(xiàn)
[1]Oikonomou EK,Siddique M,Antoniades C.Artificial intelligence in medical imaging:A radiomic guide to precision phenotyping of cardiovascular disease[J].Cardiovasc Res,2020,Feb 24;cvaa021.
[2]Dey D,Slomka PJ,Leeson P,et al.Artificial Intelligence in Cardiovascular Imaging:JACC State-of-the-Art Review[J].J Am Coll Cardiol,2019,73(11):1317-1335.
[3]Tran BX,Latkin CA,Vu GT,et al.The Current Research Landscape of the Application of Artificial Intelligence in Managing Cerebrovascular and Heart Diseases:A Bibliometric and Content Analysis[J].Int J Environ Res Public Health,2019,16(15):2699.
[4]Gandhi S,Mosleh W,Shen J,et al.Automation,machine learning,and artificial intelligence in echocardiography:A brave new world[J].Echocardiography,2018,35(9):1402-1418.
[5]Alsharqi M,Woodward WJ,Mumith JA,et al.Artificial intelligence and echocardiography[J].Echo Res Pract,2018,5(4):R115-R125.
[6]Xu B,KocyigitD,Grimm R,et al.Applications of artificial intelligence in multimodality cardiovascular imaging:A state-of-theart review[J].Prog Cardiovasc Dis,2020,19;S0033-0620(20)30060-8.
[7]Kusunose K,Abe T,Haga A,et al.A Deep Learning Approach for Assessment of Regional Wall Motion Abnormality From Echocardiographic Images[J].JACC Cardiovasc Imaging,2020,13(2 Pt 1):374-381.
[8]Cikes M,Sanchez-Martinez S,Claggett B,et al.Machine learningbased phenogrouping in heart failure to identify responders to cardiac resynchronization therapy[J].Eur J Heart Fail,2019,21(1):74-85.
[9]Narula S,Shameer K,Salem Omar AM,et al.Machine-Learning Algorithms to Automate Morphological and Functional Assessments in 2D Echocardiography[J].J Am Coll Cardiol,2016,68(21):2287-2295.
[10]Sengupta PP,Huang YM,Bansal M,et al.Cognitive machine-learning algorithm for cardiac imaging:a pilot study for differentiating constrictive pericarditis from restrictive cardiomyopathy[J].Circ Cardiovasc Imaging 2016,9(6):e004330.
[11]Zhang J,Gajjala S,Agrawal P,et al.Fully automated echocardiogram interpretation in clinical practice[J].Circulation,2018,138(16):1623-1635.
關(guān)鍵詞:信息融合;多傳感器;移動機(jī)器人;定位
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)04-0171-02
The Study of Multi-sensor Information Fusion bested on Localization of Mobile Robot
FAN Chun-mei
(Shaoguan University, Shaoguan 512026, China)
Abstract:Robot localization is one of the most important issues to tackle in navigation. In order to meet the requirement of accurate localization,a localization method based on multi-sensor information fusion is proposed.The advantage and the method of theory of multi-sensor information fusion technology in detail is described in text, especially it gives an in-depth discussion to comparition of technologies. At last, future development trends of this technology are also presented.
Key words: mobile robot; multiCsensor; information fusion; location
1 引言
智能移踴器人是能夠通過傳感器控制行為與執(zhí)行命令,感知環(huán)境,感知自身狀態(tài)等的機(jī)器人系統(tǒng)。它的定位技術(shù)研究的是創(chuàng)建地圖、同步定位、路徑規(guī)劃等。
移動機(jī)器人定位技術(shù)除了可以利用傳感器確定機(jī)器人的位置信息,周圍環(huán)境信息,還可以采用信息融合算法通過對信息整合后確定目的地,根據(jù)所建立的模型找出合適的路徑。
由于移動機(jī)器人技術(shù)在多個領(lǐng)域占據(jù)舉足輕重的地位,如:遙感,工業(yè),醫(yī)療系統(tǒng),金融系統(tǒng),外星探測等。本文指出定位技術(shù)的優(yōu)越性,對定位技術(shù)的常用方法進(jìn)行詳細(xì)對比,并進(jìn)一步地探討其發(fā)展趨勢。
2 信息融合基本概念及優(yōu)越性
信息融合可定義為:利用計(jì)算機(jī)技術(shù)對多個和/或多類傳感器信息按一定準(zhǔn)則加以協(xié)調(diào)管理、自動分析、優(yōu)化綜合以完成目標(biāo)檢測識別、態(tài)勢描述、威脅評估、判斷決策等任務(wù)而進(jìn)行的信息處理以及傳感器與數(shù)據(jù)庫的管理過程。
信息融合技術(shù)從理論結(jié)合實(shí)際出發(fā),在多個領(lǐng)域的應(yīng)用中體現(xiàn)了它無可厚非的優(yōu)越性:增加系統(tǒng)的生存能力,改善系統(tǒng)的可靠性,擴(kuò)展時間、空間覆蓋范圍,信息處理速度快,提升系統(tǒng)對抗性能,信息獲取成本低等。
3 基于多傳感器的信息融合技術(shù)的理論方法
3.1 多傳感器信息融合技術(shù)的常用方法
3.2 信息融合技術(shù)的比較
3.2.1 加權(quán)平均法
優(yōu)點(diǎn):實(shí)現(xiàn)簡單,運(yùn)算量小。
缺點(diǎn):在不同的傳感器能夠獨(dú)立進(jìn)行定位時才有效,應(yīng)用受限制。
3.2.2 Bayes推理方法
優(yōu)點(diǎn):Bayes網(wǎng)絡(luò)推斷有許多精確方法和近似方法,參數(shù)自適應(yīng)和結(jié)構(gòu)自適應(yīng)方法。
缺點(diǎn):所有要求的數(shù)據(jù)都必須是獨(dú)立的,會給系統(tǒng)造成比較大的困難;在系統(tǒng)中增減一個規(guī)則時,需要重新計(jì)算所有的概率,才能保證系統(tǒng)的相關(guān)性和一致性。
3.2.3 Kalman濾波
優(yōu)點(diǎn): 可以估計(jì)平穩(wěn)的一維隨機(jī)過程和非平穩(wěn)的多維隨機(jī)過程,適合于實(shí)時處理并可減少實(shí)時在線計(jì)算量。它被廣泛應(yīng)用于制導(dǎo)系統(tǒng)、定位系統(tǒng)、通遙感、金融等。
缺點(diǎn):只適用于線性系統(tǒng),并且要求觀測方程也必須是線性的。
3.2.4 擴(kuò)展Kalman 濾波
優(yōu)點(diǎn):1)計(jì)算速度快,存儲量低,在工程應(yīng)用方面有明顯的優(yōu)勢;2)在高斯白噪聲且非線性強(qiáng)度低的環(huán)境中,算法穩(wěn)定、收斂速度較快、估計(jì)精度較高;
缺點(diǎn):1)需要計(jì)算雅可比矩陣,而且在非線性強(qiáng)度大的環(huán)境中,線性化容易增大,估計(jì)精度會明顯下降,甚至發(fā)散;2)當(dāng)初始狀態(tài)相對誤差較大時,擴(kuò)展Kalman濾波很不穩(wěn)定、收斂速度慢、估計(jì)精度較高;3)在復(fù)雜的非高斯環(huán)境中,擴(kuò)展Kalman濾波算法也不適用。
3.2.5 Unscented 濾波
優(yōu)點(diǎn):1)對于非線性系統(tǒng),與擴(kuò)展Kalman濾波比較起來,Unscented 濾波不需要計(jì)算矩陣的雅可比式,計(jì)算簡單且更容易實(shí)現(xiàn);2)對高斯型密度函數(shù)可以精確估計(jì)到三階,對非高斯型密度函數(shù)可以精確估計(jì)到二階,因此其估計(jì)精度比一階擴(kuò)展 Kalman濾波更高,和二階擴(kuò)展 Kalman濾波相同。
缺點(diǎn):濾波穩(wěn)定性有待提高。
3.2.6 Dempster-Shafer證據(jù)推理
優(yōu)點(diǎn):可以不需要先驗(yàn)概率和條件概率密度,對于不確定性問題能夠很好地表示及處理。
缺點(diǎn):組合爆炸問題;有限辨識框架及證據(jù)體獨(dú)立性問題;高沖突證據(jù)組合問題[1]。
3.2.7 模糊邏輯
優(yōu)點(diǎn): 不需要建立精確的數(shù)學(xué)模型;具有較強(qiáng)的魯棒性;控制器成本低且容易操作。
缺點(diǎn): 獲取和建立模糊規(guī)則,模糊建模不容易得到有效解決;對于模糊控制器的參數(shù)和結(jié)構(gòu),也不容易依據(jù)系統(tǒng)綜合指標(biāo)來設(shè)計(jì)。
3.2.8 產(chǎn)生式規(guī)則
優(yōu)點(diǎn):自然性,模塊性,有效性與清晰性。
缺點(diǎn):規(guī)則之間的相互限制有可能使效率降低;結(jié)構(gòu)性知識不能表達(dá)出來;不提供實(shí)際解釋。
3.2.9 小波變換
優(yōu)點(diǎn):1)滿足能量守恒方程的線形運(yùn)算,2)小波變換相當(dāng)于一個具有放大、縮小和平移等功能的數(shù)學(xué)顯微鏡,通過檢查不同放大倍數(shù)下信號的變化來研究其動態(tài)特性;3)小波變換是穩(wěn)定的,是一個信號的冗余表示。具有統(tǒng)一性和相似性,其正反變換具有完美的對稱性。小波變換具有基于卷積和QMF的塔形快速算法。
缺點(diǎn):在不同尺度上得到的逼近信號特征之間存在差異,小波變換時采用以個基函數(shù)導(dǎo)出的小波函數(shù)難以在不同尺度上準(zhǔn)確地逼近局部信號特征,因此降噪預(yù)處理時的重構(gòu)信號會丟失原有的時域特征[2]。
3.2.10 人工神經(jīng)網(wǎng)絡(luò)方法
優(yōu)點(diǎn):泛化能力強(qiáng),穩(wěn)定性高,容錯性好,快速有效[1]。
4 信息融合技術(shù)的研究結(jié)果
加權(quán)平均法在單傳感器系統(tǒng)中應(yīng)用更具有優(yōu)越性;Kalman濾波,Unscented濾波能夠有效解決圖像融合以及圖像與非圖像信息融合等技術(shù)研究上的熱點(diǎn);小波變換對于提高融合精度具有可實(shí)現(xiàn)性;模糊邏輯,人工神經(jīng)網(wǎng)絡(luò)可以很好地提高Kalman濾波算法的魯棒性; Dempster- Shafer有效解決 Bayes方法的多種弊端,可以看成是 Bayes方法的改進(jìn)與延伸,多種方法的分工合作與相互補(bǔ)充能很好的提高機(jī)器人系統(tǒng)的性能,因此,實(shí)現(xiàn)多種方法間優(yōu)勢的結(jié)合能讓機(jī)器人定位技術(shù)取得理想的效果。
5 信息融合研究的難點(diǎn)問題
信息可否融合的準(zhǔn)則及降低二義性的方法有待于解決;因主動輻射增多,系統(tǒng)總體易暴露; 獲取基本概率賦值和系統(tǒng)的建立與管理是信息融合系統(tǒng)的設(shè)計(jì)難點(diǎn);等等。
6 發(fā)展趨勢
由于并行體結(jié)構(gòu)是傳感器結(jié)構(gòu)的發(fā)展方向,因此,多傳感器信息融合技術(shù)的發(fā)展趨勢之一是并行計(jì)算能力的軟、硬件的開發(fā)及應(yīng)用。 由于多傳感器信息融合算法大多集中于平穩(wěn)隨機(jī)過程,而且是線性分布的,因此,提高系統(tǒng)性能,研究并改進(jìn)算法,以便于實(shí)現(xiàn)非平穩(wěn)、非線性分布的信息融合算法。目前,基于多傳感器信息融合的移動機(jī)器人主要實(shí)現(xiàn)了室內(nèi)環(huán)境的定位與導(dǎo)航。關(guān)于傳感器的布置,系統(tǒng)的建立與管理,行駛路線的規(guī)劃以及機(jī)器人的自定位等方面仍需要更進(jìn)一步的研究,尤其是移動機(jī)器人在非室內(nèi)環(huán)境中的定位技術(shù)更是今后的研究方向。
參考文獻(xiàn):
關(guān)鍵詞:圖像識別;OCR;題庫采集;移動終端;特征建模
中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 論文編號:1674-2117(2016)12-0075-04
采集題庫的現(xiàn)狀
隨著經(jīng)濟(jì)和社會的發(fā)展、“互聯(lián)網(wǎng)+”的廣泛應(yīng)用及教育觀念的更新,我們迫切需要科學(xué)、方便、完善的網(wǎng)絡(luò)型題庫管理系統(tǒng)。試題庫建設(shè)是教育現(xiàn)代化的需要,是考教分離、最大限度提高辦學(xué)效益的需要,因此,進(jìn)行區(qū)域網(wǎng)絡(luò)試題庫系統(tǒng)的建設(shè)和研究具有十分重要的意義。
受限于教材版本和區(qū)域應(yīng)用層面的需求,采購商業(yè)化的題庫并不能完全滿足教育教學(xué)的實(shí)際要求。手握大量紙質(zhì)試卷的老師們,迫切需要一個錄入神器,方便快捷地將其錄入到題庫系統(tǒng)里。
利用基于移動終端的圖像文字識別技術(shù)將文字和圖片迅速錄入題庫是我們在移動端系統(tǒng)開發(fā)的應(yīng)用亮點(diǎn)。它能夠大幅提高對質(zhì)量不高圖像的識別率,其關(guān)鍵算法對圖像的噪聲、亮度明暗不一致和規(guī)格凌亂的問題進(jìn)行了很好的處理。它能夠?qū)D像上傳到服務(wù)器進(jìn)行在線識別,在識別過程中先對圖像進(jìn)行消噪,然后對亮度進(jìn)行均衡處理及對圖像閾值分割,提高了圖像識別的成功率。
題庫采集系統(tǒng)工作流程
題庫采集主要分為圖像采集、圖像識別和標(biāo)注三個過程。整體的工作流程包括:①系統(tǒng)啟動,進(jìn)入主界面,可選擇開始拍攝閱卷或讀取設(shè)備中已有的圖像,如選擇拍攝題目,進(jìn)入圖像采集模塊,調(diào)用移動設(shè)備的攝像頭進(jìn)行拍攝,拍攝成功后,跳轉(zhuǎn)至識別界面,如選擇讀取相冊已有圖像也跳轉(zhuǎn)至識別界面。②在識別界面上顯示出拍攝或者讀取的相冊圖像,首先調(diào)用圖像預(yù)處理模塊對圖像進(jìn)行預(yù)處理,輸出預(yù)處理后的圖像,然后調(diào)用圖像校正模塊對預(yù)處理圖像進(jìn)行校正,輸出校正圖像,最后調(diào)用圖像識別模塊對校正圖像進(jìn)行識別,輸出識別結(jié)果。③調(diào)用標(biāo)注模塊對識別結(jié)果進(jìn)行分類管理,為題目添加系統(tǒng)屬性,如學(xué)科、章節(jié)、知識點(diǎn)類目、題型、難度系數(shù)等標(biāo)簽。圖1為題庫采集系統(tǒng)工作流程示意圖。
OCR智能模型設(shè)計(jì)思路
在人工智能領(lǐng)域,模擬人類圖像識別活動的計(jì)算機(jī)程序,人們提出了不同的圖像識別模型――模板匹配模型。這種模型認(rèn)為,識別某個圖像,必須在過去的經(jīng)驗(yàn)中有這個圖像的記憶模式,又叫特征模型。當(dāng)前的刺激如果能與大腦中的模型相匹配,這個圖像也就被識別了。例如,有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。圖像識別中的模型識別(Pattern Recognition)利用計(jì)算機(jī)和數(shù)學(xué)推理的方法對形狀、模式、曲線、數(shù)字、字符格式和圖形自動完成識別、評價的過程。
那么如何通過模型的學(xué)習(xí)提高OCR的智能判斷水平呢?我們主要從以下三個方面做了實(shí)踐研究。
1.采集識別優(yōu)化
(1)二值化處理
二值圖像在數(shù)字圖像處理中占重要地位,其在處理實(shí)際圖像過程中地位更加突出。要應(yīng)用二值圖像,掃描文檔之后的第一步就是對灰度圖像根據(jù)所選閾值進(jìn)行二值化處理。二值圖像是像素值為0或255的像素點(diǎn)集合,如此一來,圖像的數(shù)據(jù)量大大減少,但圖像的基本輪廓信息得以保留。此項(xiàng)的關(guān)鍵是所選取的閾值是否得當(dāng),不當(dāng)則會減弱二值圖像的處理效果。常用的閾值選取方法有固定閾值法、平均閾值法、直方圖法、Means法四種。
谷歌公司在HP公司Tesseract光學(xué)字符識別引擎的基礎(chǔ)上做了深度加工,其中對閾值的自適應(yīng)分類器和兩步矯正法的應(yīng)用大大提高了文本的識別效率。近幾年來,百度針對商業(yè)運(yùn)用開發(fā)了自然場景OCR API服務(wù),依托百度的OCR算法,提供了整圖文字檢測、識別、整圖文字識別、整圖文字行定位和單字圖像識別等功能。目前火熱的作業(yè)幫APP就是基于百度識別API做的延伸產(chǎn)品(如圖2)。
(2)圖像去噪與矯正
任何一幅原始圖像,在其獲取和傳輸?shù)倪^程中,都會受到各種噪聲的干擾,使圖像質(zhì)量下降,淹沒其特征,對圖像分析非常不利。為抑制噪聲、改善圖像質(zhì)量所進(jìn)行的處理被稱為圖像平滑或去噪。
圖像平滑是用于突出圖像的寬大區(qū)域和主干部分(低頻部分)或抑制圖像噪聲和干擾(高頻部分),使圖像平緩漸變,減小突變梯度,改善圖像質(zhì)量的圖像處理方法。它屬于圖像增強(qiáng)的一部分,主要的圖像平滑方法有均值濾波、中值濾波、灰度形態(tài)學(xué)濾波、小波濾波、高斯低通濾波以及統(tǒng)計(jì)方法濾波。
已獲得的文本圖像有些不可避免地會發(fā)生傾斜,這樣會給后面文字的行切分和列切分以及文字的識別帶來困難,所以需要對獲取的圖像進(jìn)行傾斜校正。圖像的傾斜校正最關(guān)鍵的是傾斜角的檢測,我們主要采用平行四邊形法進(jìn)行文本圖像的校正(如圖3)。根據(jù)拍攝者給出的一系列文件位置點(diǎn),用位置點(diǎn)的坐標(biāo)結(jié)合模型擬合出文本線,根據(jù)文本線與水平線之間的差距進(jìn)行精確恢復(fù),以得到水平分布的文本行。
2.特征提取與建模
特征提取是圖像識別的重要步驟,為了保證后續(xù)處理的質(zhì)量,生成的特征要具備描述物體的典型特性,如獨(dú)特性、完整性、幾何變換下的不變性、靈敏性以及抽象性。我們設(shè)計(jì)的系統(tǒng)的特征模型包括文字特征、圖片特征、公式特征等。
提取圖像特征關(guān)系可以有兩種方法:一是對圖像進(jìn)行合理地分割,劃分出圖像中所包含的對象或區(qū)域,然后根據(jù)這些區(qū)域提取圖像特征,并建立索引;二是簡單地將圖像均勻地劃分為若干規(guī)則子塊,然后對每個圖像子塊提取特征,并建立索引。
圖像特征建模的基本原則是根據(jù)圖像的視覺內(nèi)容和可獲得的指導(dǎo)信息來確定對應(yīng)的文本語義描述。在圖像標(biāo)注任務(wù)中會涉及兩種不同的媒體:一是圖像,二是文本。這兩種媒體具有良好的互補(bǔ)性,可以協(xié)作傳遞信息,正所謂“圖文并茂”。由這兩種媒體可以產(chǎn)生4種關(guān)系,即圖像間關(guān)系(IIR)、詞間關(guān)系(WWR)、由圖像到詞的關(guān)系(IWR)和由詞到圖像的關(guān)系(IR)。
3.基于標(biāo)注模型的學(xué)習(xí)與訓(xùn)練
我們通常采用兩兩圖像之間的視覺相似性(pairwise similarity)來建立以圖像為節(jié)點(diǎn)的相似圖,但這種方式由于沒有考慮到數(shù)據(jù)集或某個數(shù)據(jù)子集內(nèi)的結(jié)構(gòu)分布信息,效果不能令人滿意。因此我們引入了第二個以詞為節(jié)點(diǎn)的圖學(xué)習(xí)過程,用來實(shí)現(xiàn)對圖像標(biāo)注的改善。
最常見的是屬性相關(guān)性,如“李白”是“古詩文”的關(guān)系。除此之外,詞匯之間還存在多種相關(guān)性,如“凸透鏡”與“光”之間有著很強(qiáng)的聯(lián)系,這種相關(guān)性不依賴于特定數(shù)據(jù)集,它是人們在生活中大量知識的積累和反映。當(dāng)一幅圖像已被標(biāo)為“凸透鏡”“光”等詞匯后,初中物理作為該圖像標(biāo)注詞匯的概率就會相應(yīng)提升。為了獲取這種相關(guān)信息,一種方法是從訓(xùn)練數(shù)據(jù)集中利用已標(biāo)注詞匯間的共生概率來計(jì)算詞匯間的關(guān)系。該方法基于已標(biāo)注信息,相對準(zhǔn)確,但它不能反映更廣義的人的知識。于是,我們可以采用另一種方法,利用具有大量詞匯的、包含了人的知識的結(jié)構(gòu)化電子詞典來計(jì)算詞匯間的關(guān)系。與統(tǒng)計(jì)方法相比,詞典包括了更加完整的大數(shù)據(jù)關(guān)聯(lián)信息。由此我們設(shè)計(jì)了基于標(biāo)注的模型學(xué)習(xí)體系(如下頁圖4),通過提取題目圖像的特征點(diǎn)綁定其隱形屬性,再與拍攝者提供的顯性屬性做比對,進(jìn)行數(shù)據(jù)建模,并引導(dǎo)系統(tǒng)修正其三大特征庫(文字、圖片、公式),實(shí)現(xiàn)自我學(xué)習(xí)。
需要注意的是,基于標(biāo)注信息描述由圖到標(biāo)簽的關(guān)系,更適合按照多標(biāo)記分類(multilabel classification)問題來解決。具體而言,假設(shè)標(biāo)注詞匯服從多項(xiàng)式分布,由此將圖像標(biāo)注歸為多類別分類問題,而題庫的分類方式恰恰符合這樣的多標(biāo)記模型(相對固定是顯性標(biāo)簽:學(xué)科、學(xué)段、知識點(diǎn)、章節(jié)、難度等)。
注意事項(xiàng)
1.基于API方式的接入能使產(chǎn)品得到快速開發(fā)
例如,當(dāng)前百度通過專業(yè)服務(wù)分發(fā)平臺APIStore開放百度文字識別技術(shù),讓開發(fā)者可以零成本使用基于移動應(yīng)用的OCR技術(shù),為開發(fā)者創(chuàng)新應(yīng)用提供了更多的選擇。
2.題庫特征建模要考慮學(xué)科特征
實(shí)踐證明,文科和理科的題目有著截然不同的特征屬性,如語文更注重詞匯與語法方面的訓(xùn)練,而數(shù)學(xué)包含了大量的公式和二維化的圖像。往往數(shù)學(xué)在小學(xué)和中學(xué)階段的題目也會表現(xiàn)出不同的特征屬性,在建模的同時要注意抽取。
3.未來的方向是要構(gòu)建基于題庫圖像模型的題庫推送規(guī)則
當(dāng)題庫的建構(gòu)達(dá)到一定數(shù)量之后,我們要將圖像和翻譯成的題目都保存下來,再根據(jù)拍攝者的需求做相關(guān)的推送,根據(jù)其使用的情況(如點(diǎn)擊率、評價等)再對模型進(jìn)行修正。
從目前的技術(shù)發(fā)展角度看,突破性來自于機(jī)器語言翻譯方面的研究成果:通過一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將一種語言的語句轉(zhuǎn)換成向量表達(dá),并采用第二個RNN將向量表達(dá)轉(zhuǎn)換成目標(biāo)語言的語句。而谷歌將以上過程中的第一種RNN用深度卷積神經(jīng)網(wǎng)絡(luò)CNN取代,這種網(wǎng)絡(luò)可以用來識別圖像中的物體。此種方法可以實(shí)現(xiàn)將圖像中的對象轉(zhuǎn)換成語句,對圖像場景進(jìn)行描述。概念雖然簡單,但實(shí)現(xiàn)起來十分復(fù)雜,科學(xué)家表示,目前實(shí)驗(yàn)產(chǎn)生的語句合理性不錯,但還遠(yuǎn)談不上“完美”,這項(xiàng)研究目前還處于起步階段。相信在不久的將來此項(xiàng)發(fā)明將應(yīng)用于教學(xué)領(lǐng)域,那么基于云模式下的圖像識別系統(tǒng)將得到一個質(zhì)的飛躍,它也將使圖像識別與深度學(xué)習(xí)更加緊密地聯(lián)系在一起,最終實(shí)現(xiàn)系統(tǒng)對互聯(lián)網(wǎng)上教育資源摘取和自學(xué)習(xí)的強(qiáng)大功能。
參考文獻(xiàn):
[1]黃明明.圖像局部特征提取及應(yīng)用研究[D].北京:北京科技大學(xué),2016.
[2]劉淼,楊鎮(zhèn)豪,謝韻玲,謝冬青,唐春明.Android圖文同步識別系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2014(06).
[3]李龍卓.基于形狀特征的圖像檢索技術(shù)研究[D].青島:青島科技大學(xué),2015.
[4]付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計(jì)算機(jī)工程與應(yīng)用,2015(05).
關(guān)鍵詞:麥克風(fēng)陣列,陣列信號處理,語音增強(qiáng)
(一)引言
在日常生活和工作中,語音通信是人與人之間互相傳遞信息溝通不可缺少的方式。近年來,雖然數(shù)據(jù)通信得到了迅速發(fā)展,但是語音通信仍然是現(xiàn)階段的主流,并且在通信行業(yè)中占主導(dǎo)地位。在語音通信中,語音信號不可避免地會受到來自周圍環(huán)境和傳輸媒介的外部噪聲、通信設(shè)備的內(nèi)部噪聲及其他講話者的干擾。這些干擾共同作用,最終使聽者獲得的語音不是純凈的原始語音,而是被噪聲污染過的帶噪聲語音,嚴(yán)重影響了雙方之間的交流。
應(yīng)用了陣列信號處理技術(shù)的麥克風(fēng)陣列能夠充分利用語音信號的空時信息,具有靈活的波束控制、較高的空間分辨率、高的信號增益與較強(qiáng)的抗干擾能力等特點(diǎn),逐漸成為強(qiáng)噪聲環(huán)境中語音增強(qiáng)的研究熱點(diǎn)。美國、德國、法國、意大利、日本、香港等國家和地區(qū)許多科學(xué)家都在開展這方面的研究工作,并且已經(jīng)應(yīng)用到一些實(shí)際的麥克風(fēng)陣列系統(tǒng)中,這些應(yīng)用包括視頻會議、語音識別、車載聲控系統(tǒng)、大型場所的記錄會議和助聽裝置等。
本文將介紹各種麥克風(fēng)陣列語音增強(qiáng)算法的基本原理,并總結(jié)各個算法的特點(diǎn)及存在的局限性。
(二)常見麥克風(fēng)陣列語音增強(qiáng)方法
1.基于固定波束形成的麥克風(fēng)陣列語音增強(qiáng)
固定波束形成技術(shù)是最簡單最成熟的一種波束形成技術(shù)。論文大全,陣列信號處理。論文大全,陣列信號處理。1985年美國學(xué)者Flanagan提出采用延時-相加(Delay-and-Sum)波束形成方法進(jìn)行麥克風(fēng)陣列語音增強(qiáng),該方法通過對各路麥克風(fēng)接收到的信號添加合適的延時補(bǔ)償,使得各路輸出信號在某一方向上保持同步,使在該方向的入射信號獲得最大增益[1]。此方法易于實(shí)現(xiàn),但要想獲取較高的噪聲抑制能力需要增加麥克風(fēng)數(shù)目,并且對非相干噪聲沒有抑制能力,環(huán)境適應(yīng)性差,因此,實(shí)際中很少單獨(dú)使用。后來出現(xiàn)的微分麥克風(fēng)陣列(DifferentialMicrophone Arrays),超方向麥克風(fēng)陣列(Superairective MicrophoneArrays)和固定頻率波束形成(Frequency-InvariantBeamformers)技術(shù)也屬于固定波束形成。
2.基于自適應(yīng)波束形成器的麥克風(fēng)陣列語音增強(qiáng)
自適應(yīng)波束形成是現(xiàn)在廣泛使用的一類麥克風(fēng)陣列語音增強(qiáng)方法。最早出現(xiàn)的自適應(yīng)波束形成算法是1972年由Frost提出的線性約束最小方差(LinearlyConstrained Minimum Variance, LCMV)自適應(yīng)波束形成器[2]。其基本思想是在某方向有用信號的增益一定的前提下,使陣列輸出信號的功率最小。在線性約束最小方差自適應(yīng)波束形成器的基礎(chǔ)上,1982年Griffiths和Jim提出了廣義旁瓣消除器(GeneralizedSidelobe Canceller, GSC)[3],成為了許多算法的基本框架(圖1)。
圖1 廣義旁瓣消除器的基本結(jié)構(gòu)
廣義旁瓣消除器是麥克風(fēng)陣列語音增強(qiáng)應(yīng)用最廣泛的技術(shù),帶噪聲的語音信號同時通過自適應(yīng)通道和非自適應(yīng)通道,自適應(yīng)通道中的阻塞矩陣將有用信號濾除后產(chǎn)生僅包含多通道噪聲參考信號,自適應(yīng)濾波器根據(jù)這個參考信號得到噪聲估計(jì),最后由這個被估計(jì)的噪聲抵消非自適應(yīng)通道中的噪聲分量,從而得到有用的純凈語音信號。
如果噪聲源的數(shù)目比麥克風(fēng)數(shù)目少,自適應(yīng)波束法能得到很好的性能。但是隨著干擾數(shù)目的增加和混響的增強(qiáng),自適應(yīng)濾波器的降噪性能會逐漸降低。
3.基于后置濾波的麥克風(fēng)陣列語音增強(qiáng)
1988年Zelinski將維納濾波器應(yīng)用在了麥克風(fēng)陣列延時—相加波束形成的輸出端,進(jìn)一步提高了語音信號的降噪效果,提出了基于后置濾波的麥克風(fēng)陣列語音增強(qiáng)方法[4](圖2)?;诤笾脼V波的方法在對非相干噪聲抑制方面,具有良好的效果,還能夠在一定程度上適應(yīng)時變的聲學(xué)環(huán)境。它的基本原理是:假設(shè)各麥克風(fēng)接收到的目標(biāo)信號相同,接收到的噪聲信號獨(dú)立同分布,信號和噪聲不相關(guān),根據(jù)噪聲特性,依據(jù)某一準(zhǔn)則實(shí)時更新濾波器權(quán)系數(shù),對所接收到數(shù)據(jù)進(jìn)行濾波,從而達(dá)到語音增強(qiáng)的目的。
圖2 結(jié)合后置濾波的固定波束形成器
后置濾波方法存在以下不足:首先,算法的性能受到時延誤差的影響,使增強(qiáng)后的語音信號有一定失真。其次,該方法對方向性的強(qiáng)干擾抑制效果不佳。后置濾波方法極少單獨(dú)使用,常與其他方法聯(lián)合使用。文獻(xiàn)[5]研究了后置濾波和通用旁瓣對消器結(jié)合使用的問題。論文大全,陣列信號處理。
4.基于近場波束形成的麥克風(fēng)陣列語音增強(qiáng)
當(dāng)聲源位于麥克風(fēng)陣列近場(即陣列的入射波是球面波)情況下,聲波的波前彎曲率不能被忽略,如果仍然把入射聲波作為平面波考慮,采用常規(guī)的波束形成方法來拾取語音信號,那么麥克風(fēng)陣列系統(tǒng)輸出效果會很不理想。解決這個問題,最直接的方法就是根據(jù)聲源位置和近場聲學(xué)的特性,對入射聲波進(jìn)行近場補(bǔ)償[6],但是這種方法需要已知聲源位置,這在實(shí)際應(yīng)用中難以是滿足。由于近場聲學(xué)的復(fù)雜性,目前有關(guān)近場波束形成麥克風(fēng)陣列語音增強(qiáng)方法的研究相對較少。
5.基于子空間的麥克風(fēng)陣列語音增強(qiáng)
子空間方法的基本思想是計(jì)算出信號的自相關(guān)矩陣或協(xié)方差矩陣,然后對其進(jìn)行奇異值分解,將帶噪聲語音信號劃分為有用信號子空間和噪聲子空間,利用有用信號子空間對信號進(jìn)行重構(gòu),從而得到增強(qiáng)后的信號。由Asano等提出的基于相干子空間的麥克風(fēng)陣列語音增強(qiáng)方法是一種典型的子空間方法[7]。該方法首先將語音信號劃分到不同頻帶,然后在每個頻帶再利用空間信息,進(jìn)行子空間處理。
基于子空間的麥克風(fēng)陣列語音增強(qiáng)方法雖然降噪性受噪聲場是否相關(guān)影響較小,在相干和非相干噪聲場中均有一定的消噪效果,但是由于計(jì)算量較大,實(shí)現(xiàn)實(shí)時處理具有一定困難。
6.基于盲源分離的麥克風(fēng)陣列語音增強(qiáng)
在很多實(shí)際應(yīng)用中,信號源情況和信道的傳遞參數(shù)都很難獲取,盲源分離技術(shù)(BlindSource Separation, BSS)就是在這種需求下提出的。盲源分離是根據(jù)輸入源信號和干擾的統(tǒng)計(jì)特性,從傳感器陣列接收到的混合信號中提取出各個獨(dú)立分量的過程。法國學(xué)者Herault.J和Jutten.C在信源與信道先驗(yàn)條件未知的情況下,利用人工神經(jīng)網(wǎng)絡(luò)分離出了有用信號,開創(chuàng)了盲源分離的先河[8]。目前為止,已有許多學(xué)者將盲源分離技術(shù)應(yīng)用于麥克風(fēng)陣列語音增強(qiáng)。論文大全,陣列信號處理。
經(jīng)過二十多年來國內(nèi)外學(xué)者的不斷深入研究,盲源分離技術(shù)已經(jīng)取得了巨大的進(jìn)步和發(fā)展,對盲信號分離問題的研究己經(jīng)從瞬時混迭模型擴(kuò)展成為線性卷積模型和非線性瞬時混迭模型,但是由于盲源分離仍屬一個新興的研究方向,理論上還不成熟,這類方法一般運(yùn)算量大,全局收斂性和漸進(jìn)穩(wěn)定性有待加強(qiáng),距離實(shí)際應(yīng)用有一段距離。
7.其他方法
90年代以來,一些學(xué)者將各種信號處理算法與麥克風(fēng)陣列技術(shù)相融合,各種語音增強(qiáng)算法不斷涌現(xiàn),諸如倒譜分析、小波變換、神經(jīng)網(wǎng)絡(luò)、語音模型等方法已經(jīng)在語音信號處理領(lǐng)域得到應(yīng)用。雖然這些方法從不同角度對語音增強(qiáng)系統(tǒng)的性能進(jìn)行了不同程度的改善,但大多計(jì)算量龐大,不適合時變性較強(qiáng)的聲學(xué)環(huán)境,而且在需要實(shí)時處理的場合,對硬件的要求也將大大提高。論文大全,陣列信號處理。
近些年國內(nèi)一些高校,如清華大學(xué),大連理工大學(xué),電子科技大學(xué),西安電子科技大學(xué)等也做了一些關(guān)于麥克風(fēng)陣列技術(shù)的研究工作,取得了一定的研究成果。張麗艷等提出一種改進(jìn)的麥克風(fēng)陣列倒譜域語音去混響方法,改善混響環(huán)境下的語音質(zhì)量[9]。崔瑋瑋等提出一種基于一階差分麥克風(fēng)陣列的實(shí)時噪聲譜估計(jì)和抵消方法,提高輸出信噪比的同時降低了計(jì)算量[10]。曾慶寧等將陣列交叉串?dāng)_信號的自適應(yīng)噪聲抵消方法應(yīng)用于麥克風(fēng)陣列語音增強(qiáng),適用于在多種噪聲環(huán)境中實(shí)時實(shí)現(xiàn)[11]。
(三)結(jié)論
語音信號增強(qiáng)是諸如智能控制、辦公自動化、多媒體消費(fèi)品等領(lǐng)域的關(guān)鍵技術(shù)之一,將麥克風(fēng)陣列技術(shù)應(yīng)用于語音增強(qiáng),能夠取得傳統(tǒng)單麥克風(fēng)難以達(dá)到的增強(qiáng)效果。論文大全,陣列信號處理。語音信號作為一種寬帶的非平穩(wěn)信號,在傳輸過程中不可避免地會受到各種噪聲的干擾,所以采用麥克風(fēng)陣列系統(tǒng)時需滿足在一個比較寬的聲域范圍抑制各種噪聲干擾,減少語音的失真,同時也要降低系統(tǒng)成本和計(jì)算時間,以達(dá)到較好的實(shí)時性和實(shí)用性。在實(shí)際應(yīng)用中應(yīng)根據(jù)具體的使用環(huán)境的噪聲特性,設(shè)計(jì)合適的麥克風(fēng)陣列結(jié)構(gòu),選擇最佳的算法及其具體的實(shí)現(xiàn)形式。
【參考文獻(xiàn)】
[1]Flanagan J L, JohnstonD J, Zahn R, et al. Computer-steered microphone arrays for sound transductionin large rooms[J]. Journal of Acoustical Society of American. 1985, 78(5).
[2]O. L. Frost. Analgorithm for linearly-constrained adaptive array processing[J]. Proc. IEEE.1972, 60(8).
[3]L. J. Griffiths, C. W.Jim. An alternative approach to linearly constrained adaptive beamforming[J].IEEE Trans. On Antennas and Propagation. 1982, 30(1).
[4]Zelinski R. A microphone array with adaptive post-filtering for noise reductionin reverberant rooms[A]. IEEE International Conference on Acoustics, Speech andSignal Processing, USA: 1988.
[5]S. Cannot and I. Cohen. Speech enhancement based on the general transfer function GSC andpostfiltering[J]. IEEE Trans. Speech and Audio Processing, 2004, 12(6).
[6]Khalil F, Jullien J P, Crilloire A. Microphone array for sound pickup inteleconference systems[J]. Audio Engineering Society, 1994, 42( 9).
[7]Asano F, Hayamizu S. Speech enhancement using css-based array processing[A].IEEE International Conference on Acoustics, Speech and Signal Processing. Germany: 1997.
[8]Jutten C and Herault J. Blind separation of sources, part I: an adaptivealgorithm based on neuromimetic architecture[J]. Signal Processing, 1991,24(l).
[9]張麗艷等.一種適用于混響環(huán)境的麥克風(fēng)陣列語音增強(qiáng)方法[J].信號處理.2009,25(5).
[10]崔瑋瑋等.基于FDM陣列技術(shù)的雙通道語音增強(qiáng)方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版).2008,48(7).
[11]曾慶寧等.基于陣列抗串?dāng)_自適應(yīng)噪聲抵消的語音增強(qiáng)[J].電子學(xué)報(bào).2005,33(2).
【關(guān)鍵詞】清晰度評價函數(shù);一體化攝像機(jī);高斯噪聲
The research of focusing evaluation function based on the room camera
HAN Seng-jie
(Civil Aviation University of China,College of Electronics and Information engineering,Tianjin,300300,China)
Abstract:Focusing evaluation function is important as to the room camera to achieve the focus of image and get high-quality image.We have a comprehensive performance comparison of several commonly used focusing evaluation functions,quantitative analysis of the efficiency of different algorithms including no bias,single peak and sensitivity according to the simplicity and real-time.The results showed that:Brenner functions and Laplace function is suitable for small-scale precision focusing for its relatively narrow peak width,high sensitivity.Tenengrad function,Robert function and squared gradient function is suitable for mid-range auto-focus, because they have relatively high sensitivity,and also they have a certain focus range.It’s instructive to the room camera to achieve automatic focusing.
Key words:focusing evaluation function;room camera;Gauss noise
1.引言
一般來說,一體化攝像機(jī)是指可以自動聚焦、鏡頭內(nèi)建的小型攝像機(jī)。外觀上,具有美觀、小巧。應(yīng)用上,其電源、視頻、控制信號均有直接插口,安裝方便。功能上可自動聚焦,近些年,一體化攝像機(jī)在視頻會議、安防監(jiān)控、高速公路監(jiān)控等場合的應(yīng)用越來越廣泛。
自動聚焦技術(shù)的發(fā)展對一體化攝像機(jī)的廣泛應(yīng)用也起著非常重要的作用。傳統(tǒng)的聚焦方法基本屬于測距法,利用超聲波或者紅外線測量目標(biāo)與攝像機(jī)之間的距離從而調(diào)整焦距以實(shí)現(xiàn)自動聚焦。由于要有發(fā)射和接收裝置,提高了成本,并且會使得攝像機(jī)顯得笨重。
隨著數(shù)字圖像處理理論的不斷成熟,越來越多的自動聚焦算法是基于圖像處理理論的。數(shù)字圖像處理理論認(rèn)為,信號或圖像的大部分能量集中在幅度譜的低頻段和中頻段,但是圖像細(xì)節(jié)的豐富度和輪廓的銳度取決于圖像的高頻成分。因此,各種檢驗(yàn)圖像邊緣信息或計(jì)算圖像高頻分量的自動聚焦算法應(yīng)運(yùn)而生。一幀圖像中的高頻成分值被稱為清晰度評價函數(shù),自動聚焦的過程就是求取清晰度評價函數(shù)最大值的過程。當(dāng)圖像清晰時,圖像細(xì)節(jié)豐富,在空域表現(xiàn)為相鄰像素的特征值,如灰度、顏色等變化較大,在頻域表現(xiàn)為頻譜的高頻分量多??梢栽u判圖像中高頻分量的大小,并判斷對焦正確與否。
確定合適的清晰度評價函數(shù)是自動調(diào)焦的核心問題。理想的自動調(diào)焦評價函數(shù)必須具備以下幾個特征[1]:
a.無偏性。計(jì)算出來的曲線要和圖像的清晰度變化事實(shí)相吻合;
b.單峰性。在成像系統(tǒng)的正焦位置取得單一的極值,不能出現(xiàn)其他局部極值;
c.靈敏度。是指對不同程度的離焦圖片,清晰度評價值要求有一定的差別;
d.具有足夠的信噪比。在一定的噪聲干擾條件下,保證系統(tǒng)正確地檢測到離焦信號,完成自動調(diào)焦;
e.高效性。計(jì)算能夠滿足實(shí)時性要求,保證迅速完成自動調(diào)焦過程。
圖1是圖像高頻成分含量與聚焦鏡頭位置之間的關(guān)系。
2.常用清晰度評價函數(shù)的研究
圖像清晰度評價函數(shù)在基于圖像處理的自動調(diào)焦技術(shù)中起著關(guān)鍵的作用。圖像清晰度識別技術(shù)近年來已引起國內(nèi)外學(xué)者的重視,其中最流行的是時域?qū)Ρ榷仍u價函數(shù),常用的有Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)、方差函數(shù)和平方梯度等[2][3][4];還有頻域的頻譜評價函數(shù)[5];小波變換評價函數(shù)[6];基于DCT變換的評價函數(shù)[7];神經(jīng)網(wǎng)絡(luò)評價函數(shù)[8]。其中頻域類、統(tǒng)計(jì)學(xué)類等調(diào)焦函數(shù)由于在調(diào)焦過程中對環(huán)境的穩(wěn)定性要求較高,并且其調(diào)焦曲線非常不理想,大多數(shù)都不能正確的表達(dá)焦點(diǎn)的位置,同時考慮到聚焦速度和準(zhǔn)確性的要求,因此沒有列入,我們選擇常用的時域?qū)Ρ榷仍u價函數(shù)進(jìn)行分析。
Brenner函數(shù),是最簡單的與梯度有關(guān)的評價函數(shù)[9][10][11],它只是計(jì)算相差兩個單位的兩個像素的灰度差,該函數(shù)的優(yōu)點(diǎn)是具有較高的靈敏度且計(jì)算量較小,其表達(dá)式為:
式中,I(x,y)表示圖像中第x行第y列像素的灰度值。當(dāng)調(diào)焦評價函數(shù)F(I)數(shù)值最大時,圖像最清晰。
Robert梯度評價函數(shù),是在灰度差分絕對值之和算法基礎(chǔ)上考慮I(x,y)和I(x+1,y+1),灰度差的像元位置關(guān)系后,采用的一種評價函數(shù),其表達(dá)式如下:
式中I(x,y)表示圖像中第x行第y列像素的灰度值。
方差函數(shù),清晰聚焦的圖像應(yīng)有比模糊的圖像具有更大的灰度級差異,所以方差函數(shù)也可以作為一個對焦清晰的評價標(biāo)準(zhǔn)[9][12]。方差函數(shù)定義為:
式中μ為平均灰度級,
即
I(x,y)表示圖像中第x行第y列像素的灰度值。
平方梯度函數(shù),它用相鄰點(diǎn)的差分計(jì)算一個點(diǎn)的梯度值[12],其算法如下:
其中I(x,y)為一幅圖像在點(diǎn)(x,y)的灰度值。
Tenengrad函數(shù),它使用Sobel算子來算圖像在水平方向和垂直方向的梯度,為了使圖像邊緣的梯度最大,對梯度進(jìn)行平方運(yùn)算,其表達(dá)式如下所示:
其中,S(x,y)>T(T為灰度閾值)
為梯度幅度Gx(x,y),Gy(x,y)的計(jì)算模版為
在此模版下,
Laplace函數(shù),使用Laplace算子和圖像進(jìn)行卷積得到圖像的二階微分,其微分平方和作為最后評價結(jié)果,其表達(dá)式如下:
3.清晰度評價函數(shù)的性能分析
為了便于比較這六種算法的性能和特點(diǎn),按照清晰度評價函數(shù)應(yīng)具備的特性,我們從三個角度對這六種清晰度評價函數(shù)的性能進(jìn)行分析。本文采用小龍電器公司自主研制生產(chǎn)的一體化攝像機(jī)SMC-480,其光學(xué)系統(tǒng)參數(shù)表如表1所示。
3.1 清晰度評價函數(shù)的曲線特性對比
本文為研究清晰度評價函數(shù),其數(shù)據(jù)源都是針對同一組圖像進(jìn)行處理,同時該組圖像是對同一平面目標(biāo),通過控制一體化攝像機(jī)調(diào)焦鏡頭的前后縱向位置來實(shí)現(xiàn)圖像的調(diào)焦,前后縱向移動的步進(jìn)間隔距離為0.004mm。在聚焦點(diǎn)位置前后分別采集24個欠焦和24個過焦圖像。加上聚焦良好圖像,共得到50幅圖像。采集的圖像大小為640 pixel×480 pixel。本文的數(shù)據(jù)分析是以采集到的圖像數(shù)據(jù)為依據(jù),并將圖像序號按由最遠(yuǎn)的欠焦?fàn)顟B(tài)經(jīng)過聚焦?fàn)顟B(tài)后,再到過焦?fàn)顟B(tài)編排,共采集了50張圖片,如圖2給出了其中的12幅示意圖。
為了便于比較各種算法的性能和特點(diǎn),本文將上述六種算法的仿真結(jié)果描繪出來,如圖3所示。它的縱坐標(biāo)表示各種算法的歸一化圖像清晰度評價值,橫坐標(biāo)表示不同程度的離焦圖片的序號,共50張。圖4是對圖3函數(shù)極值的局部放大。
從圖3和圖4中可以得出如下結(jié)論:1)對圖像的單峰性來說,Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)和平方梯度等能得到比較一致的結(jié)果,并且只有一個極值點(diǎn),具有單峰性,符合要求,而方差函數(shù)的極值點(diǎn)不夠突出,容易產(chǎn)生誤調(diào)焦,因此不能使用。2)從圖像的無偏性來說,Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)、Laplace函數(shù)和平方梯度等的清晰度評價值都隨著圖像的離焦或者變焦程度變化而變化,都在第25幅圖像位置取得最大值,這和肉眼看到的事實(shí)是相符合的。3)從圖像的靈敏度角度來看,Laplace函數(shù)和Brenner函數(shù)的峰頂寬度相對較窄,相對而言,Laplace函數(shù)更為尖銳,靈敏度高,因此適合于小范圍精確調(diào)焦。也就是說,對微小焦距的改變更為敏感,性能上更加優(yōu)良。Tenengrad函數(shù)、Robert函數(shù)和平方梯度的靈敏度居中,在焦點(diǎn)附近具有比較高的靈敏度,同時也有一定的調(diào)焦范圍,適于中等范圍的自動調(diào)焦。
3.2 圖像加噪聲后清晰度評價函數(shù)的曲線特性
我們對標(biāo)準(zhǔn)圖像加入噪聲,根據(jù)模糊成像原理,可以用高斯函數(shù)對標(biāo)準(zhǔn)圖像進(jìn)行處理。高斯模糊的基本思路是根據(jù)二維正態(tài)分布公式生成一個高斯矩陣,求新圖像中的每一點(diǎn)時,將高斯矩陣的中心對準(zhǔn)舊圖像的這一點(diǎn),并將所有點(diǎn)根據(jù)高斯矩陣上對應(yīng)的點(diǎn)加權(quán)平均。二維正態(tài)分布公式如下:
u,v分別為水平、豎直距離。高斯模糊的標(biāo)準(zhǔn)差σ,表示模糊的延伸距離,它的缺省值一般設(shè)為1。當(dāng)時,高斯矩陣上對應(yīng)的權(quán)值已經(jīng)小得可以忽略,因此可以只計(jì)算一個大小為的矩陣。通過設(shè)置不同的模糊半徑(radius)參數(shù)即需要移位的像素?cái)?shù),達(dá)到不同程度的高斯模糊效果。圖像數(shù)據(jù)源仍是圖二所示中采集到的圖像,現(xiàn)在我們對標(biāo)準(zhǔn)圖像分別進(jìn)行1×1-6×6半徑的高斯模糊,同時添加方差為20的高斯噪聲,得到6幅圖像,圖5給出了其中一幅聚焦清晰和一幅清晰圖像的加噪圖像。
實(shí)驗(yàn)結(jié)果如圖6所示,縱坐標(biāo)是每個清晰度評價函數(shù)的歸一化值,橫坐標(biāo)是受不同噪聲影響的6幅不同圖像,從圖中可以看出,Laplace函數(shù)和Brenner函數(shù)在峰值附近變化明顯,在一定的噪聲干擾條件下,能識別出噪聲影響的程度,該函數(shù)性能靈敏度高,具有足夠的信噪比,其聚焦分辨力和抗噪性能明顯優(yōu)于其他方法。而Tenengrad函數(shù)、Robert函數(shù)和平方梯度的信噪比居中,方差函數(shù)的抗干擾性能則最差。
3.3 清晰度評價函數(shù)實(shí)驗(yàn)驗(yàn)證
上述中本文對清晰度評價函數(shù)的性能和特點(diǎn)進(jìn)行了分析,不過為了進(jìn)一步驗(yàn)證Laplace函數(shù)、Brenner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)和平方梯度函數(shù)的性能,本文采集了另外圖像進(jìn)行驗(yàn)證。通過控制一體化攝像機(jī)調(diào)焦鏡頭的前后縱向位置來實(shí)現(xiàn)圖像的調(diào)焦,前后縱向移動的步進(jìn)間隔距離為0.008mm。在聚焦點(diǎn)位置前后分別采集14個欠焦和14個過焦圖像。加上聚焦良好圖像,即第15幅,共得到29幅圖像。采集的圖像大小為630 pixel×490 pixel。
通過matlab仿真,本文得到如下結(jié)論,如圖8所示。
在圖7中,Laplace函數(shù)、Bren-
ner函數(shù)、Tenengrad函數(shù)、Robert函數(shù)和平方梯度函數(shù)的歸一化清晰度評價函數(shù)值的最大值都在圖像序號為15的位置,也剛好是最佳聚焦圖像。這和實(shí)際圖像采集中是相對應(yīng)的。同時,就Laplace函數(shù)和Brenner函數(shù)相比較而言,他們都滿足單峰性,不過Laplace函數(shù)更為尖銳,靈敏度高。Tenengrad函數(shù)、Robert函數(shù)和平方梯度和圖3及圖4的結(jié)論相一致。
4.結(jié)論
清晰度評價函數(shù)是數(shù)字圖象處理的一個重要內(nèi)容之一,對于實(shí)現(xiàn)一體化攝像機(jī)自動對焦具有重要的意義。本文在小龍電器公司生產(chǎn)的一體化攝像機(jī)SMC-480研究的基礎(chǔ)上,針對目前常用的清晰度評價函數(shù)的實(shí)用性能加以評價,對比實(shí)驗(yàn)證明,Laplace函數(shù)和Brenner函數(shù)的峰頂寬度相對較窄,靈敏度高,因此適合于小范圍精確調(diào)焦。Tenengrad函數(shù)、Robert函數(shù)和平方梯度的靈敏度居中,在焦點(diǎn)附近具有比較高的靈敏度,同時也有一定的調(diào)焦范圍,適于中等范圍的自動調(diào)焦。
參考文獻(xiàn)
[1]屈玉福.視覺瞄準(zhǔn)測頭的研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2001:20-24.
[2]沈庭芳,方子文.數(shù)字圖像處理及模式識別[M].北京:北京理工大學(xué)出版社,1998.
[3]夏德深,傅德盛.現(xiàn)代圖像處理技術(shù)與應(yīng)用[M].南京:東南大學(xué)出版社,1997.
[4]Castleman K R.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,1998.
[5]李奇,馮華君,徐之海,等.數(shù)字圖像清晰度評價函數(shù)研究[J].光子學(xué)報(bào),2002,31(6):
736-738.
[6]謝攀,張利,康宗明,等.一種基于尺度變化的DCT自動聚焦算法[J].清華大學(xué)學(xué)報(bào),2003,43(1):55-58.
[7]陳國金,朱妙芬,施滸立等.基于最小各向同性小波濾波的圖像清晰度識別[J].光子學(xué)報(bào),2008,37(2):395-399.
[8]陳國金,朱妙芬,施滸立.小波變換與神經(jīng)網(wǎng)絡(luò)復(fù)合的圖象清晰度識別研究[J].紅外技術(shù),2007,29(11):670-674.
[9]TTE Yeo,S H Ong,Jayasooriah and R Sinniah.Autofocusing for Tissue Microscope.Image and Vision Computing.1993,11(10):629-639.
[10]Lawrence Firestone,Kitty Cook,Kevin Culp,Neil Talsania,and Kendall,Preston,parison of Autofocus Methods for Automated Microscopy.1991(12):195-206.
[11]Brenner,J F,Dew,B S,Horton,J B,King,T,
Neirath,P W and Sellers,W D.An Automated Microscope for Cytologic Research.1971(24):
100-110.