前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡的改進主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡;圖像分類;空間變換;可變形卷積
DOIDOI:10.11907/rjdk.171863
中圖分類號:TP317.4
文獻標識碼:A 文章編號:1672-7800(2017)006-0198-04
0 引言
圖像分類一直是計算機視覺領(lǐng)域的一個基礎(chǔ)而重要的核心問題,具有大量的實際應用場景和案例。很多典型的計算機視覺問題(如物體檢測、圖像分割)都可以演化為圖像分類問題。圖像分類問題有很多難點需要解決,觀測角度、光照條件的變化、物體自身形變、部分遮擋、背景雜波影響、類內(nèi)差異等問題都會導致被觀測物體的計算機表示(二維或三維數(shù)值數(shù)組)發(fā)生劇烈變化。一個良好的圖像分類模型應當對上述情況(以及不同情況的組合)不敏感。使用深度學習尤其是深度卷積神經(jīng)網(wǎng)絡,用大量圖像數(shù)據(jù)進行訓練后可以處理十分復雜的分類問題。
卷積神經(jīng)網(wǎng)絡是為識別二維形狀而專門設計的一個多層感知器,這種網(wǎng)絡結(jié)構(gòu)對平移、縮放、傾斜等擾動具有高度不變性,并且具有強大的特征學習與抽象表達能力,可以通過網(wǎng)絡訓練獲得圖像特征,避免了復雜的特征提取與數(shù)據(jù)重建過程。通過網(wǎng)絡層的堆疊,集成了低、中、高層特征表示。AlexNet等網(wǎng)絡模型的出F,也推動了卷積網(wǎng)絡在海量圖像分類領(lǐng)域的蓬勃發(fā)展。
1 卷積神經(jīng)網(wǎng)絡
卷積神經(jīng)網(wǎng)絡是人工神經(jīng)網(wǎng)絡的一種,其“局部感知”“權(quán)值共享”[1]等特性使之更類似于生物神經(jīng)網(wǎng)絡,網(wǎng)絡模型復雜度大大降低,網(wǎng)絡訓練更容易,多層的網(wǎng)絡結(jié)構(gòu)有更好的抽象表達能力,可以直接將圖像作為網(wǎng)絡輸入,通過網(wǎng)絡訓練自動學習圖像特征,從而避免了復雜的特征提取過程。
Yann LeCun等[2]設計的LeNet-5是當前廣泛使用的卷積網(wǎng)絡結(jié)構(gòu)原型,它包含了卷積層、下采樣層(池化層)、全連接層以及輸出層,構(gòu)成了現(xiàn)代卷積神經(jīng)網(wǎng)絡的基本組件,后續(xù)復雜的模型都離不開這些基本組件。LeNet-5對手寫數(shù)字識別率較高,但在大數(shù)據(jù)量、復雜的物體圖片分類方面不足,過擬合也導致其泛化能力較弱。網(wǎng)絡訓練開銷大且受制于計算機性能。
2012年,在ILSVRC競賽中AlexNet模型[3]贏得冠軍,將錯誤率降低了10個百分點。擁有5層卷積結(jié)構(gòu)的AlexNet模型證明了卷積神經(jīng)網(wǎng)絡在復雜模型下的有效性,并將GPU訓練引入研究領(lǐng)域,使得大數(shù)據(jù)訓練時間縮短,具有里程碑意義。AlexNet還有如下創(chuàng)新點:①采用局部響應歸一化算法(Local Response Normalization,LRN),增強了模型的泛化能力,有效降低了分類錯誤率;②使用Dropout技術(shù),降低了神經(jīng)元復雜的互適應關(guān)系,有效避免了過擬合;③為了獲得更快的收斂速度,AlexNet使用非線性激活函數(shù)ReLU(Rectified Linear Units)來代替?zhèn)鹘y(tǒng)的Sigmoid激活函數(shù)。
Karen等[4]在AlexNet的基礎(chǔ)上使用更小尺寸的卷積核級聯(lián)替代大卷積核,提出了VGG網(wǎng)絡。雖然VGG網(wǎng)絡層數(shù)和參數(shù)都比AlexNet多,但得益于更深的網(wǎng)絡和較小的卷積核尺寸,使之具有隱式規(guī)則作用,只需很少的迭代次數(shù)就能達到收斂目的。
復雜的網(wǎng)絡結(jié)構(gòu)能表達更高維的抽象特征。然而,隨著網(wǎng)絡層數(shù)增加,參數(shù)量也急劇增加,導致過擬合及計算量大增,解決這兩個缺陷的根本辦法是將全連接甚至一般的卷積轉(zhuǎn)化為稀疏連接。為此,Google團隊提出了Inception結(jié)構(gòu)[5],以將稀疏矩陣聚類為較為密集的子矩陣來提高計算性能。以Inception結(jié)構(gòu)構(gòu)造的22層網(wǎng)絡GoogLeNet,用均值池化代替后端的全連接層,使得參數(shù)量只有7M,極大增強了泛化能力,并增加了兩個輔助的Softmax用于向前傳導梯度,避免梯度消失。GoogLeNet在2014年的ILSVRC競賽中以Top-5錯誤率僅6.66%的成績摘得桂冠。
網(wǎng)絡層數(shù)的增加并非永無止境。隨著網(wǎng)絡層數(shù)的增加,將導致訓練誤差增大等所謂退化問題。為此,微軟提出了一種深度殘差學習框架[6],利用多層網(wǎng)絡擬合一個殘差映射,成功構(gòu)造出152層的ResNet-152,并在2015年的ILSVRC分類問題競賽中取得Top-5錯誤率僅5.71%的成績。隨后,對現(xiàn)有的瓶頸式殘差結(jié)構(gòu)進行改進,提出了一種直通結(jié)構(gòu)[7],并基于此搭建出驚人的1001層網(wǎng)絡,在CIFAR-10分類錯誤率僅4.92%。至此,卷積神經(jīng)網(wǎng)絡在越來越“深”的道路上一往直前。
2 可變形的卷積神經(jīng)網(wǎng)絡
2.1 空間變換網(wǎng)絡
空間變換網(wǎng)絡(Spatial Transformer Network,STN)[8]主要由定位網(wǎng)絡(Localisation net)、網(wǎng)格生成器(Grid generator)和可微圖像采樣(Differentiable Image Sampling)3部分構(gòu)成,如圖1所示。
定位網(wǎng)絡將輸入的特征圖U放入一個子網(wǎng)絡(由卷積、全連接等構(gòu)成的若干層子網(wǎng)絡),生成空間變換參數(shù)θ。θ的形式可以多樣,如需要實現(xiàn)2D仿射變換,那么θ就是一個2×3的向量。
2.3 本文模型
本文以自建的3層卷積網(wǎng)絡C3K5(如圖6所示)和VGG-16作為基準網(wǎng)絡,分別引入空間變換網(wǎng)絡、可變形卷積和可變形池化,構(gòu)造出8個卷積神經(jīng)網(wǎng)絡,用以驗證可變形模塊對淺層網(wǎng)絡和深層網(wǎng)絡的影響,如表1所示。
圖6中C3K5網(wǎng)絡模型包含3個帶有ReLU層、LRN層和池化層的卷積模塊,卷積層采用步長為1的5×5卷積核,輸出保持原大小,池化層采用步長為2核為2×2的最大值池化,即每經(jīng)過一個卷積模塊,特征圖縮小為原來的一半。
3 實驗與分析
3.1 實驗設置
本文實驗環(huán)境:CPU為Intel i5-7400,8G內(nèi)存,顯卡為GTX1060,采用Cuda8+CuDNN6.0加速。
實驗數(shù)據(jù)集包括公共圖像數(shù)據(jù)集mnist、cifar-10、cifar-100和自建圖像數(shù)據(jù)集pen-7。公共數(shù)據(jù)集分別有50 000張訓練樣本圖像和10 000張測試樣本圖像。自建數(shù)據(jù)集pen-7為京東商城的七類筆圖像庫,每類有600張圖片,圖像分辨率為200×200,總計訓練樣本數(shù)3 360,測試樣本數(shù)840, 圖7為其中的14個樣本。
3.2 結(jié)果與分析
分別將表1中的10個卷積網(wǎng)絡應用到mnist、cifar-10、cifar-100和pen-7四個數(shù)據(jù)集進行訓練,batch-size設置100,即每次傳入100張圖片進行訓練,每訓練100次測試一次(記為一次迭代),總共迭代100次,取最后10次迭代的準確率計算平均值,得各網(wǎng)絡應用在不同數(shù)據(jù)集的分類結(jié)果,如表2所示。
實驗結(jié)果表明,在卷積網(wǎng)絡中引入空間變換網(wǎng)絡、用可變形的卷積層和可變形的池化層替換傳統(tǒng)的卷積層和池化層,不管是在淺層網(wǎng)絡還是在深層網(wǎng)絡,都能獲得更高的分類準確率,這驗證了空間變換網(wǎng)絡和可變形卷積(池化)結(jié)構(gòu),豐富了卷積神經(jīng)網(wǎng)絡的空間特征表達能力,提升了卷積網(wǎng)絡對樣本的空間多樣性變化的魯棒性。包含3種模塊的網(wǎng)絡獲得了最高的分類精度,使空間變換網(wǎng)絡、可變形卷積層和可變形池化層在更多應用場景中并駕齊驅(qū)成為可能。
4 結(jié)語
通過在現(xiàn)有卷積神經(jīng)網(wǎng)絡中引入空間變換網(wǎng)絡、可變形的卷積層和可變形的池化層,使得卷積網(wǎng)絡在mnist、cifar-10、cifar-100及自建的pen-7數(shù)據(jù)集中獲得了更高的分類精度,包含3種模塊的網(wǎng)絡獲得了最高分類精度,證明了空間變換網(wǎng)絡、可變形的卷積層和可變形池化層都能豐富網(wǎng)絡的空間特征表達能力,協(xié)同應用于圖像分類工作,這為后續(xù)研究打下了堅實的基礎(chǔ)。
參考文獻:
[1]BOUVRIE J. Notes on convolutional neural networks[J].Neural Nets,2006(1):159-164.
[2]Y LECUN,L BOTTOU,Y BENGIO,et al.Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[3]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[C]. International Conference on Neural Information Processing Systems. Curran Associates Inc,2012:1097-1105.
[4]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[J]. Computer Science, 2014(6):1211-1220.
[5]SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[J]. CVPR, 2015(3):1-9.
[6]HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]. Computer Vision and Pattern Recognition. IEEE, 2015:770-778.
[7]HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks[J]. arXiv,2016(1603):5-27.
[8]JADERBERG M, SIMONYAN K, ZISSERMAN A, et al. Spatial transformer networks[J].Computer Science, 2015(5):1041-1050.
[9]DAI J, QI H, XIONG Y, et al. Deformable convolutional networks[J]. arXiv: 2017(1703):62-111.
關(guān)鍵詞:無人機;STM32;道路檢測;神經(jīng)網(wǎng)絡;模型訓練
傳統(tǒng)的道路巡檢和保養(yǎng)主要由人工來完成,需要投入大量的人力物力來保證道路的相對安全,這種方式存在著低效率、高成本且難以保證道路的決定安全[1]。固定式交通檢測設備大量設置在道路的主干路上,也存在著一些缺陷:(1)監(jiān)控攝像頭不能做到全覆蓋且具有一定的探測盲區(qū)。(2)監(jiān)控系統(tǒng)采用多屏幕方式,工作人員進行道路故障判斷時受限。(3)不能靈活的通知有關(guān)部門對事故的快速應急處理。為了克服上述的缺點,本文設計了一種基于卷積神經(jīng)網(wǎng)絡的無人機道路巡檢系統(tǒng),對發(fā)生故障和需要保養(yǎng)的道路能快速響應,及時的通知有關(guān)部門,避免事故的發(fā)生。
1系統(tǒng)的總體設計
在無人機道路巡檢系統(tǒng)中,我們主要考慮了以下幾個要求[3]:(1)無人機系統(tǒng)能滿足正常的工作;(2)無人機系統(tǒng)能適應各種天氣和氣候變化等;(3)無人機系統(tǒng)應充分考慮控制的安全性;(4)視頻流的傳輸應避免較長的延時。無人機道路巡檢系統(tǒng)主要由無人機系統(tǒng)設計、遠程控制系統(tǒng)、PC端系統(tǒng)三大部分組成,系統(tǒng)的總體結(jié)構(gòu)框圖如圖1所示。系統(tǒng)的具體工作原理為:無人機將道路環(huán)境檢測的結(jié)果,將處理后的視頻流通過遠程傳輸?shù)姆绞剑l(fā)送到PC端進行實時監(jiān)控道路狀況。遠程控制系統(tǒng)以STM32作為主控芯片,主要包括在無人機端和遙控端兩個部分,遙控端將控制指令通過2.4G通信發(fā)送到無人機端,此時無人機的做出相應的位姿變化,完成遙控端對無人機位姿的控制。無人機系統(tǒng)的圖像采集模塊芯片為樹莓派,完成圖像的采集并采用TCP通信實現(xiàn)遠程視頻的傳輸,將獲取的視頻流傳輸?shù)絇C端。PC端上使用OpenCV對圖像進行處理[4],利用深度學習模塊對設計的神經(jīng)網(wǎng)絡進行數(shù)據(jù)訓練,從而得到檢測模型,最后在PC上接收處理過的數(shù)據(jù)并實時監(jiān)測道路狀況。上述工作原理可實現(xiàn)無人機道路巡檢系統(tǒng),下文將對其包括的三大模塊進行說明介紹。
2無人機系統(tǒng)設計
本次使用的是RaspberryPi3(modelB+)作為無人機的主控制板[7],無人機的飛行控制算法和圖像采集模塊集成在樹莓派中。遠程控制系統(tǒng)通過2.4G無線通信模塊連接,通過控制器實現(xiàn)對無人機飛行和圖像采集的控制。無人機系統(tǒng)總體結(jié)構(gòu)如圖2所示。
3PC端系統(tǒng)設計
在PC端系統(tǒng)設計主要分為圖像預處理、模型訓練和視頻監(jiān)控三大部分,通過TCP通信協(xié)議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對前兩部分詳細介紹。
3.1圖像預處理
本系統(tǒng)對地面裂縫檢測的圖像預處理流程如圖3所示具體工作原理為:(1)采用加權(quán)平均灰度化對獲取的無人機影像進行灰度化處理;(2)對灰度化處理后的影像進行直方圖均衡化,使得影像具有高對比度和多元的灰度色調(diào)變化,為后續(xù)的濾波降噪奠定基礎(chǔ);(3)對處理后的影像進行濾波降噪,消除孤立的噪聲點,采用方法的是中值濾波降噪;(4)使用迭代二值化處理將影像的灰度值設置合適的閾值,使得圖像更簡單,目標更突出,然后對圖像進行分割,計算迭代的閾值,判斷迭代的閾值是否收斂到某一值或者達到限定的迭代次數(shù),如果是的話,將完成二值化處理和濾波,否則將初始二值化閾值;(5)最終完成道路故障的識別與標記。
3.2模型檢測
3.2.1卷積神經(jīng)網(wǎng)絡原理使用卷積神經(jīng)網(wǎng)絡進行模型訓練,首先使用卷積層實現(xiàn)特征的提取,原理如圖4所示。如圖5所示,卷積操作是模仿神經(jīng)元的機制。不同的輸入在權(quán)重的影響下會有不同的輸出,根據(jù)損失函數(shù)的計算來不斷的更新權(quán)重,直到獲得合理的權(quán)重參數(shù)。初始傳遞的信號為x,中間通過權(quán)重w,再經(jīng)過偏置b后連接在末端,最后輸出信號變成wx+b。fun(?)表示激活函數(shù),最終f(z為輸出的結(jié)果,如式(1)所示。3.2.2卷積神經(jīng)網(wǎng)絡訓練流程通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測道路安全的關(guān)鍵一步,(1)訓練標記數(shù)據(jù):首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經(jīng)網(wǎng)絡對標記框內(nèi)的目標數(shù)據(jù)進行訓練;(2)提取特征數(shù)據(jù):將道路故障的類型統(tǒng)計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優(yōu)化訓練數(shù)據(jù):根據(jù)實際應用場景增加圖像的種類和數(shù)量,不斷訓練模型。3.2.3故障的基本分類道路故障主要路面缺陷(例如裂縫、殘缺等)和路面增加(例如長時間靜止的車輛和路人),各自訓練集數(shù)量為1000張。如表1所示。3.2.4實驗測試為實現(xiàn)故障的檢測,測試數(shù)據(jù)集為100張,不同類型故障數(shù)據(jù)50張,均采集自新道路且與訓練樣本一致,實驗結(jié)果如表2所示。由表2可知,檢測路面增加(例如長時間靜止的車輛和路人)的準確率高達96%,但是地面缺陷的準確率相比較而言略低,可能造成的原因是:①硬件原因?qū)е虏杉膱D像清晰度比較低;②地面缺陷太小,無人機難以識別;③訓練的數(shù)據(jù)集較少,特征學習誤差大;但是滿足了設計需求,還需進一步改進。
4總結(jié)與展望
關(guān)鍵詞:圖像復原;盲復原;逆濾波;神經(jīng)網(wǎng)絡復原
1 圖像退化及復原模型
1.1 圖像降質(zhì)的數(shù)學模型
圖像復原處理的關(guān)鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經(jīng)過某個退化系統(tǒng)后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應用情況一致,如圖像數(shù)字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數(shù)方式將其轉(zhuǎn)化為相加形式。原始圖像f(x,y) 經(jīng)過一個退化算子或系統(tǒng)H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數(shù)學表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統(tǒng)計性質(zhì)的信息下圖表示退化過程的輸入和輸出的關(guān)系,其中H(x,y)包含了退化系統(tǒng)的物理過程,即所要尋找的退化數(shù)學模型。
1.2 圖像的退化恢復模型
數(shù)字圖像的圖像恢復問題可以看作是:根據(jù)退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復原是數(shù)字圖像處理技術(shù)的一個重要研究方向,在現(xiàn)實生活中,有著非常廣闊的應用前景和市場。數(shù)字圖像處理研究很大部分是服務于數(shù)字圖像復原的,而運動模糊圖像的復原又是圖像復原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛(wèi)星所拍攝的圖像進行復原,因為衛(wèi)星相對地球是運動的,所拍出的圖像是模糊的(當然衛(wèi)星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發(fā)回的月球照片進行了圖像恢復處理。傳統(tǒng)的圖像恢復方法可以很好地恢復出來原始圖像,但是需要事先知道系統(tǒng)的先驗知識(例如系統(tǒng)的點擴散函數(shù))。在先驗知識不足的情況下,如何恢復出來原始圖像?這就需要模糊圖像盲恢復技術(shù)。根據(jù)不同的應用背景和先驗知識,大致可以兩種方法恢復兩種類型的模糊圖像,以滿足不同的應用要求。
第一種方法:如何快速恢復模糊圖像,進行適時性圖像處理?這個技術(shù)在實際生活中有著廣泛應用。
第二種方法:如何在事先不能確定模糊系統(tǒng)點擴散函數(shù)的情況下,恢復模糊圖像,改善圖像的質(zhì)量,這就是圖像盲恢復的問題。
3 國際國內(nèi)研究發(fā)展和現(xiàn)狀
從歷史上來看,數(shù)字圖像處理研究有很大部分是在圖像恢復方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數(shù)字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應用于數(shù)字圖像恢復。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復原過來,從而增強人們的判讀能力。早期做圖像復原研究,主要強調(diào)盡可能使模糊圖像復原到原貌,增加它的判讀性,在此發(fā)展了很多的復原方法,諸如:差分復原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應用上均有一定的限制。
雖然經(jīng)典的圖象復原方法不少,但歸納起來大致可分為逆濾波法,或稱相關(guān)變換法( inv ersefiltering or t ransfo rm related techniques) 和代數(shù)方法( alg ebraic techniques) 兩種。
3.1 傳統(tǒng)復原法
3.1.1 逆濾波方法
逆濾波法大致有經(jīng)典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經(jīng)典逆濾波的變換函數(shù)是引起圖象失真的變換函數(shù)的逆變換,其雖在沒有噪聲的情況下,可產(chǎn)生精確的復原圖象,但在有噪聲時,將對復原圖象產(chǎn)生嚴重的影響,雖然濾波函數(shù)經(jīng)過修改,有噪聲的圖象也能復原,但它僅適用于極高信噪比條件下的圖象復原問題; 維納濾波法是通過選擇變換函數(shù),同時使用圖象和噪聲的統(tǒng)計信息來極小化均方復原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關(guān)圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩(wěn)過程的假設,還需要知道非退化圖象的相關(guān)函數(shù)或功率譜特性等等,而在實際應用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復原問題時,提出了一種解決空間和時間相關(guān)性的多幀維納濾波法,是近年來維納濾波法的新發(fā)展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩(wěn)圖象的復原,但是因計算量過大,而限制了其實際應用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復原方法,該方法可以較好地復原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數(shù)估計濾波法,它實質(zhì)上是維納濾波法的變種. 20 世紀90 年代初,又提出了基于遞歸圖象濾波的自適應圖象復原方法及合成濾波方法,它代表了濾波方法新的發(fā)展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數(shù)中增加了空間自適應正則化項,從而很好地抑制了噪聲,并減少了振鈴現(xiàn)象,較好實現(xiàn)了在低SNR 條件下的盲圖象復原. 2001 年,Eng 等人結(jié)合模糊集的概念,提出了自適應的軟開關(guān)中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節(jié),是一種值得重視的新的圖象復原方法。
3.1 2 代數(shù)方法
Andrews 和Hunt 提出了一種基于線性代數(shù)的圖象復原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數(shù),而相對于分析連續(xù)函數(shù),又更喜歡離散數(shù)學的人的口味。它為復原濾波器的數(shù)字計算提供了一個統(tǒng)一的設計思路。代數(shù)方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復原方法等。 其中,偽逆法,實質(zhì)上是根據(jù)圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經(jīng)常會出現(xiàn)不穩(wěn)定的現(xiàn)象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協(xié)方差的情況。前面的方法僅把圖象看成是數(shù)字的陣列,然而一個好的復原圖象應該在空間上是平滑的,其在幅度值上是正的,而約束圖象復原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術(shù)而提出的圖象復原方法就是一種約束圖象復原方法,而且通過選取不同的約束參數(shù)和回歸方法可以得到不同的圖象復原算法。傳統(tǒng)的圖象復原算法或面臨著高維方程的計算問題,或要求恢復過程滿足廣義平穩(wěn)過程的假設,這就是,使得具有廣泛應用價值的圖象復原問題沒有得到圓滿的解決的根本原因。
3.2 神經(jīng)網(wǎng)絡圖象復原的方法
神經(jīng)網(wǎng)絡圖象復原方法的發(fā)展方向自從神經(jīng)網(wǎng)絡圖象復原首次提出十多年來,其研究在不斷地深入和發(fā)展,描述它的現(xiàn)狀已屬不易,展望它的未來更是困難,況且科學研究具有不確定性. 據(jù)筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經(jīng)網(wǎng)絡用于圖象復原將是研究的重點
自1992 年Zhang 提出小波神經(jīng)網(wǎng)絡以來,如今已提出了各種類型的小波網(wǎng)絡,且小波與神經(jīng)網(wǎng)絡的結(jié)合成了一個十分活躍的研究領(lǐng)域。通過學者們的理論分析和模擬實驗表明: 由于小波神經(jīng)網(wǎng)絡具有逼近能力強、可顯著降低神經(jīng)元的數(shù)目、網(wǎng)絡學習收斂的速度快、參數(shù)( 隱層結(jié)點數(shù)和權(quán)重) 的選取有理論指導、能有效避免局部最小值問題等優(yōu)點,因此將其用于圖象復原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質(zhì),與神經(jīng)網(wǎng)絡的大規(guī)模并行性、自學習特性等優(yōu)點結(jié)合起來,不僅將使用于圖象復原的小波神經(jīng)網(wǎng)絡具有自適應分辨性,也將使正則化參數(shù)的選取更具有自適應能力. 最終使復原圖象既能保持圖象的細節(jié),又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經(jīng)網(wǎng)絡、BP 網(wǎng)絡、自組神經(jīng)網(wǎng)絡
值得進一步研究細胞神經(jīng)網(wǎng)絡( CNN ) 由于其具有易于硬件實現(xiàn)的特點,因而具有很強的商業(yè)價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經(jīng)網(wǎng)絡理論基礎(chǔ)的進一步完善及在此基礎(chǔ)上建立細胞神經(jīng)網(wǎng)絡中鄰域系統(tǒng)的概念; 與圖象數(shù)據(jù)局部相關(guān)性等概念結(jié)合起來研究,以建立新的圖象復原理論,形成新的圖象復原技術(shù)。BP 網(wǎng)絡對受污染或帶噪聲的訓練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網(wǎng)絡的泛化能力強,使它在解決圖象復原問題時,可能比其他神經(jīng)網(wǎng)絡具有更好的潛在性能。 將BP 網(wǎng)絡用于圖象復原是很值得進一步研究的.大家知道,人腦的學習方式是“自主的”,即有自組織和自適應的能力的,即人腦能在復雜、非平穩(wěn)和有“干擾”的環(huán)境及其變化的情況下,來調(diào)整自己的思維和觀念,還能根據(jù)對外界事物的觀察和學習,找到其內(nèi)在的規(guī)律和本質(zhì)屬性,并能在一定的環(huán)境下,估計到可能出現(xiàn)的情況以及預期會遇到和感覺到的各種內(nèi)容及情況。 自組織神經(jīng)網(wǎng)絡(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數(shù)據(jù)中,揭示出它們之間內(nèi)在關(guān)系的能力,因此將其用于“盲圖象”的復原將是非常有利的。
3.2.3 需要提出更適合圖象復原的新神經(jīng)網(wǎng)絡模型
小波神經(jīng)網(wǎng)絡是為逼近任意非線性函數(shù)而提出來的,但為了圖象復原的需要,可考慮針對圖象復原的特殊情況,提出新的神經(jīng)網(wǎng)絡模型。 如,因為大多數(shù)圖象是由平滑區(qū)域和輪廓細節(jié)組成的,其圖象數(shù)據(jù)在平滑區(qū)域雖具有較強的相關(guān)性,但與輪廓細節(jié)相鄰的數(shù)據(jù)應極不相關(guān),所以,提出一種專用于圖象復原的“相關(guān)性神經(jīng)網(wǎng)絡模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應提出的“多項式神經(jīng)網(wǎng)絡”,將它們用于圖象復原也是值得研究的。
3.2.4 神經(jīng)網(wǎng)絡與其他理論的結(jié)合
研究是尋求新模型、新方法的重要途徑目前神經(jīng)網(wǎng)絡的研究正由單純的神經(jīng)計算轉(zhuǎn)向計算智能,并結(jié)合腦科學的研究向生物智能方向發(fā)展。 為此,神經(jīng)網(wǎng)絡圖象復原的研究也應考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學科的研究成果。 與模糊系統(tǒng)的結(jié)合將是一個重要的研究方向,因為,神經(jīng)網(wǎng)絡與模糊系統(tǒng)有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數(shù)學模型,而只需要根據(jù)輸入的采樣數(shù)據(jù)去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現(xiàn)出了很強的容錯能力; ( 3) 它們都可以用硬件來實現(xiàn). 由此可見,將神經(jīng)網(wǎng)絡與模糊系統(tǒng)結(jié)合,用于圖象復原將是有意義的研究工作。
4 未來展望
圖像恢復發(fā)展到現(xiàn)在,已經(jīng)有了許多成熟的算法,但是還是存在許多問題,等待著我們?nèi)ソ鉀Q。目前圖像恢復的最新發(fā)展有:
1. 非穩(wěn)圖像復原,即空間可變圖像復原。
2. 退化視頻信號的復原問題,以及攝像機拍照圖像復原,這是一個需要進一步研究的領(lǐng)域。
3. 運動補償時空復原濾波,同時將時間相關(guān)應用到運動補償中。
4. “Telemedicine“的出現(xiàn),遠程診斷極大的依賴于遠程接受的圖像質(zhì)量,圖像恢復在醫(yī)學領(lǐng)域中有相當重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復圖像恢復,這是一個具有發(fā)展?jié)摿Φ难芯糠较颉?/p>
參考文獻
1 馮久超,黃海東. 基于神經(jīng)網(wǎng)絡的盲圖象恢復[ J ] . 計算機科學,2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
關(guān)鍵詞: 積分投影; 循環(huán)神經(jīng)網(wǎng)絡; 長短時記憶網(wǎng)絡; 防止過擬合技術(shù); 精度; 留一法
中圖分類號:TP391.4 文獻標志碼:A 文章編號:1006-8228(2017)04-13-04
Abstract: The existing research on micro expression recognition is mainly based on the improved LBP (local binary patterns) algorithm and SVM (support vector machine). Recently, integral projection has been applied in the field of face recognition. The long and short memory network (LSTM), as a kind of recurrent neural network, can be used to process time series data. So LSTM-IP model, which combines integral projection with LSTM, is proposed, and experimented on the latest micro-expression database CASME II. The horizontal and vertical projection vectors obtained by integral projection are used as the input of LSTM and classified, and the over-fitting preventing method is used. The experimental results show that LSTM-IP algorithm gets better results than the previous method.
Key words: integral projection; recurrent neural network; long and short memory network; prevent over-fitting; accuracy; leave-one-subject-out cross validation
0 引言
人們表情的短時間變化,也叫微表情,心理學在這方面的研究很早就開始了。近年來,有關(guān)利用機器學習的方法來對微表情進行研究的學者越來越多,其成為當前一個熱門研究方向。微表情的研究成果可用于測謊[2-4]、臨床診斷等方面,因橐話閎思幢閌切睦硪繳也很難注意到1/25~1/5秒人表情的變化[1],而這時,機器可以很好的對微表情進行自動的識別。
最近,基于積分投影和紋理描述符的方法被用在人臉識別[5],然而,很少有研究將積分投影用于包含人臉的時間序列中進行識別。微表情與人臉識別有很大不同,特征很難單從每幀圖片中提取,這時就需要考慮時間軸。LSTM可以對時序數(shù)據(jù)進行分類,以前基本用在語音識別和自然語言處理的任務中,很少用于圖像識別,可能是因為LSTM處理的是一維的數(shù)據(jù),而圖像是二維的數(shù)據(jù)。將圖像的二維信息積分投影到一維(水平方向和垂直方向),并以此作為LSTM的輸入并分類,這樣就能將二者很好的結(jié)合起來。
本文構(gòu)造了基于積分投影和LSTM的深度學習的模型來對微表情進行識別。得到的結(jié)果不僅比以前的基于局部二值模式(LBP)的方法好,而且也略微的優(yōu)于最近基于積分投影的論文中的方法。
1 CASME II微表情數(shù)據(jù)集介紹
2014年,中科院心理研究所建立了更進一步改進的自然誘發(fā)的微表情數(shù)據(jù)庫CASMEII[8]。CASMEII有26個平均年齡為22歲左右的亞洲人,9類表情(happiness, surprise, disgust, fear, sadness, anger, repression, tense, negative)組成。用來錄制的高速相機為200 fps。高速相機可以捕捉更細節(jié)的微表情。CASMEII是據(jù)我們所知目前最好的自然誘發(fā)的微表情數(shù)據(jù)庫。
2 基于差分圖像的積分投影
Mateos等人的開拓性工作[6-7]表明積分投影可以提取同一人臉圖像的共同基本特征。積分投影將人臉的特征水平和垂直投影,可以用公式⑴和⑵表示:
其中It(x,y)表示時間為t時,圖像位于(x,y)時的像素值,Ht(y)和Vt(x)表示水平和垂直積分投影。直接將積分投影應用到CASME II微表情數(shù)據(jù)集上效果如圖1所示。
然而,由于微表情的變化是十分微小的,若直接采用上面的積分投影會有很多噪聲,從圖1(c)可以看出區(qū)分不是很明顯。因此,我們采用改進的積分投影方法??梢杂霉舰呛廷缺硎荆?/p>
我們將每個視頻下的2到N幀微表情的圖像減去第1幀,將得到的差分圖像做積分投影,效果如圖2所示。
從圖2的(c)可以看出,采用基于差分圖像的水平積分投影效果更好,去掉了不必要的噪聲。
3 長短時記憶網(wǎng)絡
循環(huán)神經(jīng)網(wǎng)絡(RNN)可以用來處理時序數(shù)據(jù),但它有一個明顯的缺陷,就是不能記憶發(fā)生在較久以前的信息。長短時記憶網(wǎng)絡(LSTM)[9]是一種特殊的RNN,比RNN多了一些特殊的門和細胞,可以學習長期依賴信息。LSTM結(jié)構(gòu)如圖3所示。
最上面橫著帶箭頭的線包含細胞單元,作用是記憶之前LSTM單元的信息。x和+表示點分的乘法與加法,表示Sigmoid激活函數(shù)(如公式⑸),tanh表示雙曲正切激活函數(shù)(如公式⑹)。
最下面圓圈中的X和最上面圓圈中的h分別表示時序輸入和輸出。
通用的LSTM結(jié)構(gòu)可以參考圖4,圖4中,底層節(jié)點為輸入,頂層節(jié)點為輸出,中間層為隱藏層節(jié)點或記憶塊。(a)描述的是傳統(tǒng)的 感知機(MLP)網(wǎng)絡,即不考慮數(shù)據(jù)的時序性,認為數(shù)據(jù)是獨立的;(b)將輸入序列映射為一個定長向量(分類標簽),可用于文本、視頻分類;(c)輸入為單個數(shù)據(jù)點,輸出為序列數(shù)據(jù),典型的代表為圖像標注;(d)這是一種結(jié)構(gòu)序列到序列的任務,常被用于機器翻譯,兩個序列長度不一定相等;(e)這種結(jié)構(gòu)會得到一個文本的生成模型,每詞都會預測下一時刻的字符。
4 LSTM-IP模型
因為CASME II數(shù)據(jù)集每個視頻下微表情圖像幀數(shù)是不一樣的,為了方便我們統(tǒng)一LSTM的輸入,所以我們提取了最能代表這個視頻微表情的10幀,同時,本文將整個數(shù)據(jù)集圖像的尺寸統(tǒng)一到200×200像素,將原來彩色圖像轉(zhuǎn)化為灰度圖像。通過基于差分圖像的積分投影,得到一個視頻下差分圖像每幀圖像的水平和垂直投影,一個圖像可以得到一個200維的水平向量和一個200維的垂直向量,因為差分圖像是后面9張減去了第一張圖像,所以一個視頻下共有9個水平向量和9個垂直向量,初始化兩個9×200大小的一維向量分別保存水平向量和垂直向量。
本文采用圖4(b)和圖4(e)結(jié)合的LSTM結(jié)構(gòu),如圖5所示。
頂層的X_IP表示將一個視頻下9個差分圖像的水平投影組成的9×200的一維特征向量作為輸入,經(jīng)過第一層LSTM得到9×128的一維特征向量,接著經(jīng)過第二層LSTM得到9×128的一維特征向量,最后經(jīng)過一層LSTM得到一個128的特征向量,Y_IP也是同樣的處理過程。最后將這兩部分的128的特征向量連接起來作為一個256的特征向量輸入softmax分類器,結(jié)果輸出屬于五類微表情的哪一類。在圖5的每兩層之間加入一層Dropout層,Dropout的比率設為0.5。LSTM內(nèi)部參數(shù)初始化采用了glorot_normal,相比較于其他初始化方法,glorot_normal效果最好。
Softmax和Dropout在深度學習中都是常用的技術(shù)。Softmax是邏輯斯特回歸應用于多分類的推廣。Dropout[10]這種技術(shù)的作用是減少過擬合,是一種正則化技術(shù),通過防止由完全連接的層引起神經(jīng)元的參數(shù)過多,有助于減少神經(jīng)網(wǎng)絡的過度擬合問題。給定 dropout率p,其在我們的LSTM中被設置為0.5,50%單位將被保留,而另外50%將被放棄。簡單地說,“Dropout”只是隨機忽略一些神經(jīng)元。然而在測試階段,每個神經(jīng)元的輸出將通過因子1-p(保持率)加權(quán)以保持與訓練階段中產(chǎn)生相同的效果。如圖6所示。
我們的實驗采用基于Theano的keras框架,keras借b了Torch的搭建深度學習網(wǎng)絡的方式,而且使用筆者比較熟悉的Python語言(Torch使用Lua語言),keras的底層可以是Theano或者Tensorflow,可能是因為keras最先在Theano開發(fā)的,經(jīng)過實驗比較單個GPU下,Theano的速度要比Tensorflow快,所以我們的底層采用Theano。
5 實驗結(jié)果與分析
現(xiàn)在微表情識別的算法主要是基于LBP改進的算法,例如LBP-TOP[11](Local Binary Pattern-Three Orthogonal Planes)、LBP-SIP[12](LBP-Six Intersection Points)和LOCP-TOP[13](Local ordinal contrast pattern-
TOP)等。我們將LSTM-IP算法與以前的方法做了比較,如表1所示。
實驗是在CASME II上做的,因為CASME II微表情數(shù)據(jù)集是最新最好的微表情數(shù)據(jù)集。STLBP-IP也是基于積分投影的,結(jié)合了1DLBP來提取特征。通過表1的比較我們發(fā)現(xiàn),基于積分投影的算法效果好于原來基于LBP的算法,可以得出,采用提取積分投影特征的方法在微表情數(shù)據(jù)集CASME II上效果比較好??梢钥闯?,STLBP-IP的性能優(yōu)于文獻[27]的重新實現(xiàn),STLBP-IP的精度提高了20.64%。從表1中可知,時間插值法(TIM)可以提高LBP-TOP的性能,其中LBP-TOP增加到39.68%。然而,與STLBP-IP相比,LBP-TOP在微表情識別上的效果上有很大的差距(19.43%)。比較兩種基于積分投影的方法,本文提出的方法略微好于STLBP-IP,但通過閱讀STLBP-IP的論文筆者發(fā)現(xiàn),這種方法存在繁瑣的調(diào)參過程,比如圖像如何分塊,SVM核參數(shù)的選擇,而本文提出的LSTM-IP算法可以自動從差分圖像的積分投影中學習,調(diào)參的內(nèi)容比較少,而且速度也很快。這些結(jié)果表明,LSTM-IP實現(xiàn)了令人滿意的效果,而不是LOCP-TOP和LBP-SIP。 這部分地解釋了LSTM-IP通過使用積分投影來保持形狀和辨識的能力。
實驗采用了留一法交叉驗證,CASME II有26個subjects,通過把每個subject作為測試,其余作為訓練,循環(huán)26次,最后把每次測試得到的正確視頻個數(shù)相加除以總的視頻數(shù),得到識別精度,這種方法現(xiàn)在是微表情識別主流的驗證方法。
6 Y束語
基于差分圖像的積分投影方法,保存了我們微表情形狀的特征,然后增強微表情的辨別力。深度學習在圖像識別領(lǐng)域已經(jīng)取得了很不錯的成績,而現(xiàn)在深度學習的技術(shù)還沒有應用于微表情識別。本文將差分圖像的積分投影與LSTM結(jié)合,從實驗結(jié)果上看,結(jié)果要好于以前的方法。我們認為深度學習的探索不會停止,會有越來越多新的網(wǎng)絡模型產(chǎn)生,也會有越來越多的深度學習的技術(shù)應用于微表情識別。
我們將繼續(xù)探索基于深度學習的微表情識別的方法及技術(shù)手段。卷積神經(jīng)網(wǎng)絡在圖像識別上取得了很好的成績,但筆者也將卷積神經(jīng)網(wǎng)絡應用于微表情上,效果并不好,可能是因為微表情在圖像上變化比較細微,卷積神經(jīng)網(wǎng)絡不容易捕捉到特征,但如果考慮了一個視頻時間序列的特性,也許會有比較好的結(jié)果,對此還有待進一步研究。隨著技術(shù)的進步,相信微表情識別效果會越來越好,并最終能夠應用于我們的生活中。
參考文獻(References):
[1] Ekman P. Micro Expressions Training Tool[M]. Emotion-
srevealed. com,2003.
[2] Ekman P. Darwin, deception, and facial expression[J].
Annals of the New York Academy of Sciences,2003.1000(1):205-221
[3] Ekman P. Lie catching and microexpressions[J]. The
philosophy of deception,2009:118-133
[4] Ekman P, O'Sullivan M. From flawed self-assessment to
blatant whoppers: the utility of voluntary and involuntary behavior in detecting deception[J]. Behavioral sciences & the law,2006.24(5):673-686
[5] Benzaoui A, Boukrouche A. Face recognition using 1dlbp
texture analysis[J]. Proc. FCTA,2013: 14-19
[6] Mateos G G. Refining face tracking with integral projections
[C]//International Conference on Audio-and Video-Based Biometric Person Authentication. Springer Berlin Heidelberg,2003: 360-368
[7] García-Mateos G, Ruiz-Garcia A, López-de-Teruel P
E. Human face processing with 1.5 D models[C]//International Workshop on Analysis and Modeling of Faces and Gestures. Springer Berlin Heidelberg,2007:220-234
[8] Yan W J, Li X, Wang S J, et al. CASME II: An improved
spontaneous micro-expression database and the baseline evaluation[J]. PloS one, 2014.9(1):e86041
[9] Hochreiter S, Schmidhuber J. Long short-term memory[J].
Neural computation,1997.9(8):1735-1780
[10] Hinton G E, Srivastava N, Krizhevsky A, et al. Improving
neural networks by preventing co-adaptation of feature detectors[J]. Computer Science,2012.3(4):212-223
[11] Zhao G, Pietikainen M. Dynamic texture recognition
using local binary patterns with an application to facial expressions[J]. IEEE transactions on pattern analysis and machine intelligence,2007.29(6).
[12] Wang Y, See J, Phan R C W, et al. Lbp with six
intersection points: Reducing redundant information in lbp-top for micro-expression recognition[C]//Asian Conference on Computer Vision. Springer International Publishing,2014:525-537
[13] Chan C H, Goswami B, Kittler J, et al. Local ordinal
contrast pattern histograms for spatiotemporal, lip-based speaker authentication[J]. IEEE Transactions on Information Forensics and Security,2012.7(2):602-612
P鍵詞關(guān)鍵詞:視網(wǎng)膜;PCNN;血管分割;MATLAB;GUIDE
DOIDOI:10.11907/rjdk.161883
中圖分類號:TP319
文獻標識碼:A 文章編號:1672-7800(2016)008-0068-03
0 引言
眼睛是人體接受外界信息最主要的器官,約75%左右的信息來源于視覺信息。因此,眼睛健康與否對人的學習、生活和工作的影響非常大。而眼底則是這個器官的重要組成部分,主要包括視網(wǎng)膜、脈絡膜、黃斑和視盤等。眼底視網(wǎng)膜中的血管是人體內(nèi)唯一可以非創(chuàng)傷的方式直接觀察到的較深層微血管,其顏色、亮度、位置分布、形狀以及曲率等變化可以直接反映出疾病對血管網(wǎng)絡形態(tài)結(jié)構(gòu)的影響,是心腦血管疾病對血管微循環(huán)檢查的重要部位。因此,視網(wǎng)膜圖像中血管網(wǎng)絡的檢測與分割對心腦血管疾病的診斷及治療具有重要意義[1]。
由于該方法計算公式復雜,涉及參數(shù)較多,且目前主要使用編寫腳本程序的方式進行視網(wǎng)膜眼底圖像中的血管分割,各個參數(shù)的調(diào)整都要在腳本程序中進行,非常復雜,不便于可視化地觀察實驗結(jié)果變化。因此,設計開發(fā)一款界面友好、操作簡單的視網(wǎng)膜血管分割系統(tǒng)是非常必要的。
MATLAB是一款由Mathworks公司推出的數(shù)學軟件,它在數(shù)值分析、矩陣運算、數(shù)值擬合以及圖形繪制等方面均有極其強大的功能,已被廣泛應用于數(shù)字圖像處理、信號處理和系統(tǒng)仿真等各個領(lǐng)域。同時,MATLAB 軟件具有界面友好、操作簡單的圖形可視化界面設計工具,其集成圖形用戶界面GUIDE(Graphical User Interface Development Environment)包含了窗口菜單、對話框、按鈕和文本等各種控件[2]。用戶通過對控件進行布局,編寫控件的回調(diào)函數(shù)即可實現(xiàn)GUI 與用戶之間的交互,操作十分方便。
本系統(tǒng)在對視網(wǎng)膜眼底圖像中的血管進行預處理并運用脈沖耦合神經(jīng)網(wǎng)絡(Pulse Coupled Neural Network,PCNN)迭代原理分割的基礎(chǔ)上,利用MATLAB 的圖形用戶界面開發(fā)環(huán)境(GUIDE)實現(xiàn)了視網(wǎng)膜血管分割系統(tǒng)。該系統(tǒng)為醫(yī)學圖像研究提供了一種有效的視網(wǎng)膜血管分割方法,也為醫(yī)學圖像處理提供了一個操作方便的實驗平臺。
1 研究方法
首先是對視網(wǎng)膜眼底圖像中的血管進行預處理,然后利用PCNN方法對視網(wǎng)膜圖像中的血管進行分割。
1.1 視網(wǎng)膜血管圖像預處理
所處理的視網(wǎng)膜圖像為眼底視網(wǎng)膜RGB彩色圖像,通過將RGB 彩色圖像分解成紅、綠、藍三通道單色圖像可以發(fā)現(xiàn),綠色通道的視網(wǎng)膜圖像中血管和背景對比度最高, 而紅、藍色通道的單色圖像中噪聲較多、對比度較低, 因此采用綠色通道的視網(wǎng)膜圖像進行處理。
由于視網(wǎng)膜眼底圖像是由專門的醫(yī)學設備采集的,血管周圍區(qū)域難免會對后續(xù)處理產(chǎn)生干擾,因此需要對視網(wǎng)膜圖像進行有效區(qū)域的選取。將RGB圖像進行二值化處理,使其歸一化到[0,1]之間,再依次應用形態(tài)學中的開運算、閉運算和腐蝕操作,生成二值掩膜圖像。
由于血管直徑大小不一、背景干擾以及成像時光照不均等因素影響,使得血管與背景的對比度較低。為獲得理想的分割效果,要對眼底圖像進行預處理,以增強血管和背景的對比度。本系統(tǒng)主要采用對比度受限制的自適應直方圖均衡化(CLAHE)[3]與二維高斯匹配濾波[4]方法對視網(wǎng)膜血管進行對比度的增強。
直方圖均衡化(HE)的基本思想是通過圖像的灰度分布直方圖確定一條映射曲線,用來對圖像進行灰度變換,以達到提高圖像對比度的目的。然而HE是對圖像全局進行調(diào)整的方法,不能有效提高局部對比度。為了提高圖像的局部對比度,有研究者提出自適應直方圖均衡化(AHE)方法,將圖像分成若干子塊,對子塊進行HE處理。但是AHE 對局部對比度提高過大,將導致圖像失真。為了解決這個問題,必須對局部對比度進行限制,這便是CLAHE方法。CLAHE處理后的圖像既能體現(xiàn)不同位置灰度分布之間的差異,又能使全局灰度較為協(xié)調(diào)。
二維高斯匹配濾波的原理主要是根據(jù)血管曲率較小且寬度漸進改變這一特點,將血管近似分段為等寬度的線段,然后用高斯曲線模擬其橫截面的灰度輪廓。由于血管方向具有任意性,因此需要旋轉(zhuǎn)高斯曲線來匹配不同方向的血管。每30°旋轉(zhuǎn)一次,得到從0°~180°的6個匹配濾波器,再分別與經(jīng)過CLAHE處理后的圖像進行卷積,選擇其中最大的卷積值作為增強圖像的像素值。
最后,將經(jīng)過CLAHE處理之后的圖像減去經(jīng)過CLAHE、二維高斯匹配濾波后的圖像,即可得到最終的預處理結(jié)果。
1.2 基于PCNN的視網(wǎng)膜血管分割
脈沖耦合神經(jīng)網(wǎng)絡 (PCNN ,Pulse Coupled Neutral Network)[5]是20世紀90年代形成和發(fā)展的與傳統(tǒng)人工神經(jīng)網(wǎng)絡有著根本不同的新型神經(jīng)網(wǎng)絡,其模型直接來源于高級哺乳動物的視覺神經(jīng)系統(tǒng),具有現(xiàn)實的生物學依據(jù),在圖像處理與分析及計算機視覺領(lǐng)域中有著廣泛應用。它不僅能夠克服微小變化造成的影響,而且能夠較完整地保留圖像的區(qū)域信息。因此,使用PCNN進行視網(wǎng)膜血管圖像分割具有一定優(yōu)勢。
本系統(tǒng)采用PCNN簡化模型對視網(wǎng)膜圖像血管自動分割,該模型不僅保持了原始模型的重要特性,而且減少了部分參數(shù)。用迭代公式可以描述為:
式中,Sij是外部刺激,即點(i,j)對應像素的灰度值,F(xiàn)ij是神經(jīng)元的輸入項,Lij、Uij、Yij、Eij分別是神經(jīng)元的耦合連接輸入、內(nèi)部活動項、脈沖輸出和動態(tài)閾值。VL為連接輸入域的放大系數(shù),β為神經(jīng)元之間的連接強度系數(shù),VE和αE分別為動態(tài)閾值的放大系數(shù)和衰減常數(shù)因子,W為連接加權(quán)系數(shù)矩陣。PCNN應用于眼底圖像處理時,其神經(jīng)元數(shù)目與圖像像素數(shù)目一致,各神元與像素一一對應,像素的灰度值作為對應神經(jīng)元的輸入Sij。當連接加權(quán)系數(shù)矩陣W所在鄰域內(nèi)有相似灰度值像素時,若其中某個神經(jīng)元點火產(chǎn)生脈沖輸出,會引起鄰域內(nèi)相近灰度值像素對應的神經(jīng)元點火,產(chǎn)生脈沖序列輸出,這些輸出脈沖序列構(gòu)成的二值圖像Y即為輸出的分割圖像。
2 系統(tǒng)設計思路及方法
根據(jù)上述分割過程,將系統(tǒng)設計成兩大模塊,分別對應于兩個界面,主界面為視網(wǎng)膜圖像預處理模塊,子界面為視網(wǎng)膜血管分割模塊。通過使用MATLAB GUIDE中的控件進行布局和編寫相應的回調(diào)函數(shù)來實現(xiàn)各模塊功能。
利用MATLAB GUI實現(xiàn)視網(wǎng)膜血管分割系統(tǒng)的過程可以分為GUI 圖形界面布局和GUI 程序?qū)崿F(xiàn)兩部分[6]。對于界面布局,首先要考慮窗口大小、控件位置以及界面所要實現(xiàn)的功能及各控件需要完成的任務。完成控件的布局之后,接著應對控件屬性進行設置,通過在相應的控件上雙擊鼠標左鍵,打開屬性查看器,設置該控件屬性。最后需要對各個控件進行回調(diào)函數(shù)的編寫,這是界面設計的關(guān)鍵一步,直接影響界面各個功能的實現(xiàn)。
3 系統(tǒng)功能實現(xiàn)
3.1 視網(wǎng)膜圖像預處理模塊
視網(wǎng)膜圖像預處理模塊包括選擇圖片、選擇RGB通道、CLAHE增強處理、二維高斯匹配濾波處理以及最終預處理結(jié)果5個子模塊,如圖1所示。
具體操作如下:界面初始化后自動加載一幅默認圖片,也可以由用戶選擇其它圖片;單擊“選擇圖片”按鈕,之后會彈出一個對話框,選擇要載入的圖片,可以看到圖片顯示在界面的左上角,文件名顯示在圖片正下方;然后選擇彩色通道,默認為綠色通道,選擇的通道圖像顯示在右邊區(qū)域左上角。如果勾選 “生成掩膜”選項,則后面的運行結(jié)果均會顯示出單擊“生成掩膜”之后的圖像,默認狀態(tài)為未勾選;接下來需要進行CLAHE處理,以增強圖像對比度。在這里,主要是對adapthisteq函數(shù)中的參數(shù)進行設置;最后單擊“運行”按鈕,結(jié)果顯示在右邊區(qū)域的右上角。在進行CLAHE處理之后,需要進行二維高斯匹配濾波處理,主要是對濾波核個數(shù)、血管半徑及血管段長度進行設置,以進一步增強血管與背景的對比度;然后單擊“運行”按鈕,結(jié)果顯示在右邊區(qū)域的左下角;單擊“最終預處理結(jié)果”按鈕,結(jié)果顯示在右邊區(qū)域的右下角。
3.2 視網(wǎng)膜血管分割模塊
視網(wǎng)膜血管圖像分割模塊主要是根據(jù)PCNN算法迭代原理,調(diào)節(jié)PCNN各個參數(shù),對視網(wǎng)膜血管圖像進行分割,如圖2所示。
具體操作如下:單擊主界面中的“PCNN分割”按鈕,即可進入視網(wǎng)膜血管分割模塊的界面;接著選擇所需PCNN模型和核,并設置核的半徑大小。若選擇“原始模型”,則需要設置PCNN的6個參數(shù),若選擇“改進模型”,則只需設置PCNN的4個參數(shù);之后設置迭代次數(shù)和beta的值,單擊“運行”按鈕,在彈出的對話框中,選擇一幅迭代圖片,將自動生成分割結(jié)果;對于分割后的結(jié)果,單擊“保存”按鈕,可以保存圖片;最后單擊“返回”按鈕,可以返回主界面。
4 結(jié)語
基于MATLAB 軟件在圖形繪制、數(shù)值運算及可視化界面開發(fā)等方面的優(yōu)勢,在對視網(wǎng)膜眼底圖像中的血管預處理并運用PCNN算法迭代原理進行分割的基礎(chǔ)上,通過MATLAB GUI 設計完成了視網(wǎng)膜血管分割系統(tǒng),可以實現(xiàn)視網(wǎng)膜血管圖像的增強處理,進而利用脈沖耦合神經(jīng)網(wǎng)絡方法對視網(wǎng)膜血管圖像進行分割。本系統(tǒng)提供了一種有效的視網(wǎng)膜血管分割方法,在醫(yī)學圖像研究方面具有一定參考價值。同時,系統(tǒng)具有界面友好、操作簡單等特點,為醫(yī)學圖像處理提供了一個操作方便的實驗平臺。
參考文獻:
[1] 姚暢,陳后金,李居朋. 基于過渡區(qū)提取的視網(wǎng)膜血管分割方法[J].電子學報,2008,36(5):974-978.
[2] 姚秀芳,崔松菲. 基于MATLAB GUIDE的程序設計[J]. 電腦知識與技術(shù),2009,27(5):7767-7768.
[3] 陳萌夢,熊興良,張琰,等. 1種視網(wǎng)膜眼底圖像增強的新方法[J]. 重慶醫(yī)科大學學報,2014,39(8):1087-1090.
[4] 姚暢,陳后金. 一種新的視網(wǎng)膜血管網(wǎng)絡自動分割方法[J].光電子?激光,2009,20(2):274-278.
本文作者:工作單位:安徽埃夫特智能裝備有限公司
從控制系統(tǒng)設計角度來說,可以采用辯證法內(nèi)外因基本原理來分析影響重載機器人控制品質(zhì)的因素,首先,如果系統(tǒng)存在動力學耦合、柔性等非線性因素,僅僅采用傳統(tǒng)的線性控制很難獲得良好的控制品質(zhì),底層伺服回路的控制缺陷是影響機器人控制品質(zhì)的內(nèi)因。第二,如果運動規(guī)劃環(huán)節(jié)處理不當,傳輸給底層運動控制回路的運動指令不合理,即存在位置不連續(xù),速度不連續(xù),加速度躍變等情況,對系統(tǒng)會產(chǎn)生嚴重的沖擊,即便底層伺服控制設計再優(yōu)秀,同樣也會嚴重影響系統(tǒng)控制品質(zhì),這就是所謂的外因。下面就從內(nèi)外因角度對目前在機器人運動規(guī)劃和底層伺服控制方面的相關(guān)進展進行綜述。機器人運動規(guī)劃方法運動規(guī)劃與軌跡規(guī)劃是指根據(jù)一定規(guī)則和邊界條件產(chǎn)生一些離散的運動指令作為機器人伺服回路的輸入指令。運動規(guī)劃的輸入是工作空間中若干預設點或其他運動學和動力學的約束條件;運動規(guī)劃的輸出為一組離散的位置、速度和加速度序列。運動規(guī)劃算法設計過程中主要需要考慮以下三個問題:(1)規(guī)劃空間的選取:通常情況下,機器人軌跡規(guī)劃是在全局操作空間內(nèi)進行的,因為在全局操作空間內(nèi),對運動過程的軌跡規(guī)劃、避障及幾何約束描述更為直觀。然而在一些情況下,通過運動學逆解,運動規(guī)劃會轉(zhuǎn)換到關(guān)節(jié)空間內(nèi)完成。在關(guān)節(jié)空間內(nèi)進行運動規(guī)劃優(yōu)點如下:a.關(guān)節(jié)空間內(nèi)規(guī)劃可以避免機構(gòu)運動奇異點及自由度冗余所帶來種種問題[1-4];b.機器人系統(tǒng)控制量是各軸電機驅(qū)動力矩,用于調(diào)節(jié)各軸驅(qū)動力矩的軸伺服算法設計通常情況也是在關(guān)節(jié)空間內(nèi)的,因此更容易將兩者結(jié)合起來進行統(tǒng)一考慮[5,6];c.關(guān)節(jié)空間運動規(guī)劃可以避免全局操作空間運動規(guī)劃帶來的每一個指令更新周期內(nèi)進行運動規(guī)劃和運動學正逆計算帶來的計算量,因為如果指令更新周期較短,將會對CPU產(chǎn)生較大的計算負荷。(2)基礎(chǔ)函數(shù)光滑性保證:至少需要位置指令C2和速度指令C1連續(xù),從而保證加速度信號連續(xù)。不充分光滑的運動指令會由于機械系統(tǒng)柔性激起諧振,這點對高速重載工業(yè)機器人更為明顯。在產(chǎn)生諧振的同時,軌跡跟蹤誤差會大幅度增加,諧振和沖擊也會加速機器人驅(qū)動部件的磨損甚至損壞[7]。針對這一問題,相關(guān)學者引入高次多項式或以高次多項式為基礎(chǔ)的樣條函數(shù)進行軌跡規(guī)劃,其中Boryga利用多項式多根的特性,分別采用5次、7次和9次多項式對加速度進行規(guī)劃,表達式中僅含有一個獨立參數(shù),通過運動約束條件,最終確定參數(shù)值,并比較了各自性能[8]。Gasparetto采用五次B樣條作為規(guī)劃基礎(chǔ)函數(shù),并將整個運動過程中加速度平方的積分作為目標函數(shù)進行優(yōu)化,以確保運動指令足夠光滑[9]。劉松國基于B樣條曲線,在關(guān)節(jié)空間內(nèi)提出了一種考慮運動約束的運動規(guī)劃算法,將運動學約束轉(zhuǎn)化為樣條曲線控制頂點約束,可保證角度、角速度和角加速度連續(xù),起始點和終止點角速度和角加速度可以任意配置[10]。陳偉華則在Cartesian空間內(nèi)分別采用三次均勻B樣條,三次非均勻B樣條,三次非均勻有理B樣條進行運動規(guī)劃[11]。(3)運動規(guī)劃中最優(yōu)化問題:目前常用的目標函數(shù)主要為運行時間、運行能耗和加速度。其中關(guān)于運行時間最優(yōu)的問題,較為經(jīng)典是Kang和Mckay提出的考慮系統(tǒng)動力學模型以及電機驅(qū)動力矩上限的時間最優(yōu)運動規(guī)劃算法,然而該算法加速度不連續(xù),因此對于機器人來說力矩指令也是不連續(xù)的,即加速度為無窮大,對于真實的電驅(qū)伺服系統(tǒng)來說,這是無法實現(xiàn)的,會對系統(tǒng)產(chǎn)生較大沖擊,大幅度降低系統(tǒng)的跟蹤精度,對機械本體使用壽命也會產(chǎn)生影響[12]。針對上述問題Constantinescu提出了解決方法,在考慮動力學特性的基礎(chǔ)上,增加對力矩和加速度的約束,并采用可變?nèi)莶罘▽?yōu)化問題進行求解[13]。除了以時間為優(yōu)化目標外,其他指標同樣被引入最優(yōu)運動規(guī)劃模型中。Martin采用B函數(shù),以能耗最少為優(yōu)化目標,并將該問題轉(zhuǎn)化為離散參數(shù)的優(yōu)化問題,針對數(shù)值病態(tài)問題,提出了具有遞推格式的計算表達式[14]。Saramago則在考慮能耗最優(yōu)的同時,將執(zhí)行時間作為優(yōu)化目標之一,構(gòu)成多目標優(yōu)化函數(shù),最終的優(yōu)化結(jié)果取決于兩個目標的權(quán)重系數(shù),且優(yōu)化結(jié)果對于權(quán)重系數(shù)選擇較為敏感[15]。Korayem則在考慮機器人負載能力,關(guān)節(jié)驅(qū)動力矩上限和彈性變形基礎(chǔ)上,同時以在整個運行過程中的位置波動,速度波動和能耗為目標,給出了一種最優(yōu)運動規(guī)劃方法[6],然而該方法在求解時,收斂域較小,收斂性較差,計算量較大。
考慮部件柔性的機器人控制算法機器人系統(tǒng)剛度是影響動態(tài)性能指標重要因素。一般情況下,電氣部分的系統(tǒng)剛度要遠遠大于機械部分。雖然重載工業(yè)機器人相對于輕型臂來說,其部件剛度已顯著增大,但對整體質(zhì)量的要求不會像輕型臂那么高,而柔性環(huán)節(jié)仍然不可忽略,原因有以下兩點:(1)在重載情況下,如果要確保機器人具有足夠的剛度,必然會增加機器人部件質(zhì)量。同時要達到高速高加速度要求,對驅(qū)動元件功率就會有很高的要求,實際中往往是不可實現(xiàn)(受電機的功率和成本限制)。(2)即使驅(qū)動元件功率能夠達到要求,機械本體質(zhì)量加大會導致等效負載與電機慣量比很大,這樣就對關(guān)節(jié)剛度有較高的要求,而機器人關(guān)節(jié)剛度是有上限的(主要由減速器剛度決定)。因此這種情況下不管是開鏈串聯(lián)機構(gòu)還是閉鏈機構(gòu)都會體現(xiàn)出明顯的關(guān)節(jié)柔性[16,17],在重載搬運機器人中十分明顯。針對柔性部件帶來的系統(tǒng)控制復雜性問題,傳統(tǒng)的線性控制將難以滿足控制要求[17-19],目前主要采用非線性控制方法,可以分成以下幾大類:(1)基于奇異攝動理論的模型降階與復合控制首先針對于柔性關(guān)節(jié)控制問題,美國伊利諾伊大學香檳分校著名控制論學者MarkW.Spong教授于1987年正式提出和建立柔性關(guān)節(jié)的模型和奇異攝動降階方法。對于柔性關(guān)節(jié)的控制策略絕大多數(shù)都是在Spong模型基礎(chǔ)上發(fā)展起來的。由于模型的階數(shù)高,無法直接用于控制系統(tǒng)設計,針對這個問題,相關(guān)學者對系統(tǒng)模型進行了降階。Spong首先將奇異攝動理論引入了柔性關(guān)節(jié)控制,將系統(tǒng)分成了慢速系統(tǒng)和邊界層系統(tǒng)[20],該方法為后續(xù)的研究奠定了基礎(chǔ)。Wilson等人對柔性關(guān)節(jié)降階后所得的慢速系統(tǒng)采用了PD控制律,將快速邊界層系統(tǒng)近似為二階系統(tǒng),對其阻尼進行控制,使其快速穩(wěn)定[21]。針對慢速系統(tǒng)中的未建模非線性誤差,Amjadi采用模糊控制完成了對非線性環(huán)節(jié)的學習[22]。彭濟華在對邊界層系統(tǒng)提供足夠阻尼的同時,將神經(jīng)網(wǎng)絡引入慢速系統(tǒng)控制,有效的克服了參數(shù)未知和不確定性問題。連桿柔性會導致系統(tǒng)動力學方程階數(shù)較高,Siciliano和Book將奇異攝動方法引入柔性連桿動力學方程的降階,其基本思想與將奇異攝動引入柔性關(guān)節(jié)系統(tǒng)動力學方程一致,都將柔性變形產(chǎn)生的振動視為暫態(tài)的快速系統(tǒng),將名義剛體運動視為準靜態(tài)的慢速系統(tǒng),然后分別對兩個系統(tǒng)進行復合控制,并應用于單柔性連桿的控制中[23]。英國Sheffield大學A.S.Morris教授領(lǐng)導的課題組在柔性關(guān)節(jié)奇異攝動和復合控制方面開展了持續(xù)的研究。在2002年利用Lagrange方程和假設模態(tài)以及Spong關(guān)節(jié)模型建立柔性關(guān)節(jié)和柔性連桿的耦合模型,并對奇異攝動理論降階后的慢速和快速子系統(tǒng)分別采用計算力矩控制和二次型最優(yōu)控制[24]。2003年在解決柔性關(guān)節(jié)機器人軌跡跟蹤控制時,針對慢速系統(tǒng)參數(shù)不確定問題引入RBF神經(jīng)網(wǎng)絡代替原有的計算力矩控制[25].隨后2006年在文獻[24]所得算法和子系統(tǒng)模型的基礎(chǔ)上,針對整個系統(tǒng)穩(wěn)定性和魯棒性要求,在邊界層采用Hinf控制,在慢速系統(tǒng)采用神經(jīng)網(wǎng)絡算法,并給出了系統(tǒng)的穩(wěn)定性分析[26]。隨著相關(guān)研究的開展,有些學者開始在奇異攝動理論與復合控制的基礎(chǔ)上作出相應改進。由于奇異攝動的數(shù)學復雜性和計算量問題,Spong和Ghorbel提出用積分流形代替奇異攝動[27]。針對奇異攝動模型需要關(guān)節(jié)高剛度假設,在關(guān)節(jié)柔度較大的情況下,劉業(yè)超等人提出一種剛度補償算法,拓展了奇異攝動理論的適用范圍[28]。(2)狀態(tài)反饋和自適應控制在采用奇異攝動理論進行分析時,常常要同時引入自適應控制律來完成對未知或不精確參數(shù)的處理,而采用積分流形的方式最大的缺點也在于參數(shù)的不確定性,同樣需要結(jié)合自適應控制律[29,30]。因此在考慮柔性環(huán)節(jié)的機器人高動態(tài)性能控制要求下,自適應控制律的引入具有一定的必要性。目前對于柔性關(guān)節(jié)機器人自適應控制主要思路如下:首先根據(jù)Spong模型,機器人系統(tǒng)階數(shù)為4,然后通過相應的降階方法獲得一個二階的剛體模型子系統(tǒng),而目前的大多數(shù)柔性關(guān)節(jié)自適應控制律主要針對的便是二階的剛體子系統(tǒng)中參數(shù)不確定性。Spong等人提出了將自適應控制律引入柔性關(guān)節(jié)控制,其基于柔性關(guān)節(jié)動力學奇異攝動方程,對降階剛體模型采用了自適應控制律,主要采用的是經(jīng)典的Slotine-Li自適應控制律[31],并通過與Cambridge大學Daniel之間互相糾正和修改,確立一套較為完善的基于奇異攝動模型的柔性關(guān)節(jié)自適應控制方法[32-34]。(3)輸入整形控制輸入整形最原始的思想來自于利用PosicastControl提出的時滯濾波器,其基本思想可以概括為在原有控制系統(tǒng)中引入一個前饋單元,包含一系列不同幅值和時滯的脈沖序列。將期望的系統(tǒng)輸入和脈沖序列進行卷積,產(chǎn)生一個整形的輸入來驅(qū)動系統(tǒng)。最原始的輸入整形方法要求系統(tǒng)是線性的,并且方法魯棒性較差,因此其使用受到限制。直到二十世紀九十年初由MIT的Signer博士大幅度提高該方法魯棒性,并正式將該方法命名為輸入整形法后[35],才逐漸為人們重視,并在柔性機器人和柔性結(jié)構(gòu)控制方面取得了一系列不錯的控制效果[36-39]。輸入整形技術(shù)在處理柔性機器人控制時,可以統(tǒng)一考慮關(guān)節(jié)柔性和連桿柔性。對于柔性機器人的點對點控制問題,要求快速消除殘余振蕩,使機器人快速精確定位。
這類問題對于輸入整形控制來說是較容易實現(xiàn)的,但由于機器人柔性環(huán)節(jié)較多,呈現(xiàn)出多個系統(tǒng)模態(tài),因此必須解決多模態(tài)輸入整形問題。相關(guān)學者對多模態(tài)系統(tǒng)的輸入整形進行了深入研究。多模態(tài)系統(tǒng)的輸入整形設計方法一般有:a)級聯(lián)法:為每個模態(tài)設計相應的濾波器,然后將所有模態(tài)的時滯濾波器進行級聯(lián),組合成一個完整的濾波器,以抑制所有模態(tài)的振蕩;b)聯(lián)立方程法:直接根據(jù)系統(tǒng)的靈敏度曲線建立一系列的約束方程,通過求解方程組來得到濾波器。這兩種方法對系統(tǒng)的兩種模態(tài)誤差均有很好的魯棒性。級聯(lián)法設計簡單,且對高模態(tài)的不敏感性比聯(lián)立方程法要好;聯(lián)立方程法比較直接,濾波器包含的脈沖個數(shù)少,減少了運行時間。對于多模態(tài)輸入整形控制Singer博士提出了一種高效的輸入整形方法,其基本思想為:首先在靈敏度曲線上選擇一些滿足殘留振蕩最大幅值的頻段,在這些特定的頻帶中分別選擇一些采樣頻率,計算其殘留振蕩;然后將各頻率段的殘留振蕩與期望振蕩值的差平方后累加求和,構(gòu)成目標函數(shù),求取保證目標函數(shù)最小的輸入整形序列。將頻率選擇轉(zhuǎn)化為優(yōu)化問題,對于多模態(tài)系統(tǒng),則在每個模態(tài)處分別選擇頻率采樣點和不同的阻尼系數(shù),再按上述方法求解[40]。SungsooRhim和WayneBook在2004年針對多模態(tài)振動問題提出了一種新的時延整形濾波器,并以控制對象柔性模態(tài)為變量的函數(shù)形式給出了要消除殘余振動所需最基本條件。同時指出當濾波器項數(shù)滿足基本條件時,濾波器的時延可以任意設定,消除任何給定范圍內(nèi)的任意多個柔性振動模態(tài)產(chǎn)生的殘余振動,為輸入整形控制器實現(xiàn)自適應提供了理論基礎(chǔ)[41],同時針對原有輸入整形所通常處理的點對點控制問題進行了有益補充,M.C.Reynolds和P.H.Meckl等人將輸入整形應用于關(guān)節(jié)空間的軌跡控制,提出了一種時間和輸入能量最優(yōu)的軌跡控制方法[42]。(4)不基于模型的軟計算智能控制針對含有柔性關(guān)節(jié)機器人動力學系統(tǒng)的復雜性和無法精確建模,神經(jīng)網(wǎng)絡等智能計算方法更多地被引入用于對機器人動力學模型進行近似。Ge等人利用高斯徑向函數(shù)神經(jīng)網(wǎng)絡完成柔性關(guān)節(jié)機器人系統(tǒng)的反饋線性化,仿真結(jié)果表明相比于傳統(tǒng)的基于模型的反饋線性化控制,采用該方法系統(tǒng)動態(tài)跟蹤性能較好,對于參數(shù)不確定性和動力學模型的變化魯棒性較強,但是整個算法所用的神經(jīng)網(wǎng)絡由于所需節(jié)點較多,計算量較大,并且需要全狀態(tài)反饋,狀態(tài)反饋量獲取存在一定困難[43]。孫富春等人對于只具有關(guān)節(jié)傳感器的機器人系統(tǒng)在輸出反饋控制的基礎(chǔ)上引入神經(jīng)網(wǎng)絡,用于逼近機器人模型,克服無法精確建模的非線性環(huán)節(jié)帶來的影響,從而提高機器人系統(tǒng)的動態(tài)跟蹤性能[44]。A.S.Morris針對整個柔性機器人動力學模型提出了相應的模糊控制器,并用GA算法對控制器參數(shù)進行了優(yōu)化,之后在模糊控制器的基礎(chǔ)上,綜合了神經(jīng)網(wǎng)絡的逼近功能對剛?cè)狁詈线\動進行了補償[45]。除采用神經(jīng)網(wǎng)絡外,模糊控制也在柔性機器人控制中得以應用。具有代表性的研究成果有V.G.Moudgal設計了一種具有參數(shù)自學習能力的柔性連桿模糊控制器,對系統(tǒng)進行了穩(wěn)定性分析,并與常規(guī)的模糊控制策略進行了實驗比較[46]。Lin和F.L.Lewis等人在利用奇異攝動方法基礎(chǔ)上引入模糊控制器,對所得的快速子系統(tǒng)和慢速子系統(tǒng)分別進行模糊控制[4748]??焖僮酉到y(tǒng)的模糊控制器采用最優(yōu)控制方法使柔性系統(tǒng)的振動快速消退,慢速子系統(tǒng)的模糊控制器完成名義軌跡的追蹤,并對單柔性梁進行了實驗研究。Trabia和Shi提出將關(guān)節(jié)轉(zhuǎn)角和末端振動變形分別設計模糊控制器進行控制,由于對每個子系統(tǒng)只有一個控制目標,所以模糊規(guī)則相對簡單,最后將兩個控制器的輸出進行合成,完成復合控制,其思想與奇異攝動方法下進行復合控制類似[49]。隨后又對該算法進行改進,同樣采用分布式結(jié)構(gòu),通過對輸出變量重要性進行評估,得出關(guān)節(jié)和末端點的速度量要比位置量更為重要,因此將模糊控制器分成兩部分,分別對速度和位置進行控制,并利用NelderandMeadSimplex搜索方法對隸屬度函數(shù)進行更新[50]。采用基于軟計算的智能控制方法相對于基于模型的控制方法具有很多優(yōu)勢,特別是可以與傳統(tǒng)控制方法相結(jié)合,完成對傳統(tǒng)方法無法精確建模的非線性環(huán)節(jié)進行逼近,但是目前這些方法的研究絕大部分還處于仿真階段,或在較簡單的機器人(如單自由度或兩自由度機器人)進行相關(guān)實驗研究。其應用和工程實現(xiàn)受限的主要原因在于計算量大,但隨著處理器計算能力的提高,這些方法還有廣泛的應用前景。
關(guān)鍵詞:交通標志檢測;ITS;TSR;顏色檢測;形狀檢測
中圖分類號:TB
文獻標識碼:A
doi:10.19311/ki.16723198.2017.12.089
1引言
隨著經(jīng)濟的發(fā)展,汽車出行在為人們帶來便利的同時也增加了安全事故的發(fā)生。智能交通系統(tǒng)ITS(Intelligent Transportation System)作為一種全新的汽車識別模式,能夠緩解交通事故的發(fā)生。具體表現(xiàn)在,汽車在行駛過程中,利用車載系統(tǒng)對交通標志進行識別,再反饋給駕駛員,為駕駛提供路況信息,使駕駛員能夠?qū)β窙r做出準確的判斷,減少交通意外的發(fā)生。另一方面,對于無人駕駛和交通標志的識別,也l揮著重要的維護作用。
近幾十年來,交通標志檢測與識別受到了諸多學者的關(guān)注與研究,ITS在減少安全事故和緩解道路壓力方面發(fā)揮著重要作用,交通標志識別系統(tǒng)TSR(Traffic Sign Recognition)也應運而生。交通標志識別系統(tǒng)包括很多方面,交通標志檢測是其一個子方面,但其重視程度不言而喻,它的應用范圍很廣,如無人駕駛車輛和駕駛員輔助系統(tǒng)等,在行車過程中,為駕駛員提供實時路況檢測。雖然目前在交通標志檢測方面取得了一些突破性的進展和一些階段性的成果,但隨著道路環(huán)境的多樣化和不確定因素,使得檢測仍存在諸多困難??偟膩碚f,交通標志檢測實用性強,關(guān)注度高,在任何時候熱度都不會消減,會引發(fā)更多的人去深入研究。
2交通標志檢測系統(tǒng)組成
交通標志檢測包括五部分:圖像采集,預處理,顏色分割,形狀檢測,精準定位。圖形的采集尤為重要,對于采集到傾斜的圖像,我們需要對其進行矯正處理。對于正常圖像,大多數(shù)情況我們需要對其做預處理,以消除光照等的影響,然后可以通過交通標志特有的顏色和形狀信息對其進行分割處理,以得到待選區(qū)域。再根據(jù)一些特定的算法對干擾區(qū)域進行剔除,從而得到目標區(qū)域。對于目前交通標志檢測的研究現(xiàn)狀,雖然取得了突破性的進展,但各種算法亦有優(yōu)缺點,面對復雜多變的交通環(huán)境很難做出很好的檢測,所以有必要對交通標志的檢測進行更進一步的討論和研究。
3國內(nèi)外研究現(xiàn)狀
3.1國外研究現(xiàn)狀
早在1987年日本就進行了交通標志的檢測與識別,采用了模板匹配的經(jīng)典算法,其平均識別時間為0.5秒。發(fā)到國家也不甘落后,1993年美國針對“停車”的標志研究開發(fā)了ADIS系統(tǒng),采用了顏色聚類的方法對目標進行檢測,然而AIDS存在一個明顯的缺陷,就是時間不穩(wěn)定。為了滿通標志時間識別的精確性,1994年,戴姆勒-奔馳汽車公司與大學合作開發(fā),最終,一個全新的系統(tǒng)誕生了,其速度之快令人嘆服,達到3.2s/幅,交通標志數(shù)據(jù)庫中,有40000多幅圖像,其識別準確率為98%。交通標志檢測與識別研究進入新千年。越來越多的科研工作者和科研機構(gòu)加入到交通標志檢測與識別中去,使得檢測技術(shù)有了很大的進步。在2001年Winconsin大學的Liu和Ran基于HIS空間的顏色閾值分割法,結(jié)合神經(jīng)網(wǎng)絡進行識別,經(jīng)過實驗顯示該系統(tǒng)的準確率為95%。2005年Carethloy實驗室和Nick Barnes自動化研究所利用交通標志在圖形上的對稱性來確定交通標志的質(zhì)心位置,其建立的交通標志識別系統(tǒng)的準確率為95%。在2009年Muhammad等人運用多個方法進行識別實驗得到最好的識別準確率為97%。2011年德國以德國交通標志數(shù)據(jù)庫(GTSRB)為基礎(chǔ)舉辦了交通標志識別大賽(IJCNN2011)。標志著交通標志檢測與識別受到了全世界的高度關(guān)注,這也促進了交通標志檢測與識別的研究進展。Ciresan等人在IJCNN2011大賽上采用深度卷積神經(jīng)網(wǎng)絡(Deep Convolution Neural Network)識別算法得到了比人類識別平均率高的結(jié)果。2013年,對于交通標志檢測系統(tǒng),Kim J.B將視覺顯著性模型運用到其中,使交通識別的準確性更高。
3.2國內(nèi)研究現(xiàn)狀
與國外相比,在時間上,對于交通檢測系統(tǒng),我國運用的稍微落后。在交通標志檢測研究方面,將顏色和形狀結(jié)合的相關(guān)檢測方法較為廣泛,在識別算法方面,國內(nèi)一些學者也取得了顯著性的成果。在2000年郁梅提出了一種基于顏色的快速檢測方法。2004年,根據(jù)不變矩特征和BP神經(jīng)網(wǎng)絡,王坤明等人對交通識別系統(tǒng)做了進一步的闡述。2008年,交通識別系統(tǒng)有了進一步的發(fā)展,以BP神經(jīng)網(wǎng)絡為基礎(chǔ),寧波大學朱雙東教授等人將交通標志的顏色區(qū)分成了五種最基本的顏色。2012年朱淑鑫在RGB和HIS空間上進行多閾值分割。2013年,“紅色位圖”方法被提出,其主要利用在邊緣信息的形狀檢測上,王剛毅希望通過這一方法來提高紅色圓形標志區(qū)域的檢測率。
4交通標志檢測算法現(xiàn)狀
我國的交通標志主要分為警告、禁止、指示三大類,交通標志顏色主要有紅色、藍色、黑色、黃色和白色五種基本顏色,交通標志的形狀有四大類,即三角形、矩陣、八邊形和圓形。目前針對道路交通標志檢測的算法主要是基于顏色的檢測、形狀的檢測以及顏色和形狀相結(jié)合的檢測,下面我們對常見的檢測方法進行簡單的概述。
4.1基于色的檢測方法
由于交通標志具有很明顯的顏色特征,所以很多文獻都對這一方法做了討論和研究。常見的顏色空間有RGB、HSI、Lab、Ycgcr、Ycbcr等。De La Escalear A等人運用RGB閾值的方法將顏色分類。但此方法受光照影響因素較大,為了減少光照等環(huán)境因素的影響,Ruta等人提出了RGB空間顏色增強的方法,這種方法可以快速將標志區(qū)域檢測出來。由于RGB空間亮度和色度的混合在一起的,后來研究者們運用了更符合人類對顏色的視覺理解的HIS、HSV空間。為了使交通標志的檢測精度更高,在HIS空間中設定閾值這個方法被提出了,事實上,一個交通標志可以由幾種顏色構(gòu)成,因此,S.LafuenteCArroyo等人希望通過這種方法對于不同顏色的交通標志都能檢測出來。但HIS顏色空間聚類效果不好,因此,為了更好的對交通標志的顏色進行區(qū)分,選擇聚類效果好的顏色空間至關(guān)重要,在此基礎(chǔ)上,Jitendra N.Chourasia等人主張使用Ycbcr顏色區(qū)間。
4.2基于形狀的檢測方法
除了利用顏色對交通標志進行檢測之外,還可以利用交通標志的形狀,這也是其另一個重要的特點。最常用的檢測圓形和直線是Hough變換,事實證明,Kuo W J等人通過Hough變換,對交通標志進行檢測,效果顯著,但由于其計算量大的原因不適用于實時性監(jiān)測。另一種形狀檢測法是基于拐角提取算法,Escalera等人提出拐角檢測算法,簡單來說,就是根據(jù)形狀的變化所產(chǎn)生的像素點判斷能否為拐點,來進行檢測,但是,其唯一的缺點是誤檢率也比較高。Rangarajan等人提出了一種最優(yōu)拐角檢測方法,通過設計好的掩膜與圖像做卷積運算后將拐角檢測出來,魯棒性好。
4.3基于顏色和形狀的檢測方法
既然基于顏色和基于形狀的方法都不能得到很好的交通標志檢測,于是很多學者將這兩種方法結(jié)合起來,產(chǎn)生了綜合顏色和形狀的檢測方法。并也取得了一些顯著性的成果。M.Zadeh等人利用圖像處理的相關(guān)知識,先把圖像進行顏色分割,再運用形態(tài)學的相關(guān)方法提取區(qū)域邊緣,最后對待定區(qū)域進行跟蹤和幾何分析,從而提取得到目標檢測區(qū)域。但該方法對噪聲特別敏感。所以當圖像的噪聲很強時這種檢測方法的效果并不理想。
5交通標志檢測與識別難點
盡管近幾十年提出了很多新的檢測方法,但目前的研究成果還不能夠勝任復雜多變的現(xiàn)實場景。交通標志識別系統(tǒng)TSR設計到多個研究領(lǐng)域,包括圖像處理、人工智能、模式識別和機器學習等相關(guān)領(lǐng)域,因此,關(guān)于交通標志識別系統(tǒng)的研究任重而道遠,在未來,不管是自然場景下,還是復雜場景下,對于交通識別系統(tǒng)研究,都應重點關(guān)注?,F(xiàn)階段交通標志檢測與識別主要面臨的困難和挑戰(zhàn)如下:
(1)環(huán)境對交通標志的影響。這主要表現(xiàn)在四季中風雨對交通標志的損壞,這在一定程度上會降低圖像的清晰度。交通標志長年暴露在外面,難免會出現(xiàn)變形、污損、褪色等情況,這對檢測也造成了困難。
(2)拍攝角度的影響。不同的拍攝角度對檢測具有比較大的影響,對傾斜的圖像我們需要對其做一個矯正處理。
(3)現(xiàn)場場景環(huán)境中有很多干擾物體,使得在分割的時候會把不是標志的物體也分割出來,對我們檢測帶來了一定程度上的干擾。
(4)交通標志類型復雜,種類多,目前所了解的就有130多種,包括警告標志、指示標志、禁令標志、指路標志等等,給檢測大大增加了難度。
(5)實時性改進的問題,由于汽車移動速度快,而且在移動過程中往往在一定程度上有抖動和變速等動作,捕捉到的圖像會產(chǎn)生變形模糊,處理時間過長會導致司機反應時間縮短。
(6)準確率有待進一步提升。準確率太低的話不但達不到駕駛輔助作用,反而會引起交通事故發(fā)生。
(7)沒有公用樣本數(shù)據(jù)。國內(nèi)目前統(tǒng)一的評判標準和數(shù)據(jù)庫尚未建立起來。
(8)智能交通識別系統(tǒng)服務于大眾,因此需要考慮經(jīng)濟成本問題。
綜合以上可知,由于在現(xiàn)實場景中以上問題的存在,所以在設計道路交通標志檢測與識別算法的時候必須有針對性的解決上訴問題。
6總結(jié)
總的來說,交通標志檢測與識別系統(tǒng)(TSR)的發(fā)展前景非常好,被廣泛運用于輔助駕駛系統(tǒng)、無人汽車駕駛和各種道路檢測標志的檢測修復等領(lǐng)域。本文主要對國內(nèi)外的研究現(xiàn)狀做了一個回顧和分析,許多研究學者也做出了一些階段性的成果和進展,但由于自然環(huán)境下一些復雜多變的因素對檢測造成了困難和挑戰(zhàn),因此TSR系統(tǒng)的研究還面臨許多難題有待解決。隨著人工智能和機器學習等算法的提升,我們堅信未來的道路交通標志檢測與識別會邁上一個新的臺階。
參考文獻
[1]徐華青,陳瑞南,林錦川等.道路交通標志檢測方法研究[J].福州大學學報,2010,(3):387392.
[2]常發(fā)亮,黃翠,劉成云等.基于高斯顏色模型和SVM的交通標志檢測[J].儀器儀表學報,2014,35(1):4349.
[3]Salichs M A.TRAFFIC SIGN DETECTION FOR DRIVER SUPPORT SYSTEMS[C].2001.
[4]Kehtarnavaz N,Griswold N C,Kang D S.Stop-sign recognition based on color/shape processing[J].Machine Vision and Applications,1993,6(4):206208.
[5]Priese L,Lakmann R,Rehrmann V.Ideogram identification in a realtime traffic sign recognition system[C].Intelligent Vehicles 95 Symposium. Proceedings of the.IEEE,1995:310314.
[6]Liu H,Ran B.Vision-Based Stop Sign Detection and Recognition System for Intelligent Vehicles[J].Transportation Research Record Journal of the Transportation Research Board,2001,1748(1):161166.
[7]Barnes N,Loy G,Shaw D,et al.Regular polygon detection[C].Tenth IEEE International Conference on Computer Vision.IEEE,2014:778785.
[8]Muhammad A S,Lavesson N,Davidsson P,et al.Analysis of Speed Sign Classification Algorithms Using Shape Based Segmentation of Binary Images[J].Lecture Notes in Computer Science,2009,5702:12201227.
[9]Kim J B.Detection of traffic signs based on eigen-color model and saliency model in driver assistance systems[J].International Journal of Automotive Technology,2013,14(3):429439.
[10]郁梅,郁伯康.基于彩色D像的指示標志檢測[J].計算機工程與應用,2000,36(4):169172.
[11]王坤明,許忠仁.基于不變矩和神經(jīng)網(wǎng)絡的交通標志識別方法研究[J].計算機應用研究,2004,21(3):254255.
[12]朱雙東,蔣甜甜,劉蘭蘭.基于顏色規(guī)格化的交通標志識別[J].計算機應用與軟件,2008,25(1):220222.
[13]朱淑鑫.基于顏色特征的交通標志圖像分割研究[J].考試周刊,2012,(81):111112.
[14]Wang G,Ren G,Jiang L,et al.Hole-based traffic sign detection method for traffic signs with red rim[J].The Visual Computer,2014,30(5):539551.
[15]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
[16]Ruta A,Li Y,Liu X.Real-time traffic sign recognition from video by class-specific discriminative features[J].Pattern Recognition,2010,43(1):416430.
[17]Lafuente-Arroyo S,Salcedo-Sanz S,Maldonado-Basc,et al.A decision support system for the automatic management of keep-clear signs based on support vector machines and geographic information systems[J].2010,37(1):767773.
[18]Chourasia J N,Bajaj P.Centroid Based Detection Algorithm for Hybrid Traffic Sign Recognition System[C].International Conference on Emerging Trends in Engineering and Technology.IEEE,2010:96100.
[19]Kuo W J,Lin C C.Two-Stage Road Sign Detection and Recognition[C].IEEE International Conference on Multimedia and Expo.IEEE Xplore,2007:14271430.
[20]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
關(guān)鍵詞:載荷反求;正則化;虛擬減縮;迭代方法
中圖分類號:TP391.9 文獻標志碼:A
Load Identification of Virtual Iteration Based
on Tikhonov Regularization and Model Reduction
ZHANG Bangji,ZHOU Shouyu, XIE Qingxi,ZHANG Nong
(State Key Laboratory of Advanced Design and Manufacturing for Vehicle Body,Hunan University, Changsha 410082, China)
Abstract: The model reduction technique was applied to solve the dynamic response. In order to make the system show the actual responses of the expected signals, the iteration procedure was then used to modify the load signals based on Tikhonov regularization load identification. Furthermore, the accuracy of the load signals was identified. The comparison of the proposed method with the traditional Tikhonov method shows that the proposed method can retain a good anti-noise characteristic, and improve the precision of load identification. The accuracy of the load identification by the proposed method is much higher than that of the traditional method.
Key words:load identification; regularization; virtual reduction; iterative methods
工程振動問題備受關(guān)注,結(jié)構(gòu)動態(tài)載荷的精確獲取可為工程結(jié)構(gòu)的振動分析、疲勞分析等提供基礎(chǔ),然而因經(jīng)濟性或技術(shù)條件的限制,許多情況下載荷難以通過直接測量的方式獲取,如汽車車身所受的激振力、輪船行駛時受到的波浪式?jīng)_擊載荷等.因此利用載荷反求方法間接獲取激振載荷具有重要意義.
載荷反求是通過系統(tǒng)響應和振動特性來反求結(jié)構(gòu)所受載荷,是動力學第二類反問題[1].國內(nèi)外學者針對動態(tài)載荷反求的理論和技術(shù)研究做了很多工作[2-4].傳統(tǒng)的反求方法有時域法與頻域法兩大類[5],隨著計算機技術(shù)的發(fā)展,遺傳算法[6]、神經(jīng)網(wǎng)絡[7]等新方法被應用于載荷反求領(lǐng)域.Kim等人[8]利用結(jié)構(gòu)動力學關(guān)系構(gòu)建載荷反求動力學方程,通過頻響函數(shù)求逆法進行載荷反求,用奇異值分解法(SVD)改善頻響函數(shù)求逆過程中的矩陣病態(tài)問題;Choi等人[9-10]運用最小二乘的Tikhonov正則化方法解決矩陣的病態(tài)問題,在提高載荷反求結(jié)果穩(wěn)定性與抗干擾性方面效果良好,并對比分析了不同正則化參數(shù)選擇方法對載荷反求精度的影響.國內(nèi)在正則化反求法方面做了很多研究[11-13],其中應用較廣的是Tikhonov正則化反求法.郭榮等[14]綜合運用Tikhonov正則化與奇異值分解的反求方法,有效提高了結(jié)構(gòu)載荷反求精度.
然而Tikhonov等正則化反求法存在其自身的缺陷,由于該方法對反求載荷有平滑的作用,導致在響應測試噪聲水平較高,或者系統(tǒng)線性程度不高的情況下,在反求信號的峰值處將很難得到較好結(jié)果[12].對此,結(jié)合文獻[15]中室內(nèi)試驗臺架驅(qū)動文件生成方法,提出新的載荷反求方法.其基本流程是,將Tikhonov正則化所反求的載荷重新激勵系統(tǒng),將獲得的響應與真實期望響應對比,通過誤差反饋補償來逐步修正Tikhonov正則化反求法所得到的載荷信號,以提高在載荷峰值處的反求精度.考慮到在實際工程中,所研究的對象往往是復雜結(jié)構(gòu)仿真模型,迭代中l(wèi)繁的正向求解過程相當耗時,甚至導致反求過程難以實現(xiàn).對此,本文結(jié)合模型減縮技術(shù),對大型有限元結(jié)構(gòu)進行降階處理,得到規(guī)模較小的等價模型,在保證響應計算精度的同時,極大縮短正問題的求解時間,提高計算效率.
1 虛擬迭代載荷反求原理
1.1 Tikhonov正則化理論
對于線性系統(tǒng),在待反求載荷f(t)的作用下,系統(tǒng)的響應可以由單位脈沖響應函數(shù)與動態(tài)載荷的卷積分形式表示為:
y(x,t)=∫t0G(x,t-t)f(t)dt(1)
式中:y(x,t)為結(jié)構(gòu)測點x處的響應,可以是位移、速度、加速度等;f(t)為載荷的時間歷程;G(x,t)是相應的載荷作用點到響應點的Green函數(shù),即單位脈沖響應.
考慮零初始條件系統(tǒng),可將式(1)中的卷積分在時域內(nèi)進行n個等間隔時間點離散,可化為一組線性方程組:
1.2 迭代反求算法
線性時不變系統(tǒng)響應噪聲水平不高時,采用最優(yōu)正則化參數(shù)的Tikhonov方法可較精確地反求激勵載荷,但是當系統(tǒng)響應噪聲水平較高時,即使是最優(yōu)的正則化參數(shù),也難以平衡解的逼近性與穩(wěn)定性這對矛盾;且在工程實際中,系統(tǒng)的各個環(huán)節(jié),如汽車的襯墊等連接部件,在一定程度上都存在非線性因素,導致反求難度增大.對此,采用迭代的方法,根據(jù)響應誤差反饋補償,逐步修正所求載荷信號,使其達到要求[16].
首先,對一個已知系統(tǒng),其響應信號Yδ,由上述Tikhonov正則化方法反求,計算出初始載荷信號為:
1.3 減縮技術(shù)
載荷的迭代反求過程,需要反復計算仿真系統(tǒng)的動響應,仿真系統(tǒng)通常用有限元的方式表達.但對于有限元模型,通常網(wǎng)格越密仿真精度越高,但密集的網(wǎng)格會導致響應求解時間增長,尤其在反復迭代計算過程中,正問題的求解時間過長是影響迭代的重要因素.對此,采用模型減縮技術(shù),對原始有限元模型進行降階等效,再對降階模型進行迭代響應計算,從而解決計算精度與計算效率之間的矛盾.本文采用的減縮方法是IRS[19]方法.
IRS 減縮方法是一種基于 Guyan靜力減縮法并考慮慣性力影響的改進方法.系統(tǒng)的運動方程可以表示為:
1.4 迭代收斂條件
上述Tikhonov迭代正則化算法可用流程框圖表示,如圖1所示.
2 數(shù)值算例
為了驗證上述迭代法對Tikhonov正則化反求結(jié)果的優(yōu)化作用,以及模型減縮技術(shù)對迭代效率改善的正確性與有效性,下面給出幾種不同載荷形式的算例進行仿真對比分析.選用一塊帶約束的平板,在ABAQUS中建立如圖2所示的有限元模型,平板一邊兩端用螺栓夾緊固定,模型中平板的彈性模量為210 GPa,密度為7.85 g/cm3,厚度為4 mm,邊長為500 mm.
2.1 模型減縮應用及結(jié)果分析
為提高響應計算速度以及迭代效率,對該模型進行減縮降階,在確保模型精度不受影響的情況下,用近似的低階模型代替原來復雜的高階系統(tǒng)模型來進行迭代反求.對該有限元模型,質(zhì)量矩陣和剛度矩陣通過ABAQUS被直接導出,在模型上選取包括激振點與拾振點在內(nèi)共 176個節(jié)點,用IRS減縮法在 MATLAB 中對平板模型進行模型減縮,并用模態(tài)置信度(MAC值)分析減縮前后模型模態(tài)振型吻合程度,驗證該減縮模型的精度[20].
2.1.1 減縮前后振型對比
2.1.2 動響應計算效率分析
在載荷反求過程中往往需要反復多次求取系統(tǒng)響應,因此動響應計算效率是衡量反求實際效果的重要標準.分別對算例原模型、IRS減縮模型求動態(tài)響應,比較相同時間歷程的動態(tài)響應所消耗實際CPU時間,結(jié)果如圖4所示.
由此可見,相比于原模型,IRS減縮模型大大減少了動響應計算時間,因此,模型減縮很大程度上提高了計算效率,所需計算響應時間歷程越長,效果越明顯.在本文數(shù)十次迭代計算動態(tài)響應過程中,IRS模型減縮技術(shù)的應用將極大地提高迭代計算響應效率.
2.2 載荷反求對比分析
在板面節(jié)點308#施加垂直于板面的單位載荷,選取響應節(jié)點62#垂直板面方向速度作為響應(如圖2所示).首先計算載荷點到響應節(jié)點對應的Green函數(shù);再以不同形式載荷下的響應,進行載荷反求;最后對仿真得到的響應數(shù)據(jù)加入一定水平的隨機噪聲來模擬測試誤差.此時帶噪聲的速度響應可用下式來表示:
式中:Y(t)為仿真得到的速度響應;std(Y(t))為速度響應Y(t)的標準差;lnoise為噪聲水平的百分數(shù);rand(-1,1)是區(qū)間-1,1的隨機數(shù)[12].
在速度響應中加入15%的模擬噪聲,首先用傳統(tǒng)的Tikhonov正則化方法進行載荷反求,以L曲線法確定最優(yōu)正則化參數(shù),得到待求載荷,計算反求精度;再以此反求載荷,作為初始激勵載荷,用上述虛擬迭代方法修正載荷信號,進行反求優(yōu)化,以達到精度要求;最后對比優(yōu)化前后載荷反求精度.
選用不同頻率、不同幅值周期正弦、正弦掃頻(10~100 Hz)、三角波以及隨機激勵等形式的激振力激振進行載荷反求,反求結(jié)果如圖5-圖9所示.
由圖5-圖9可以看出,對不同形式的激勵,在一定噪聲水平情況下,傳統(tǒng)的L曲線法確定最優(yōu)參數(shù)的Tikhonov正則化方法能夠很好地抑制噪聲對反求結(jié)果的干擾,具有很強的穩(wěn)健性.但在載荷峰值處,反求誤差較大,反求整體精度受影響,這主要是由于正則化方法對反求載荷有平滑的作用,使得該方法在載荷峰值難以得到準確的反求結(jié)果.Tikhonov正則化方法對這幾種載荷反求的加權(quán)誤差為8.0%左右.而本文提出的迭代Tikhonov正則化方法不僅能夠繼承傳統(tǒng)正則化方法反求結(jié)果穩(wěn)健性的優(yōu)點,同時還可以改善其在載荷峰值處反求結(jié)果,提高反求精度,反求結(jié)果加權(quán)誤差最低可降至2.0%.迭代Tikhonov正則化方法無論對確定信號還是隨機載荷激勵都有很好的反求精度,且對如圖9所示中的高頻載荷段迭代反求也有很高的精度.
3 結(jié) 論
本文在傳統(tǒng)Tikhonov正則化反求方法的基礎(chǔ)上,提出了一種新的迭代改進方案.結(jié)合有限元算例和模型減縮技術(shù),分別采用傳統(tǒng)Tikhonov方法和本文迭代方法對三角、正弦以及隨機載荷等激勵進行載荷反求.結(jié)果表明:
1)本文提出的基于Tikhonov正則化迭代反求方法不僅能夠繼承傳統(tǒng)Tikhonov正則化反求法有效抑制噪聲的特點,同時還可以提高其在峰值載荷處的反求精度,整體反求精度高;
2)應用模型減縮技術(shù)可以提高動響應求解效率,有助于載荷反求迭代過程的開展,最終又快又好的求得激勵載荷.
參考文獻
[1] MARCHUK G I. Methods of numerical mathematics[M]. Berlin: Springer-Verlag, 1975: 16-18.
[2] O興盛,劉杰,丁飛,等.基于矩陣攝動的隨機結(jié)構(gòu)動態(tài)載荷識別技術(shù)[J].機械工程學報,2014, 50(13):148-156.
SUN Xingcheng, LIU Jie, DING Fei, et al. Identification method of dynamic loads for stochastic structures based on matrix perturbation theory[J]. Journal of Mechanical Engineering, 2014, 50(13): 148-156.(In Chinese)
[3] 彭凡,馬慶鎮(zhèn),肖健,等.整體平動自由結(jié)構(gòu)載荷時域識別技術(shù)研究[J].振動與沖擊,2016, 35(6):91-95.
PENG Fan, MA Qingzhen, XIAO Jian, et al. Load identification technique in time domain for free structures with overall translation[J]. Journal of Vibration and Shock, 2016, 35(6): 91-95.(In Chinese)
[4] SANCHEZ J, BENAROYA H. Review of force reconstruction techniques[J]. Journal of Sound and Vibration, 2014, 333(14): 2999-3018.
[5] 胡寅寅,率志君,李玩幽,等.設備載荷識別與激勵源特性的研究現(xiàn)狀[J].噪聲與振動控制,2011(4):1-5.
HU Yinyin, LV Zhijun, LI Wanyou, et al. Status QUO of study on machine,s load identification technique[J]. Noise and Vibration Control, 2011(4): 1-5.(In Chinese)
[6] 劉杰,許燦,李凡,等.基于λ-PDF 和一次二階矩的不確定性反求方法[J].機械工程學報,2015, 51(20):135-143.
LIU Jie, XU Can, LI Fan, et al. Uncertain inverse method based on λ-PDF and first order second moment[J]. Journal of Mechanical Engineering, 2015, 51(20): 135-143.(In Chinese)
[7] 莫旭輝,韓旭,鐘志華.基于漸近神經(jīng)網(wǎng)絡的汽車前輪定位參數(shù)反求[J].湖南大學學報:自然科學版,2008, 35(6):18-22.
MO Xuhui, HAN Xu, ZHONG Zhihua. Identification of front wheel alignment based on the progressive neutral NETW ORK method[J]. Journal of Hunan University:Natural Sciences, 2008, 35(6): 18-22.(In Chinese)
[8] KIM Y C, NELSON P A. Optimal regularisation for acoustic source reconstruction by inverse methods[J]. Journal of Sound and Vibration, 2004, 275(3): 463-487.
[9] CHOI H G, THITE A N, THOMPSON D J. Comparison of methods for parameter selection in Tikhonov regularization with application to inverse force determination[J]. Journal of Sound and Vibration, 2007, 304(3/5): 894-917.
[10]CHOI H G, THITE A N, THOMPSON D J. A threshold for the use of Tikhonov regularization in inverse force determination[J]. Applied Acoustics, 2006, 67(7): 700-719.
[11]張磊,曹越云.總體最小二乘正則化算法的載荷識別[J].振動與沖擊,2014, 33(9):159-164.
ZHANG Lei, CAO Yueyun. Load identification using CG-TLS regulariztion algorithm[J]. Journal of Vibration and Shock, 2014, 33(9): 159-164.(In Chinese)
[12]韓旭,劉杰.時域內(nèi)多源動態(tài)載荷的一種計算反求技術(shù)[J].力學學報,2009, 41(4):595-602.
HAN Xu, LIU Jie. A computational reverse technique for multi source dynamic loads in time domain[J]. ACTA Mechanica, 2009, 41(4): 595-602.(In Chinese)
[13]常曉通,閻云聚.基于Green函數(shù)和正則化的動態(tài)載荷識別方法[J].振動、測試與診斷,2014, 34(1):124-129.
CHANG Xiaotong, YAN Yunju. Dynamic load identification method based on Green function and regularization[J]. Journal of Vibration,Measurement & Diagnosis, 2014, 34(1): 124-129.(In Chinese)
[14]郭s,房懷慶.基于Tikhonov正則化及奇異值分解的載荷識別方法[J].振動與沖擊,2014, 33(6):53-58.
GUO Rong, FANG Huaiqing. Novel load identification method based on the combination of Tikhonov regularization and singular value decomposition[J]. Journal of Vibration and Shock, 2014, 33(6): 53-58.(In Chinese)
[15]HAY N C, ROBERTS D E. Road simulators: the iterative algorithm for drive file creation[C]//2006 SAE World Congress.Detroit, Michigan, 2006: 2006-2011.
[16]陳棟華,靳曉雄,周f.汽車室內(nèi)道路模擬試驗系統(tǒng)控制算法的研究[J].噪聲與振動控制,2006(1):31-35.
CHEN Donghua, JIN Xiaoxiong, ZHOU Hong. Study on contorl algoirthm for vehicle road simulation test system[J]. Noise and Vibration Control, 2006(1): 31-35.(In Chinese)
[17]杜永昌.車輛道路模擬試驗迭代算法研究[J].農(nóng)業(yè)機械學報,2002, 33(2):5-7.
DU Yongchang. Research on iteration algorithm used for vehicle road simulation[J]. Transactions of the Chinese Society of Agricultural Machinery, 2002, 33(2): 5-7.(In Chinese)
[18]汪斌,過學迅,李孟良.基于迭代學習控制的道路模擬算法[J].汽車工程,2010, 32(8):686-689.
WANG Bin, GUO Xuexun, LI Mengliang. Road simulation algorithn based on iterative leaming control[J]. Automotive Engineering, 2010, 32(8): 686-689.(In Chinese)
[19]O'CALLAHAN J C. A procedure for an improved reduced system (IRS) model[C]//Proceedings of the 7th International Modal Analysis.Las Vegas: Union College Press, 1989: 17-21.
獨立分量分析(ICA)是統(tǒng)計信號處理近年來的一項發(fā)展。顧名思義,這是一種分解技術(shù),其特點是把信號分解成若干相互獨立的成分。主分量分析(PCA)和奇異值分解(SVD)是人們較熟悉的分解信號的線性代數(shù)方法,ICA與它們的主要不同之處表現(xiàn)在:
(1)后者只要求分解出來的各分量互相正交(不相關(guān)),但并不要求它們互相獨立。用統(tǒng)計信號處理的語言來表達,即:后者只考慮二階統(tǒng)計特性,而前者則要更全面考慮其概率密度函數(shù)的統(tǒng)計獨立性。
(2)后者按能量大小排序來考慮被分解分量的重要性。這樣的分解雖然在數(shù)據(jù)壓縮和去除弱噪聲方面有其優(yōu)點,但分解結(jié)果往往缺乏明確的生理意義。前者雖然分解出的分量其能量大小存在不確定性,但當測量值確實是由若干獨立信源混合而成時,分解結(jié)果往往具有更好的生理解釋。由于測得的生理信號往往是若干獨立成分的加權(quán)迭加(例如,誘發(fā)腦電總是被自發(fā)腦電所淹沒,而且常伴隨有心電、眼動、頭皮肌電等干擾),此ICA是一項值得注意的分解方法。
此外,神經(jīng)生理研究認為,人類對認知、感知信息的前期處理有“去冗余”的特點。ICA在這方面也表現(xiàn)出類似特性,因為互相獨立的分量之間互信息是最少的。ICA是伴隨著盲信號處理,特別是盲信源分離發(fā)展起來。其研究熱潮方興未艾,也正在引起生物醫(yī)學工程界的注意,IEEETransBME正在組織出版以它為重點的專輯。就國際范圍看,以下幾個研究單位目前工作比較領(lǐng)先:(1)美國加州大學生物系計算神經(jīng)生物學實驗室,(2)日本Riken腦科學研究所腦信息研究室,(3)芬蘭赫爾辛基工業(yè)大學計算機及信息科學實驗室,目前發(fā)表有關(guān)文獻較多的刊物有IEEETrans的SP和NN以及NeuralComputation等。本文目的是對ICA的原理、算法及應用作一簡述,以引起國內(nèi)同行對它的關(guān)注。將側(cè)重于概念說明,而不追求數(shù)學上的嚴謹性。
2原理
2.1問題的提法,s-(n)是一組互相獨立的信源,A是混合矩陣,x-(n)是觀察記錄,即x-(n)=As-(n)。問題的任務是:在A陣未知且對s-(n)除獨立性外無其它先驗知識的情況下,求解混矩陣B,使得處理結(jié)果y-(n)=Bx-(n)中各分量盡可能互相獨立,且逼近s(n)。容易理解,解答不是唯一的,它至少受以下條件的限制:(1)比例不定性:s-(n)中某一分量大K倍時,只要使相應的A陣系數(shù)減小K倍,x-(n)便保持不變。
因此,求解時往往把s-(n)假設成具有單位協(xié)方差陣,即s-中各分量均值為零,方差為1,且互相獨立。(2)排序不定性:y-與s-中各分量排序可以不同。因為只要對調(diào)B陣中任意兩行,y-中相應元素的位置也便對調(diào)。(3)s-(n)中至多只能有一個高斯型信源:這是因為高斯信源的線性組合仍是高斯型的,因此混合后便無法再區(qū)別。(4)信源數(shù)目N只能小于或等于觀測通道數(shù)M。N>M情況目前尚未解決。以下討論設M=N。因此,y-(n)只是在上述條件下對s-(n)的逼近。換名話說,任務的實質(zhì)是優(yōu)化問題,它包括兩個主要方面:優(yōu)化判據(jù)(目標函數(shù))和尋優(yōu)算法。
2.2目標函數(shù)
這一領(lǐng)域的研究者已經(jīng)從不同角度提出了多種判據(jù)。其中以互信息極小判據(jù)(MinimizationofMutualInformation,簡記MMI)和信息或熵極大判據(jù)(Informax或MaximizationofEntropy,簡記ME)應用最廣。由于最基本的獨立性判據(jù)應由概率密度函數(shù)(probabilitydensityfunction,簡記pdf)引出,而工作時pdf一般是未知的,估計它又比較困難,因此通常采用一些途徑繞過這一困難。
常用的方法有兩類:①把pdf作級數(shù)展開,從而把對pdf的估計轉(zhuǎn)化為對高階統(tǒng)計量的估計;②在圖1的輸出端引入非線性環(huán)節(jié)來建立優(yōu)化判據(jù)。后一作法實際上隱含地引入了高階統(tǒng)計量。(1)互信息極小判據(jù):統(tǒng)計獨立性的最基本判據(jù)如下:令p(y-)是y-的聯(lián)合概率密度函數(shù),pi(yi)是y-中各分量的邊際概率密度函數(shù)。當且僅當y-中各分量獨立時有:p(y-)=∏Ni=1pi(yi)因此用p(y-)與∏i=1pi(yi)間的Kullback-Leibler散度作為獨立程度的定量度量:I(y-)=KL[p(y-),∏Ni=1pi(yi)]=∫p(y-)log[p(y-)∏Ni=1pi(yi)]dy-(1)顯然,I(y-)0,當且僅當各分量獨立時I(y-)=0。因此,互信息極小判據(jù)的直接形式是:在y-=Bx-條件下尋找B,使(1)式的I(y-)極小為了使判據(jù)實際可用,需要把I(y-)中有關(guān)的pdf展成級數(shù)。
由于在協(xié)方差相等的概率分布中高斯分布的熵值最大,因此展開時常用同協(xié)方差的高斯分布作為參考標準。例如,采用Gram-Charlier展開時有:P(yi)PG(yi)=1+13!k2yih3(y-i)+14!k4yih4(yi)+…式中PG(yi)是與P(yi)具有同樣方差(σ2=1)和均值(μ=0)的高斯分布。k3yi、k4yi是yi的三、四階累計量(cumulant),hn(yi)是n階Hermit多項式。此外還有許多其他展開辦法,如Edgeworth展開,利用負熵(Negentropy)等。不論采用何種展開方式,經(jīng)推導后總可把式(1)近似改成k3、k4的函數(shù):I(y)=F(k3y-,k4y-,B)(1)’F(·)的具體形式多種多樣,視推導時的假設而異。
這樣就得到互信息判據(jù)的實用近似形式:在y-=Bx-條件下尋找B,使式(1)的I(y-)極小(2)Infomax判據(jù):這一判據(jù)的特點是在輸出端逐分量地引入一個合適的非線性環(huán)節(jié)把yi轉(zhuǎn)成ri(如圖2)??梢宰C明,如果gi(·)取為對應信源的累積分布函數(shù)cdf(它也就是概率密度函數(shù)的積分),則使r-=(r1…rN)T的熵極大等效于使I(y-)極小,因此也可達使y-中各分量獨立的要求。從而得到Infomax判據(jù):在選定適當gi(·)后,尋找B使熵H(r-)極大需要指出的是,雖然理論上gi(·)應取為各信源的cdf,但實踐證明此要求并不很嚴格,有些取值在0~1之間的單調(diào)升函數(shù)也可以被采用,如sigmoid函數(shù)、tanh(·)等。估計H(r-)固然也涉及pdf,但由于其作用已通過gi(·)引入,所以可以不必再作級數(shù)展開而直接用自適應選代尋優(yōu)步驟求解。文獻中還提出了一些其他判據(jù),如極大似然、非線性PCA等,但它們本質(zhì)上都可統(tǒng)一在信息論的框架下,所以不再一一列舉[1]。
3處理算法優(yōu)化算法
可大致分為兩類,即批處理與自適應處理。
3.1批處理批處理比較成熟的方法有兩類。較早提出的是成對旋轉(zhuǎn)法[2],其特點是把優(yōu)化過程分解成兩步。先把x-(n)經(jīng)W陣加以“球化”得z-(n),使z-(n)T=IN,即:各分量不相關(guān)且方差為1,然后再尋找合適的正交歸一陣U達到使y-各分量獨立的目的。前一步類似于PCA,后一步則可利用Givens旋轉(zhuǎn),根據(jù)目標函數(shù),將z-中各分量兩兩成對反復旋轉(zhuǎn)直到收斂。這種方法計算量較大。1999年,Gadoso提出幾種方法對它作了進一步改進[3],其中包括:Maxkurt法、JADE法、SHIBBS法等,限于篇幅,本文不再敘述。近年來,提出的另一類方法是所謂“固定點”法(FixedPointMethod)[4,5],其思路雖來源于自適應處理,但最終算法屬于批處理。
簡單地說,通過隨機梯度法調(diào)節(jié)B陣來達到優(yōu)化目標時,有:B(k+1)=B(k)+ΔB(k)ΔB(k)=-μεkB(k)式中k是選代序號,εk是瞬時目標函數(shù)。當?shù)竭_穩(wěn)態(tài)時必有[E是總集均值算子]:E[ΔB(k)]=0(2)如果ΔB(k)與B(k)有關(guān),就可由(2)式解出B的穩(wěn)態(tài)值。不過由于(2)式總是非線性方程,因此求解時仍需要采用數(shù)值方法(如牛頓法、共軛梯度法等)迭代求解。實踐證明,不論是收斂速度還是計算量,此法均優(yōu)于前一種方法,而且它還可以根據(jù)需要逐次提取最關(guān)心的yi,因此是一類值得注意的方法。
3.2結(jié)合神經(jīng)網(wǎng)絡的自適應處理結(jié)合神經(jīng)網(wǎng)絡的自適應處理算法的框圖。1994年Cichocki提出的調(diào)節(jié)算法是:B(k+1)=B(k)+ΔB(k)ΔB(k)=μk[I-Ψ(y-k)ΦT(y-k)]B(k)式中Ψ、Φ都是N維矢量,其各元素都是單調(diào)升的非線性函數(shù):Ψ(yk)=sgnyk·y2k,ΦTy-k=3tanh(10yk)所得結(jié)果雖令人鼓舞,但是方法是經(jīng)驗性的。其后學者們從理論上沿著這一方向作了更深入的討論,并發(fā)展出多種算法。概括地說,主要發(fā)展有以下幾點:
(1)引入自然梯度(或相對梯度)。按照最陡下降的隨機梯度法推導出的系數(shù)調(diào)節(jié)公式往往具有如下一般形式:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]式中的Ψ(y-k)視具體算法而異。Infomax法中Ψ(·)由所選用的g(·)決定;MMI法中則與yk的三、四階矩有關(guān)。B-T(k)是矩陣求逆再轉(zhuǎn)置,它的計算量很大。Amari[7]在1998年提出將最陡下降梯度改為“自然梯度”,兩者間關(guān)系是:[自然梯度]=[最陡下降梯度]·BT(k)B(k)于是有:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]BT(k)B(k)=μk[I-Ψ(y-k)y-Tk]B(k)由于此式避免了矩陣求逆,因此計算量明顯降低且收斂加快。目前,這一作法已被普遍接受。
(2)引入自然梯度后,采用不同的優(yōu)化判據(jù)得出的調(diào)節(jié)公式雖各有千秋,但大致都可表示為如下的“串行更新”形式:B(k+1)=B(k)+ΔB(k)=[I+H(y-k)]B(k)只是H(y-k)的具體形式各不相同。串行矩陣更新的算法還具有一些理論上值得注意的性質(zhì),如均勻特性(uniformproperty)和等變性(equivariant)等[8,9]。
(3)四階累計量k4>0的超高斯信號和k4<0的欠高斯信號,其處理過程應當予以區(qū)別。采用同一算法效果往往不好。目前的辦法多是在調(diào)節(jié)公式中引入一個開關(guān)。根據(jù)估計得k4的符號來切換不同算法,如擴展的Infomax法就是一例[10]。此法的系數(shù)調(diào)節(jié)公式是:ΔB(k)=μk[I-Ktanh(y-k)·y-Tk-y-ky-Tk]B(k)其中K是對角陣,其對角元素之值為+1或-1,視該信號分量k4>0或<0而定。為了實時應用,估計K4也可采用遞歸算法。總之,自適應算法是目前采用較廣的方法。
4應用舉例
4.1仿真計算為檢驗經(jīng)ICA算法分解信源的能力,左圖是一組源信號,它們對系統(tǒng)來說是未知的。這一組信號經(jīng)混合后的觀察信號作為(中圖所示)ICA算法的輸入,分解后的結(jié)果如右圖所示??梢钥吹?除了波形的次序、極性和波幅發(fā)生變化之外,源信號的波形被很好地分解出來。一般情況下,臨床腦電信號中既有超高斯成分(如誘發(fā)電位),也有亞高斯成分(如肌電和工頻干擾)。為了檢驗擴展Infomax算法處理這類情況的能力,我們又用此法進行了如圖6所示仿真實驗。左圖第一行是一段自發(fā)腦電信號,第二行是仿真的視覺誘發(fā)電位,第三行是肌電干擾。混合后的信號(圖中第二列所示)經(jīng)ICA分解得到如右圖所示的結(jié)果。這一結(jié)果表明擴展ICA算法在同時存在超高斯和亞高斯信號的情況下,仍然能夠很好地實現(xiàn)盲分解。但應指出:這一仿真結(jié)果并不說明通過ICA分解就能直接得到視覺誘發(fā)電位,因為還沒有涉及頭皮上的多導數(shù)據(jù)。
4.2實驗VEP分析(1)多導腦電觀察中VEP的增強:需要強調(diào),把多導腦電作ICA分解后直接取出其中與VEP有關(guān)的成分,得到的并不是頭皮電極處的VEP分量,因為它們只是分解出來的信源,而這些信源的位置并不在頭皮上,為了得到電極處測量值中的VEP成分,需按下述步驟處理:用訓練得的W陣直接對頭皮上取得的多導腦電數(shù)據(jù)進行ICA分解,得到各獨立分量組成的矩恥y=Bx(見圖7a);再根據(jù)各分量的波形特征及產(chǎn)生時段,選擇與VEP有關(guān)的一部分分量(例如在前300ms中具有較大幅度的分量),并將其余分量置0,得到新的獨立分量矩陣y’;再反變換回頭皮各電極處得x’=B-1-y’。這樣才能得到去除噪聲和干擾后各電極處的VEP。
采用這樣的方法可顯著地減少提取VEP所需要的累加次數(shù)。左圖是經(jīng)3次累加所得VEP,中圖是經(jīng)50次累加所得結(jié)果,右圖則是用左圖經(jīng)圖7中ICA處理后提取的VEP。比較中、右兩圖,兩者波形趨勢基本相同,但后者比前者其主要峰、谷顯然更清楚,而累加次數(shù)由50減到3。(2)ICA分量的空間模式:把某一個ICA分量的瞬時值經(jīng)B-1逆推回頭皮各電極處得x-’后,就可以按斷層圖的插補方法得到該時該分量在頭皮上的空間分布模式。這個空間分布模式也可以用更簡單辦法得到:只要把逆矩陣B-1中相應于某ICA分量的列中各元素的值賦與頭皮各電極處,再作斷層圖插值,就可以表現(xiàn)該ICA分量在任意時刻的空間分布模式。也就是:x’i(t)=b’ijy’j(t),i=1~N式中b’ij是B-1的第i行第j列元素。
可見ICA分量y’j(t)在頭皮各電極處的對應值等于用逆陣B-1第j列各元素來對y’j(t)加權(quán)。因此,列矢量b’j=[b’1,…,b’Nj]可以用來統(tǒng)一地表現(xiàn)任意時刻y’j的空間模式。
5總結(jié)與展望
本文粗略介紹了ICA的原理、算法和應用,可以看到ICA確是一個值得注意的研究方向,但其理論體系尚未完整,實際采用的處理方法多少還帶有經(jīng)驗性。例如為什么對非線性特性gi的要求不甚嚴格就沒有明確解釋;又如算法的穩(wěn)定性、收斂性在實踐中是經(jīng)常遇到的問題。從應用方面看也還有許多待開發(fā)的領(lǐng)域,例如如何應用于生理信號的模式識別與系統(tǒng)建模等。從生物醫(yī)學信號分析的角度看,還有一些亟待深入的問題。例如:
(1)在以上分析中混合陣A被假設為恒定。這對靜態(tài)的圖像分析或固定信源是合理的;但在生理實際中,等效信源一般在空間并不固定,因而混合陣A應視為時變的,而且傳導過程中還會引入容積導體的卷積及遲作用。這可能是實際生理信號分解結(jié)果不夠理想的原因之一。
(2)一般公認,生理信號的非平穩(wěn)性較強,而以上分析并沒有考慮信號的非平穩(wěn)性。