前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的方法主題范文,僅供參考,歡迎閱讀并收藏。
【關(guān)鍵詞】深度學(xué)習(xí) 卷積神經(jīng)網(wǎng)絡(luò) 權(quán)值共享 下采樣 R-CNN Fast-R-CNN
1 緒論
隨著電子信息技術(shù)的快速發(fā)展,芯片的設(shè)計與生產(chǎn)進(jìn)入了納米時代,計算機(jī)的計算能力與計算速度得到了空前的提高,但是人們的需求是無限的,要求計算機(jī)能更加任性化的服務(wù)于我們的生活,這也就要求計算機(jī)本身能像人一樣識別與感知周圍的環(huán)境,并對復(fù)雜的環(huán)境做出正確的判斷。而圖片信息是我們周圍環(huán)境最直觀的,最容易獲取的信息,要求計算機(jī)能對為的環(huán)境做出識別與判斷也就要求計算機(jī)能夠智能的識別圖像信息。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個新的研究領(lǐng)域。通過深度學(xué)習(xí)的方法構(gòu)建深度網(wǎng)絡(luò)來抽取目標(biāo)特征進(jìn)而識別周圍的環(huán)境。卷積神經(jīng)網(wǎng)絡(luò)對圖像的處理具有平移,旋轉(zhuǎn),扭曲不變的優(yōu)良特性。在處理圖像是更加快捷和便利。卷積神經(jīng)網(wǎng)絡(luò)使得計算機(jī)在感知識別周圍環(huán)境的能力有了巨大的提升,使得計算機(jī)更加智能。卷積神經(jīng)網(wǎng)絡(luò)擁有強(qiáng)大的特征提取能力,使得其在圖像分類識別,目標(biāo)跟蹤等領(lǐng)域有著強(qiáng)大的運用。
1.1 國內(nèi)外研究現(xiàn)狀
1986年,Rumelhart和Mc Celland提出BP算法。BP算法反向傳導(dǎo)神經(jīng)網(wǎng)絡(luò)輸出誤差進(jìn)行訓(xùn)練神經(jīng)網(wǎng)絡(luò)。通過BP算法,神經(jīng)網(wǎng)絡(luò)能夠從大量訓(xùn)練數(shù)據(jù)中的學(xué)習(xí)到相關(guān)統(tǒng)計信息,學(xué)習(xí)到的數(shù)據(jù)統(tǒng)計信息能夠反映關(guān)于輸入-輸出數(shù)據(jù)模型的函數(shù)映射關(guān)系。
自2006年以來,Geoffery Hinton教授提出深度信念網(wǎng)絡(luò)。從此深度學(xué)習(xí)在學(xué)術(shù)界持續(xù)升溫。深度學(xué)習(xí)不僅改變著傳統(tǒng)的機(jī)器學(xué)習(xí)方法,也影響著我們對人類感知的理解,迄今已在語音識別和圖像理解等應(yīng)用領(lǐng)域引起了突破性的變革。各種相關(guān)的算法和模型都取得了重要的突破,使得深度學(xué)習(xí)在圖像分類,語音識別,自然語言處理等領(lǐng)域有廣泛的運用。
2013年百度成立百度深度學(xué)習(xí)研究院以來我國的人工智能領(lǐng)域取得了長足的進(jìn)步。在人工智能專家吳恩達(dá)的帶領(lǐng)下,百度陸續(xù)推出一系列人工智能產(chǎn)品,無人駕駛技術(shù),DuerOS語音交互計算平臺,人臉識別技術(shù),美樂醫(yī)等優(yōu)秀產(chǎn)品。此外Imagenet圖像識別大賽中也誕生了一系列經(jīng)典的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),VGG,F(xiàn)ast-R-CNN,SPP-net等等,可以說人工智能技術(shù)在近幾年得到了空前的發(fā)展。
2 深度學(xué)習(xí)概述
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個新方向,通過學(xué)習(xí)樣本數(shù)據(jù)內(nèi)在規(guī)律和深層特征深度,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)能夠像人一樣有分析和學(xué)的能力,尤其在文字處理,圖像識別,語音等領(lǐng)域更加突出。能夠自主學(xué)習(xí)一些新的東西。目前深度學(xué)習(xí)使用的典型技術(shù)是通過特征表達(dá)和分類器來進(jìn)行目標(biāo)識別等任務(wù)的。并在語音識別、圖像處理、機(jī)器翻譯等領(lǐng)域取得很多成果。
深度學(xué)習(xí)不同于以往的淺層學(xué)習(xí),淺層學(xué)習(xí)模型值包含一個隱藏層,或者不存在隱藏層,深度學(xué)習(xí)則是由很多隱藏層組成的,上一層的輸出作為下一層的輸入,實驗對輸入信息進(jìn)行分級表達(dá)。目前深度學(xué)習(xí)框架主要包含三種深度學(xué)習(xí)框架,如圖1、2、3所示。
3 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)層次比傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)復(fù)雜,卷積神經(jīng)網(wǎng)絡(luò)包含大量的隱藏層,相鄰的卷積核或者下采樣核采用局部感受野全鏈接,神經(jīng)元權(quán)值共享的規(guī)則,因此卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)的數(shù)量遠(yuǎn)比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)少,卷積神經(jīng)網(wǎng)絡(luò)在訓(xùn)練和前向測試的復(fù)雜度大幅度降低,同時也減少了神經(jīng)網(wǎng)絡(luò)訓(xùn)練參數(shù)過擬合的幾率。卷積神經(jīng)網(wǎng)絡(luò)主要有兩部分,分別是卷積核和下采樣核。卷積核主要對上一層的圖像進(jìn)行卷積運算,提取圖像特征,下采樣核則是對上層的數(shù)據(jù)進(jìn)行將為處理,減少神經(jīng)網(wǎng)絡(luò)的復(fù)雜度。
卷積神經(jīng)網(wǎng)絡(luò)中每一個神經(jīng)元的輸入與前一層的局部感受野相連,提取局部感受野的特征,比如圖像的輪廓,顏色等特征,而這些特征不僅包括傳統(tǒng)人類能理解的特征,也包括神經(jīng)網(wǎng)絡(luò)自身能夠識別的特征,卷積核全職共享,因此這些特征提取與圖像的位置無關(guān)。
圖4是經(jīng)典的LeNet5卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),LeNet5架構(gòu)中卷積核和下采樣核交替出現(xiàn),下采樣核及時的將卷積核生成的特征向量進(jìn)行降維,減少神經(jīng)網(wǎng)絡(luò)的運算量。LeNet5算法在1962年幼Hubel等人提出,在識別手寫數(shù)字mnist中有極高的準(zhǔn)確率。
4 R-CNN、Fast-R-CNN對比分析
卷積神經(jīng)網(wǎng)絡(luò)在對圖像進(jìn)行識別具有平移,旋轉(zhuǎn),扭曲不變的優(yōu)良特性,并且能夠?qū)崿F(xiàn)高準(zhǔn)確率識別圖像,但是在現(xiàn)實生活運用中往往需要神經(jīng)網(wǎng)絡(luò)標(biāo)記出目標(biāo)的相對位置,這是傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不具備的功能。因此在前人傳統(tǒng)卷積神經(jīng)網(wǎng)路基礎(chǔ)上對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行改進(jìn),產(chǎn)生了具有對圖像中目標(biāo)進(jìn)行識別和定位的卷積神經(jīng)網(wǎng)絡(luò)R-CNN,F(xiàn)ast-R-CNN等改良算法。
4.1 R-CNN
R-CNN為Region Convoluntional Neural Network的縮寫即對圖像進(jìn)行局部區(qū)域的卷積處理,其核心思想主要是利用候選區(qū)圖像對物體探測中位置信息進(jìn)行精確處理和利用監(jiān)督式預(yù)訓(xùn)練和區(qū)域特殊化的微調(diào)方法,代替了傳統(tǒng)的非監(jiān)督式預(yù)訓(xùn)練和監(jiān)督式微調(diào)。
在CNN中,全連接層輸入是固定大小的,因此R-CNN用計算機(jī)視覺算法將每一張圖片分割成1000-2000張的候選區(qū)圖片后,要將這些候選區(qū)圖片進(jìn)行變換,生成固定大小的候選圖片,在訓(xùn)練提取特征時一般采用經(jīng)過預(yù)訓(xùn)練的模型參數(shù)進(jìn)行finetuning,榱嗽黽友盜費本,模型在也將生成的候選框以及標(biāo)定的標(biāo)簽作為訓(xùn)練樣本進(jìn)行訓(xùn)練。R-CNN采用SVMs分類器對特征向量進(jìn)行分類,在訓(xùn)練SVMs時將候選框經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的特征和SVM標(biāo)定結(jié)果輸入到SVMs分類器訓(xùn)練分類器模型。而在測試時將圖像全部候選框經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)提取的特征輸入到SVMs分類器中,得到每一類的評分結(jié)果。但是R-CNN在處理一張圖片是要處理需要對一張圖片1000-2000個候選區(qū)圖像進(jìn)行前向運算,保存所有后選取圖片的特征值,要求計算硬件有大量的存儲空間,同時處理每一張圖片的時間也會增加。由于訓(xùn)練集龐大,本文采用hard negative mining method方法提高存儲的利用率。
R-CNN的體現(xiàn)出了極大的優(yōu)勢,其中MAP也可以大幅度提高,但是正如本文上述,R-CNN計算的時間成本很大,達(dá)不到實時的計算效果,R-CNN在對候選區(qū)進(jìn)行處理時會使得圖像失真,部分信息丟失。
4.2 Fast-R-CNN
Fast-R-CNN則是再次改進(jìn)的一種基于卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)跟蹤定位算法。相比于R-CNN,F(xiàn)ast-R-CNN從單輸入變?yōu)殡p輸入,在全連接層后有了兩個輸出,引入了Rol層。
Fast-R-CNN在運行的時候同樣會生成大量的候選區(qū),同時將原始的圖片用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,將原始圖片提取的特征與生成的候選區(qū)坐標(biāo)送入Rol層為每一個候選區(qū)生成一個固定大小的特征向量。最后將Rol生成的特征向量全連接層產(chǎn)生最終的LOSS。Fast-R-CNN中的LOSS采用多LOSS模式,SoftMax LOSS用于計算K+1分類的損失,K為第K個目標(biāo),1為背景;Regression LOSS計算候選區(qū)的四個角的坐標(biāo)。
Fast-R-CNN在MAP上有了大幅度的提升,速度也得到了提升,但是在計算候選區(qū)是仍存在瓶頸,這也是限制Fast-R-CNN速度的因素。
5 實驗測試
對于本文提出的卷積神經(jīng)網(wǎng)絡(luò)識別圖像定位圖像目標(biāo)算法R-CNN,F(xiàn)ast-R-CNN,在本章給出實驗結(jié)果。實驗平臺為基于Linux系統(tǒng)的debian8下運行caffe進(jìn)行訓(xùn)練,采用顯卡K620進(jìn)行實驗。
訓(xùn)練模型初始化參數(shù)在是服從高斯隨機(jī)分布,R-CNN采用的網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示,F(xiàn)ast-R-CNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
本次實現(xiàn)的訓(xùn)練樣本為錄制實驗室視頻數(shù)據(jù),將視頻數(shù)據(jù)轉(zhuǎn)換成幀圖片,對每張圖片數(shù)據(jù)進(jìn)行裁剪,裁剪后圖像大小在256*256,共有500張,再將裁剪后的圖片進(jìn)行旋轉(zhuǎn),平移,扭曲,鏡像,加噪聲等處理,最后生成144萬張樣本圖片,其中136.8萬張圖片作為訓(xùn)練樣本,7.2萬張作為測試樣本。
6 總結(jié)
在目標(biāo)識別定位領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的圖像處理能力,對圖像的識別定位具有很高度平移,旋轉(zhuǎn),扭曲不變形的優(yōu)良性能。卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)R-CNN和Fast-R-CNN都有強(qiáng)大的圖像處理能力。Fast-R-CNN在識別準(zhǔn)確率上比R-CNN高。R-CNN算法復(fù)雜,對一張圖片需要進(jìn)行1000-2000次的卷積運算,特征重復(fù)提取。因此在訓(xùn)練和前向測試時,R-CNN用的時間長,不能很好的適用于處理實時圖片數(shù)據(jù),尤其視頻數(shù)據(jù)。R-CNN在對每個候選區(qū)進(jìn)行特征提取之后需要將提取的特征向量存入內(nèi)存,降低訓(xùn)練測試時間的同時也需要耗費大量內(nèi)存。因此從各方面分析可知,F(xiàn)ast-R-CNN性能優(yōu)于R-CNN。
參考文獻(xiàn)
[1]謝寶劍.基于卷積神經(jīng)網(wǎng)絡(luò)圖像分類方法研究[D].合肥工業(yè)大學(xué),2015.
[2]鄭胤,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進(jìn)展[J].中國圖象圖形學(xué)報,2014(02):175-184.
[3]陳先昌.基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)算法與運用研究[D].杭州:浙江工商大學(xué),2006(04):603-617.
[4]李彥冬,郝宗波,雷航等.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計算機(jī)應(yīng)用,2016.
[5]Gibson.J J.The perception of the Visual World[J].Cambridge,England,1950.
[6]HORN B,SCHUNCK P.Determining optical flow[J].Artificial Intelligence, 1981,17:185-203.
[7]R.Girshick,J.Donahue,T. Darrell,and J.Malik,“Rich feature hierarchies for accurate object detection and semantic segmentation,”in CVPR,2014
[8]Ross Girshick,Wicrosoft Research. Fast R-CNN,.
[9]R.Girshick.Fast R-CNN. arXiv:1504.08083,2015.
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);圖像處理;訓(xùn)練時間
中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)33-0167-04
如今在機(jī)器學(xué)習(xí)領(lǐng)域中,深度學(xué)習(xí)方法已經(jīng)占據(jù)了相當(dāng)重要的地位,通過模仿人X學(xué)習(xí)方式構(gòu)造模型,在圖像、文本、語音處理方面取得了顯著成果[1]。目前應(yīng)用較為廣泛的深度學(xué)習(xí)模型包含多層感知器模型(MLP)[2],卷積神經(jīng)網(wǎng)絡(luò)模型和限制性玻爾茲曼機(jī)模型等[4]。多層感知器[2]網(wǎng)絡(luò)結(jié)構(gòu)的神經(jīng)節(jié)點一般分層排列,主要由輸入層,輸出層和一些隱層組成,同層之間的神經(jīng)元節(jié)點無連接,相鄰的兩層神經(jīng)元進(jìn)行全連接,前一層的神經(jīng)元的輸出作為后一層神經(jīng)元的輸入,但本身此種算法存在著一些問題,那就是它的學(xué)習(xí)速度非常慢,其中一個原因就是由于層與層之間進(jìn)行全連接,所以它所需要訓(xùn)練的參數(shù)的規(guī)模是非常大的,所以對其進(jìn)行改進(jìn),產(chǎn)生了卷積神經(jīng)網(wǎng)絡(luò)模型。卷積神經(jīng)網(wǎng)絡(luò)模型在圖像識別方面的應(yīng)用十分廣泛[5,8,9]。從它的結(jié)構(gòu)上來看,層與層之間的神經(jīng)元節(jié)點采用局部連接模式,而并非MLP的全連接模型,這樣就降低了需要訓(xùn)練的參數(shù)的規(guī)模。而在它卷積層中,它的每一個濾波器作為卷積核重復(fù)作用于整個輸入圖像中,對其進(jìn)行卷積,而得出的結(jié)果作為輸入圖像的特征圖[6],這樣就提取出了圖像的局部特征。而由于每一個卷積濾波器共享相同的參數(shù),這樣也就大大降低了訓(xùn)練參數(shù)的時間成本。而本文,以卷積神經(jīng)網(wǎng)絡(luò)為研究對象,在其模型的基礎(chǔ)上通過對其結(jié)構(gòu)中卷積核也就是濾波器的大小進(jìn)行調(diào)整并結(jié)合卷積核個數(shù)調(diào)整和gpu加速等已有的訓(xùn)練提速方法,達(dá)到降低訓(xùn)練時間并且對識別結(jié)果并無太大影響的目的。
1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)在MLP的基礎(chǔ)上,已經(jīng)對結(jié)構(gòu)進(jìn)行了優(yōu)化,通過層與層之間的局部連接以及權(quán)值共享等方式對要訓(xùn)練的參數(shù)的進(jìn)行了大幅減低。
1.1局部連接
BP神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元在本層中呈線性排列狀態(tài),層與層之間進(jìn)行全連接,而在卷積神經(jīng)網(wǎng)絡(luò)中,為了減少每層之間的可訓(xùn)練參數(shù)數(shù)量,對連接方式進(jìn)行了修改,相對于BP神經(jīng)網(wǎng)絡(luò)的全連接,卷積神經(jīng)網(wǎng)絡(luò)采取了局部連接的連接方式[7],也就是說按照某種關(guān)聯(lián)因素,本層的神經(jīng)元只會與上層的部分神經(jīng)元進(jìn)行連接。
2.2 權(quán)值共享
在CNN中,卷積層中的卷積核也就是濾波器,重復(fù)作用在輸入圖像上,對其進(jìn)行卷積,最后的輸出作為他的特征圖,由于每個濾波器共享相同的參數(shù),所以說他們的權(quán)重矩陣以及偏置項是相同的。
我們從上圖看出,相同箭頭連線的權(quán)值是共享的,這樣在原有的局部連接的基礎(chǔ)上我們又降低了每層需要訓(xùn)練的參數(shù)的數(shù)量。
2.3卷積過程
特征圖是通過濾波器按照特定的步長,對輸入圖像進(jìn)行濾波,也就是說我們用一個線性的卷積核對輸入圖像進(jìn)行卷積然后附加一個偏置項,最后對神經(jīng)元進(jìn)行激活。如果我們設(shè)第k層的特征圖記為[hk],權(quán)重矩陣記為[Wk],偏置項記為[bk],那么卷積過程的公式如下所示(雙曲函數(shù)tanh作為神經(jīng)元的激活函數(shù)):
2.4 最大池采樣
通過了局部連接與權(quán)值共享等減少連接參數(shù)的方式卷積神經(jīng)網(wǎng)絡(luò)中還有另外一個重要的概念那就是最大池采樣方法,它是一種非線性的采樣方法。最大池采樣法在對減少訓(xùn)練參數(shù)數(shù)量的作用體現(xiàn)在兩個方面:
1 )它減小了來自m-1層的計算復(fù)雜度。
2 )池化的單元具有平移不變性,所以即使圖像在濾波后有小的位移,經(jīng)過池化的特征依然會保持不變。
3卷積神經(jīng)網(wǎng)絡(luò)整體構(gòu)造以及減少訓(xùn)練時間的方法
3.1使用GPU加速
本次論文實驗中,使用了theano庫在python環(huán)境下實現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)模型,在lenet手寫數(shù)字識別模型上進(jìn)行改進(jìn),由于theano庫本身支持GPU加速,所以在訓(xùn)練速度上實現(xiàn)了大幅度的提高。
3.2 數(shù)據(jù)集的預(yù)處理
本次實驗使用的兩個數(shù)據(jù)集是mnist手寫數(shù)字庫以及cifar_10庫
Mnist手寫數(shù)字庫具有60000張訓(xùn)練集以及10000張測試集,圖片的像素都為28*28,而cifar_10庫是一個用于普適物體識別的數(shù)據(jù)集,它由60000張32*32像素的RGB彩色圖片構(gòu)成,50000張圖片組成訓(xùn)練集,10000張組成測試集。而對于cifar_10數(shù)據(jù)集來說,由于圖片都是RGB的,所以我們在進(jìn)行實驗的時候,先把其轉(zhuǎn)換為灰度圖在進(jìn)行存儲。由于實驗是在python環(huán)境下運行,theano函數(shù)庫進(jìn)行算法支持,所以我們把數(shù)據(jù)集進(jìn)行處理,此處我們對使用的數(shù)據(jù)集進(jìn)行了格式化。格式化的文件包括三個list,分別是訓(xùn)練數(shù)據(jù),驗證數(shù)據(jù)和測試數(shù)據(jù)。而list中每個元素都是由圖像本身和它的相對應(yīng)的標(biāo)簽組成的。以mnist數(shù)據(jù)集為例,我們包含train_set,valid_set,test_set三個list,每個list中包含兩個元素,以訓(xùn)練集為例,第一個元素為一個784*60000的二維矩陣,第二個元素為一個包含60000個元素的列向量,第一個元素的每一行代表一張圖片的每個像素,一共60000行,第二個元素就存儲了對相應(yīng)的標(biāo)簽。而我們?nèi)∮?xùn)練樣本的10%作為驗證樣本,進(jìn)行相同的格式化,而測試樣本為沒有經(jīng)過訓(xùn)練的10000張圖片。在以cifar_10數(shù)據(jù)集為實驗對象時,把其進(jìn)行灰度化后,進(jìn)行相同的格式化處理方式。
3.3實驗?zāi)P徒Y(jié)構(gòu)
本次實驗是在python環(huán)境下基于theano函數(shù)庫搭建好的lenet模型進(jìn)行參數(shù)的調(diào)整,以達(dá)到在實驗準(zhǔn)確度可接受情況下減少訓(xùn)練時間的目的。
上圖為實驗中的基礎(chǔ)模型舉例說明實驗過程,首先以mnist數(shù)據(jù)集為例,我們的輸入圖像為一個28*28像素的手寫數(shù)字圖像,在第一層中我們進(jìn)行了卷積處理,四個濾波器在s1層中我們得到了四張?zhí)卣鲌D。在這里要特別的說明一下濾波器的大小問題,濾波器的大小可根據(jù)圖像像素大小和卷積神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)進(jìn)行設(shè)置,舉例說明,假如說我們的輸入圖像為28*28像素的圖像,我們把第一層卷積層濾波器大小設(shè)置為5*5,也就是說我們用一個大小為5*5的局部滑動窗,以步長為一對整張圖像進(jìn)行滑動濾波,則滑動窗會有24個不同的位置,也就是說經(jīng)過卷積處理后的C1層特征圖的大小為24*24。此處的濾波器大小可進(jìn)行調(diào)整,本論文希望通過對濾波器大小的調(diào)整,已達(dá)到減少訓(xùn)練時間的目的,并尋找調(diào)整的理論依據(jù)。C1層的特征圖個數(shù)與卷積過程中濾波器數(shù)量相同。S1層是C1經(jīng)過降采樣處理后得到的,也就是說四點經(jīng)過降采樣后變?yōu)橐粋€點,我們使用的是最大池方法,所以取這四個點的最大值,也就是說S1層圖像大小為12*12像素,具有4張?zhí)卣鲌D。而同理S1層經(jīng)過卷積處理得到C2層,此時我們?yōu)V波器的大小和個數(shù)也可以自行設(shè)置,得到的C2層有6張?zhí)卣鲌D,C2到S2層進(jìn)行降采樣處理,最后面的層由于節(jié)點個數(shù)較少,我們就用MLP方法進(jìn)行全連接。
3.4實驗參數(shù)改進(jìn)分析
由此可見,我們對濾波器的大小以及個數(shù)的改變,可以直接影響到卷積訓(xùn)練參數(shù)的個數(shù),從而達(dá)到減少訓(xùn)練時間的目的。
從另一種角度來看,增大濾波器的大小,實際效果應(yīng)該相似于縮小輸入圖像的像素大小,所以這樣我們可以預(yù)測增大濾波器的大小會減少樣本的訓(xùn)練時間,但是這樣也可能會降低訓(xùn)練后的分類的準(zhǔn)確率,而濾波器的大小是如何影響訓(xùn)練時間以及分類準(zhǔn)確率的,我們通過對兩種圖片庫的實驗來進(jìn)行分析。
4 實驗結(jié)果與分析
4.1以mnist手寫數(shù)字?jǐn)?shù)據(jù)集作為實驗數(shù)據(jù)
我們知道卷積層可訓(xùn)練參數(shù)的數(shù)字與濾波器的大小和數(shù)字有關(guān),所以我們通過對卷積層濾波器大小的變化來尋找較為普遍的可減少訓(xùn)練參數(shù)從而達(dá)到減少訓(xùn)練時間的目的。在實驗記錄中,我們表格縱列記錄兩層卷積層濾波器大小,橫列分別為對已經(jīng)過訓(xùn)練圖像識別和對未經(jīng)過訓(xùn)練的驗證圖像進(jìn)行識別的錯誤率,最后記錄每種濾波器大小搭配的使用時間。我們設(shè)定每次試驗都進(jìn)行100次重復(fù)訓(xùn)練,每次對權(quán)重矩陣進(jìn)行優(yōu)化。
此處我們記錄兩層濾波器大小之和作為橫坐標(biāo),比較濾波器大小與實驗之間的關(guān)系。兩層濾波器大小相加后相同的元素我們把其對應(yīng)時間做平均。
4.2以cifar_10數(shù)據(jù)集作為實驗數(shù)據(jù)
同樣是以100次循環(huán)訓(xùn)練進(jìn)行測試,通過改變兩層中濾波器的大小來尋找減少訓(xùn)練時間的設(shè)定。
此處以同樣的方法,記錄兩層濾波器大小之和作為橫坐標(biāo),比較濾波器大小與實驗之間的關(guān)系。
4.3實驗結(jié)果分析
從兩組試驗中,在不同的數(shù)據(jù)集下,我們得到了濾波器的大小與訓(xùn)練時間成反比的關(guān)系,而在減少了訓(xùn)練時間的同時確實增大了訓(xùn)練的錯誤率。
5 總結(jié)
通過實驗結(jié)果分析表明,增大卷積層濾波器大小的方法,在此兩種數(shù)據(jù)庫的情況下,是有效減小訓(xùn)練時間的方式,而在不同的數(shù)據(jù)庫對分類準(zhǔn)確率的影響程度不同,mnist手寫數(shù)字?jǐn)?shù)據(jù)庫中圖像之間的相似度非常高,所以濾波器的增大對準(zhǔn)確率產(chǎn)生的負(fù)面影響較小,而ifar_10數(shù)據(jù)集中圖像之間的相似度較小,所以增大濾波器的大小對其分類結(jié)果的準(zhǔn)確率的負(fù)面影響較大。
參考文獻(xiàn):
[1]LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2] Ruck D W, Rogers S K, Kabrisky M. Feature selection using a multilayer perceptron[J]. ]Journal of Neural Network Computing, 1990, 2(2): 40-48.
[3]LeCun Y, Bengio Y. Convolutional networks for images, speech, and time series[J]. The handbook of brain theory and neural networks, 1995, 3361(10): 1995.
[4] Larochelle H, Bengio Y. Classification using discriminative restricted Boltzmann machines[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 536-543.
[5]Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[6] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]//European Conference on Computer Vision. Springer International Publishing, 2014: 818-833.
[7] Jarrett K, Kavukcuoglu K, Lecun Y. What is the best multi-stage architecture for object recognition?[C]//2009 IEEE 12th International Conference on Computer Vision. IEEE, 2009: 2146-2153.
過去10年,人們對機(jī)器學(xué)習(xí)的興趣激增。幾乎每天,你都可以在各種各樣的計算機(jī)科學(xué)課程、行業(yè)會議、華爾街日報等等看到有關(guān)機(jī)器學(xué)習(xí)的討論。在所有關(guān)于機(jī)器學(xué)習(xí)的討論中,許多人把機(jī)器學(xué)習(xí)能做的事情和他們希望機(jī)器學(xué)習(xí)做的事情混為一談。從根本上講,機(jī)器學(xué)習(xí)是使用算法從原始數(shù)據(jù)中提取信息,并在某種類型的模型中表示這些信息。我們使用這個模型來推斷還沒有建模的其他數(shù)據(jù)。
神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一種模型,它們至少有50年歷史了。神經(jīng)網(wǎng)絡(luò)的基本單元是節(jié)點(node),基本上是受哺乳動物大腦中的生物神經(jīng)元啟發(fā)。神經(jīng)元之間的連接也以生物的大腦為模型,這些連接隨著時間的推移而發(fā)展的方式是為“訓(xùn)練”。
在20世紀(jì)80年代中期和90年代初期,許多重要的架構(gòu)進(jìn)步都是在神經(jīng)網(wǎng)絡(luò)進(jìn)行的。然而,為了得到好的結(jié)果需要大量時間和數(shù)據(jù),這阻礙了神經(jīng)網(wǎng)絡(luò)的采用,因而人們的興趣也減少了。在21世紀(jì)初,計算能力呈指數(shù)級增長,計算技術(shù)出現(xiàn)了“寒武紀(jì)大爆發(fā)”。在這個10年的爆炸式的計算增長中,深度學(xué)習(xí)成為這個領(lǐng)域的重要的競爭者,贏得了許多重要的機(jī)器學(xué)習(xí)競賽。直到2017年,這種興趣也還沒有冷卻下來;今天,我們看到一說機(jī)器學(xué)習(xí),就不得不提深度學(xué)習(xí)。
作者本人也注冊了Udacity的“Deep Learning”課程,這門課很好地介紹了深度學(xué)習(xí)的動機(jī),以及從TensorFlow的復(fù)雜和/或大規(guī)模的數(shù)據(jù)集中學(xué)習(xí)的智能系統(tǒng)的設(shè)計。在課程項目中,我使用并開發(fā)了用于圖像識別的卷積神經(jīng)網(wǎng)絡(luò),用于自然語言處理的嵌入式神經(jīng)網(wǎng)絡(luò),以及使用循環(huán)神經(jīng)網(wǎng)絡(luò)/長短期記憶的字符級文本生成。
本文中,作者總結(jié)了10個強(qiáng)大的深度學(xué)習(xí)方法,這是AI工程師可以應(yīng)用于他們的機(jī)器學(xué)習(xí)問題的。首先,下面這張圖直觀地說明了人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)三者之間的關(guān)系。
人工智能的領(lǐng)域很廣泛,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域的一個子集,機(jī)器學(xué)習(xí)又是人工智能的一個子領(lǐng)域。將深度學(xué)習(xí)網(wǎng)絡(luò)與“經(jīng)典的”前饋式多層網(wǎng)絡(luò)區(qū)分開來的因素如下:
比以前的網(wǎng)絡(luò)有更多的神經(jīng)元更復(fù)雜的連接層的方法用于訓(xùn)練網(wǎng)絡(luò)的計算機(jī)能力的“寒武紀(jì)大爆炸”自動特征提取
這里說的“更多的神經(jīng)元”時,是指神經(jīng)元的數(shù)量在逐年增加,以表達(dá)更復(fù)雜的模型。層(layers)也從多層網(wǎng)絡(luò)中的每一層都完全連接,到在卷積神經(jīng)網(wǎng)絡(luò)中層之間連接局部的神經(jīng)元,再到在循環(huán)神經(jīng)網(wǎng)絡(luò)中與同一神經(jīng)元的循環(huán)連接(recurrent connections)。
深度學(xué)習(xí)可以被定義為具有大量參數(shù)和層的神經(jīng)網(wǎng)絡(luò),包括以下四種基本網(wǎng)絡(luò)結(jié)構(gòu):
無監(jiān)督預(yù)訓(xùn)練網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)
在本文中,主要介紹后三種架構(gòu)?;旧?,卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一個標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò),通過共享的權(quán)重在空間中擴(kuò)展。CNN設(shè)計用于通過內(nèi)部的卷積來識別圖像,它可以看到圖像中待識別的物體的邊緣。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)被設(shè)計用于識別序列,例如語音信號或文本。它的內(nèi)部有循環(huán),這意味著網(wǎng)絡(luò)上有短的記憶。遞歸神經(jīng)網(wǎng)絡(luò)更像是一個層級網(wǎng)絡(luò),在這個網(wǎng)絡(luò)中,輸入必須以一種樹的方式進(jìn)行分層處理。下面的10種方法可以應(yīng)用于所有這些架構(gòu)。
1.反向傳播
反向傳播(Back-prop)是一種計算函數(shù)偏導(dǎo)數(shù)(或梯度)的方法,具有函數(shù)構(gòu)成的形式(就像神經(jīng)網(wǎng)絡(luò)中)。當(dāng)使用基于梯度的方法(梯度下降只是方法之一)解決優(yōu)化問題時,你需要在每次迭代中計算函數(shù)梯度。
對于神經(jīng)網(wǎng)絡(luò),目標(biāo)函數(shù)具有組合的形式。如何計算梯度呢?有兩種常用的方法:(i)解析微分(Analytic differentiation)。你已經(jīng)知道函數(shù)的形式,只需要用鏈?zhǔn)椒▌t(基本微積分)來計算導(dǎo)數(shù)。(ii)利用有限差分進(jìn)行近似微分。這種方法在計算上很昂貴,因為函數(shù)值的數(shù)量是O(N),N指代參數(shù)的數(shù)量。不過,有限差分通常用于在調(diào)試時驗證back-prop實現(xiàn)。
2.隨機(jī)梯度下降法
一種直觀理解梯度下降的方法是想象一條河流從山頂流下的路徑。梯度下降的目標(biāo)正是河流努力達(dá)到的目標(biāo)——即,到達(dá)最底端(山腳)。
現(xiàn)在,如果山的地形是這樣的,在到達(dá)最終目的地之前,河流不會完全停下來(這是山腳的最低點,那么這就是我們想要的理想情況。)在機(jī)器學(xué)習(xí)中,相當(dāng)從初始點(山頂)開始,我們找到了解決方案的全局最小(或最佳)解。然而,可能因為地形的性質(zhì)迫使河流的路徑出現(xiàn)幾個坑,這可能迫使河流陷入困境。在機(jī)器學(xué)習(xí)術(shù)語中,這些坑被稱為局部極小值,這是不可取的。有很多方法可以解決這個問題。
因此,梯度下降很容易被困在局部極小值,這取決于地形的性質(zhì)(用ML的術(shù)語來說是函數(shù)的性質(zhì))。但是,當(dāng)你有一種特殊的地形時(形狀像一個碗,用ML的術(shù)語來說,叫做凸函數(shù)),算法總是保證能找到最優(yōu)解。凸函數(shù)對ML的優(yōu)化來說總是好事,取決于函數(shù)的初始值,你可能會以不同的路徑結(jié)束。同樣地,取決于河流的速度(即,梯度下降算法的學(xué)習(xí)速率或步長),你可能以不同的方式到達(dá)最終目的地。這兩個標(biāo)準(zhǔn)都會影響到你是否陷入坑里(局部極小值)。
3.學(xué)習(xí)率衰減
根據(jù)隨機(jī)梯度下降的優(yōu)化過程調(diào)整學(xué)習(xí)率(learning rate)可以提高性能并減少訓(xùn)練時間。有時這被稱為學(xué)習(xí)率退火(learning rate annealing)或自適應(yīng)學(xué)習(xí)率(adaptive learning rates)。訓(xùn)練過程中最簡單,也是最常用的學(xué)習(xí)率適應(yīng)是隨著時間的推移而降低學(xué)習(xí)度。在訓(xùn)練過程開始時使用較大學(xué)習(xí)率具有進(jìn)行大的改變的好處,然后降低學(xué)習(xí)率,使得后續(xù)對權(quán)重的訓(xùn)練更新更小。這具有早期快速學(xué)習(xí)好權(quán)重,后面進(jìn)行微調(diào)的效果。
兩種常用且易于使用的學(xué)習(xí)率衰減方法如下:
逐步降低學(xué)習(xí)率。在特定的時間點較大地降低學(xué)習(xí)率。
4?. Dropout
具有大量參數(shù)的深度神經(jīng)網(wǎng)絡(luò)是非常強(qiáng)大的機(jī)器學(xué)習(xí)系統(tǒng)。然而,過擬合在這樣的網(wǎng)絡(luò)中是一個嚴(yán)重的問題。大型網(wǎng)絡(luò)的使用也很緩慢,這使得在測試時將許多不同的大型神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)合起來變得困難。Dropout是解決這個問題的一種方法。
Dropout的關(guān)鍵想法是在訓(xùn)練過程中隨機(jī)地從神經(jīng)網(wǎng)絡(luò)中把一些units(以及它們的連接)從神經(jīng)網(wǎng)絡(luò)中刪除。這樣可以防止單元過度適應(yīng)。在訓(xùn)練過程中,從一個指數(shù)級的不同的“稀疏”網(wǎng)絡(luò)中刪除一些樣本。在測試時,通過簡單地使用一個具有較小權(quán)重的單一網(wǎng)絡(luò),可以很容易地估計所有這些“變瘦”了的網(wǎng)絡(luò)的平均預(yù)測效果。這顯著減少了過擬合,相比其他正則化方法有了很大改進(jìn)。研究表明,在視覺、語音識別、文檔分類和計算生物學(xué)等監(jiān)督學(xué)習(xí)任務(wù)中,神經(jīng)網(wǎng)絡(luò)的表現(xiàn)有所提高,在許多基準(zhǔn)數(shù)據(jù)集上獲得了state-of-the-art的結(jié)果。
5. Max Pooling
最大池化(Max pooling)是一個基于樣本的離散化過程。目標(biāo)是對輸入表示(圖像,隱藏層輸出矩陣等)進(jìn)行下采樣,降低其維度,并允許對包含在分區(qū)域中的特征進(jìn)行假設(shè)。
這在一定程度上是為了通過提供一種抽象的表示形式來幫助過擬合。同時,它通過減少學(xué)習(xí)的參數(shù)數(shù)量,并為內(nèi)部表示提供基本的平移不變性(translation invariance),從而減少計算成本。最大池化是通過將一個最大過濾器應(yīng)用于通常不重疊的初始表示的子區(qū)域來完成的。
6.批量歸一化
當(dāng)然,包括深度網(wǎng)絡(luò)在內(nèi)的神經(jīng)網(wǎng)絡(luò)需要仔細(xì)調(diào)整權(quán)重初始化和學(xué)習(xí)參數(shù)。而批量標(biāo)準(zhǔn)化有助于實現(xiàn)這一點。
權(quán)重問題:無論權(quán)重的初始化如何,是隨機(jī)的也好是經(jīng)驗性的選擇也罷,都距離學(xué)習(xí)到的權(quán)重很遙遠(yuǎn)。考慮一個小批量(mini batch),在最初時,在所需的特征激活方面將會有許多異常值。
深度神經(jīng)網(wǎng)絡(luò)本身是有缺陷的,初始層中一個微小的擾動,就會導(dǎo)致后面層巨大的變化。在反向傳播過程中,這些現(xiàn)象會導(dǎo)致對梯度的分散,這意味著在學(xué)習(xí)權(quán)重以產(chǎn)生所需輸出之前,梯度必須補(bǔ)償異常值,而這將導(dǎo)致需要額外的時間才能收斂。
批量歸一化將梯度從分散規(guī)范化到正常值,并在小批量范圍內(nèi)向共同目標(biāo)(通過歸一化)流動。
學(xué)習(xí)率問題:一般來說,學(xué)習(xí)率保持較低,只有一小部分的梯度校正權(quán)重,原因是異常激活的梯度不應(yīng)影響學(xué)習(xí)的激活。通過批量歸一化,減少異常激活,因此可以使用更高的學(xué)習(xí)率來加速學(xué)習(xí)過程。
7.長短時記憶
LSTM網(wǎng)絡(luò)在以下三個方面與RNN的神經(jīng)元不同:
能夠決定何時讓輸入進(jìn)入神經(jīng)元;能夠決定何時記住上一個時間步中計算的內(nèi)容;能夠決定何時讓輸出傳遞到下一個時間步長。
LSTM的優(yōu)點在于它根據(jù)當(dāng)前的輸入本身來決定所有這些。所以,你看下面的圖表:
當(dāng)前時間標(biāo)記處的輸入信號x(t)決定所有上述3點。輸入門從點1接收決策,遺忘門從點2接收決策,輸出門在點3接收決策,單獨的輸入能夠完成所有這三個決定。這受到我們的大腦如何工作的啟發(fā),并且可以基于輸入來處理突然的上下文/場景切換。
8. Skip-gram
詞嵌入模型的目標(biāo)是為每個詞匯項學(xué)習(xí)一個高維密集表示,其中嵌入向量之間的相似性顯示了相應(yīng)詞之間的語義或句法相似性。Skip-gram是學(xué)習(xí)單詞嵌入算法的模型。
Skip-gram模型(以及許多其他的詞語嵌入模型)的主要思想是:如果兩個詞匯項(vocabulary term)共享的上下文相似,那么這兩個詞匯項就相似。
換句話說,假設(shè)你有一個句子,比如“貓是哺乳動物”。如果你用“狗”去替換“貓”,這個句子仍然是一個有意義的句子。因此在這個例子中,“狗”和“貓”可以共享相同的上下文(即“是哺乳動物”)。
基于上述假設(shè),你可以考慮一個上下文窗口(context window,一個包含k個連續(xù)項的窗口),然后你跳過其中一個單詞,試著去學(xué)習(xí)一個能夠得到除跳過項外所有項的神經(jīng)網(wǎng)絡(luò),并預(yù)測跳過的項是什么。如果兩個詞在一個大語料庫中反復(fù)共享相似的語境,則這些詞的嵌入向量將具有相近的向量。
9.連續(xù)詞袋(Continuous Bag Of Words)
在自然語言處理問題中,我們希望學(xué)習(xí)將文檔中的每個單詞表示為一個數(shù)字向量,使得出現(xiàn)在相似的上下文中的單詞具有彼此接近的向量。在連續(xù)的單詞模型中,我們的目標(biāo)是能夠使用圍繞特定單詞的上下文并預(yù)測特定單詞。
我們通過在一個龐大的語料庫中抽取大量的句子來做到這一點,每當(dāng)我們看到一個單詞時,我們就會提取它周圍的單詞。然后,我們將上下文單詞輸入到一個神經(jīng)網(wǎng)絡(luò),并預(yù)測位于這個上下文中心的單詞。
當(dāng)我們有成千上萬的這樣的上下文單詞和中心詞以后,我們就有了一個神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集的實例。訓(xùn)練神經(jīng)網(wǎng)絡(luò),最后編碼的隱藏層輸出表示特定單詞的嵌入。而當(dāng)我們對大量的句子進(jìn)行訓(xùn)練時也能發(fā)現(xiàn),類似語境中的單詞得到的是相似的向量。
10.遷移學(xué)習(xí)
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);反向傳播算法;仿射變換;sloth;python;theano
中圖分類號:TP391.41 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)04-0096-02
隨著環(huán)保壓力的增大,各國已經(jīng)開始利用攝像頭來監(jiān)控漁船的捕撈活動,并運用機(jī)器學(xué)習(xí)技術(shù)來對漁船捕獲的魚類圖像進(jìn)行自動的識別與分類從而扼制非法的捕撈。
目前計算機(jī)性能的飛速發(fā)展、圖像數(shù)據(jù)采集設(shè)備的廉價與普及促進(jìn)了機(jī)器學(xué)習(xí)理論與方法的發(fā)展,數(shù)據(jù)科學(xué)家已經(jīng)可以構(gòu)建復(fù)雜的機(jī)器學(xué)習(xí)模型并利用從廉價的數(shù)碼攝像頭設(shè)備采集到大量的數(shù)據(jù)快速的訓(xùn)練模型。吳一全等[1]采用了手動選擇特征的方法, 基于支持向量機(jī)對5種魚進(jìn)行識別,各類魚的識別精度平均為83.33%。萬鵬等[2]計算魚的長軸方向各段的平均寬度與長度的比值并將其作為特征參數(shù),利用3層BP(back propagation)神經(jīng)網(wǎng)絡(luò)對鯽魚和鯉魚進(jìn)行識別,識別精度為92.50%。但是這些方法都是基于手動選擇特征的機(jī)器學(xué)習(xí)方法,手動選擇特征的方法基于人的經(jīng)驗選擇特征, 會導(dǎo)致遺漏重要的特征, 導(dǎo)致分類準(zhǔn)確率低。深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)能在訓(xùn)練過程中自動學(xué)到“好”特征,避免了手動選擇特征。本次研究采用了基于VGG16的卷積神經(jīng)網(wǎng)絡(luò)(CNN)來進(jìn)行魚類分類,并運用了數(shù)據(jù)集擴(kuò)增方法,dropout方法, batch normalization方法來降低模型的過擬合。但是原始數(shù)據(jù)集背景干擾很大,船上的人、物體和甲板上捕獲的魚類糅合在一起,直接采用原始數(shù)據(jù)集訓(xùn)練會導(dǎo)致訓(xùn)練出的模型穩(wěn)定性不好。
基于上述分析,本文從原始數(shù)據(jù)出發(fā),設(shè)計了一種目標(biāo)檢測方法,即在原始訓(xùn)練數(shù)據(jù)已經(jīng)有魚類類別標(biāo)簽的基礎(chǔ)上,再標(biāo)注上一層表示魚類在圖片中坐標(biāo)位置的標(biāo)簽,然后利用這些二次標(biāo)注過的數(shù)據(jù)訓(xùn)練模型,就可得到一個既能預(yù)測魚在圖片中的坐標(biāo)位置又能預(yù)測魚的分類的糅合模型。因為這兩種預(yù)測網(wǎng)絡(luò)在卷積層共同訓(xùn)練一套濾波器,所以在訓(xùn)練濾波器預(yù)測魚的坐標(biāo)位置時,訓(xùn)練完成的濾波器便能在另一方面輔助預(yù)測魚的分類,使特征提取只專注于魚的坐標(biāo)區(qū)域,這樣就有效的排除了背景干擾。實驗結(jié)果顯示此模型具有很高的識別精度和魯棒性,能在背景干擾很強(qiáng)的圖片數(shù)據(jù)集上準(zhǔn)確的完成魚類的識別和分類。
1 模型構(gòu)建
實驗數(shù)據(jù)來源于某組織舉辦的圖像識別競賽。數(shù)據(jù)通過固定在漁船某個位置的攝像頭采集,通過采集甲板上捕獲的魚類照片,共采集到3777張共8個分類的照片作為訓(xùn)練樣本,分別為長鰭金槍魚、大眼金槍魚、黃鰭金槍魚、鰍魚、月魚、鯊魚、其他、無魚類(表示沒有魚出現(xiàn)在照片里)。按一定比例做分層采樣,其中2984張用作訓(xùn)練集,394張用作驗證集,399張用作測試集。訓(xùn)練集用經(jīng)過錯切幅度值為0.15的仿射變換作數(shù)據(jù)集擴(kuò)增來降低過擬合,因為在從原始數(shù)據(jù)集上分層采樣得來的小樣本數(shù)據(jù)集上驗證顯示當(dāng)錯切幅度值等于0.15時,模型在測試集上的分類精度最高。
在訓(xùn)練集上采用sloth@款圖片標(biāo)注工具手動標(biāo)注魚類在圖片中的位置,并把這些標(biāo)注結(jié)果和已有的魚類分類標(biāo)注結(jié)果當(dāng)做輸入數(shù)據(jù)和圖片數(shù)據(jù)一起傳給模型訓(xùn)練。
本次研究的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。卷積層采用了被廣泛使用在圖像分類任務(wù)中的VGG模型的卷積濾波器的權(quán)重[3],并在其模型上作微調(diào)來實現(xiàn)本次研究的目標(biāo)。
輸入層將不同尺寸的圖片統(tǒng)一轉(zhuǎn)換成244*244大小。
匯合層(max pooling)是指取一小塊像素區(qū)域的像素最大值,作用是可減少數(shù)據(jù)量,控制過擬合。
全連接層的權(quán)重采用反向傳播算法(back propagation)訓(xùn)練,參數(shù)尋優(yōu)采用隨機(jī)梯度下降方法。動態(tài)學(xué)習(xí)率設(shè)定方法采用了 Adam方法,可根據(jù)損失函數(shù)在迭代訓(xùn)練中產(chǎn)生的信息自動調(diào)整學(xué)習(xí)率。
激活層函數(shù)采用RELU方法,公式為。最后一層預(yù)測魚類分類的激活曾需要把對應(yīng)于各個分類的分?jǐn)?shù)值轉(zhuǎn)換成總和為1的對應(yīng)于各個分類的概率值,所以激活函數(shù)采用Softmax方法,公式如下
由于卷積神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)強(qiáng)大的表示能力,為了降低模型的過擬合以及加快模型的訓(xùn)練速度,本次工作在激活曾后面再依次加入一層dropout層和batch normalization層。dropout層是指隨機(jī)的舍棄一部分激活曾神經(jīng)元的值,并將其置為0[4]。batch normalization層是指規(guī)范化每層激活層的輸出,并加入4個規(guī)范化參數(shù)來抑制模型訓(xùn)練過程中的反規(guī)范化現(xiàn)象[5]。
2 程序?qū)崿F(xiàn)
具體的軟件實現(xiàn)采用python編程語言和keras框架平臺。keras底層采用輕量易用的theano框架,并依賴計算機(jī)的顯卡來進(jìn)行更快速的訓(xùn)練工作。整個圖像分類的軟件框架主要由4部分組成,分別是輸入圖像數(shù)據(jù)處理、模型各個網(wǎng)絡(luò)層的實現(xiàn)及拼接、模型編譯、模型訓(xùn)練及預(yù)測。下面按數(shù)據(jù)在模型中流動的順序具體的闡述各個部分的程序?qū)崿F(xiàn)。
2.1 輸入圖像數(shù)據(jù)處理
關(guān)鍵詞:Deep Learning;多隱含層感知;DropConnect;算法
中圖分類號:TP181
Deep Learning是機(jī)器學(xué)習(xí)研究的新領(lǐng)域,它掀起了機(jī)器學(xué)習(xí)領(lǐng)域的第二次浪潮,并受到學(xué)術(shù)界到工業(yè)界高度重視。Deep Learning概念根源于人工神經(jīng)網(wǎng)絡(luò)[3],它由Geoffrey Hinton等在Science上提出。它致力于建立模擬人腦分析學(xué)習(xí)機(jī)制的多層次神經(jīng)網(wǎng)絡(luò),并通過這種網(wǎng)絡(luò)分析解釋數(shù)據(jù),如視頻、文本和聲音等。Deep Learning的多隱含層使得它具有優(yōu)異的特征學(xué)習(xí)能力,而且學(xué)習(xí)得到的特征對數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。它的“逐層初始化”(layer-wise pre-training[4])可以有效克服深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度。本文在對Deep Learning算法分析的基礎(chǔ)上,著重闡述了對Regularization of Neural Networks using DropConnect模型的改進(jìn)。
1 Deep Learning算法分析
1.1 Deep Learning多隱含層感知架構(gòu)
Deep Learning算法最優(yōu)秀特征是多隱含層感知器架構(gòu),這種架構(gòu)通過組合低層特征來形成更加抽象的高層屬性類別或特征,并實現(xiàn)對數(shù)據(jù)分布式表示。Deep Learning的多隱含層結(jié)構(gòu)是由輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò)(如圖1所示),只有相鄰層神經(jīng)元之間有連接,同一層以及跨層節(jié)點之間相互無連接,每一層可以看作是一個淺層機(jī)器學(xué)習(xí)模型(如logistic regression,Support Vector Machines)。
圖1 含多個隱含層的Deep Learning模型
Deep Learning的多隱含層感知結(jié)構(gòu)模擬的是人腦的大腦皮層工作。人大腦皮層計算也是分多層進(jìn)行[5],例如圖像在人腦中是分多個階段處理,首先是進(jìn)入大腦皮層V1區(qū)提取邊緣特征,然后進(jìn)入大腦皮層V2區(qū)抽象成圖像的形狀或者部分,再到更高層,以此類推。高層的特征是由底層組合而成。使用含多隱含層感知器架構(gòu)網(wǎng)絡(luò)主要優(yōu)勢在于它能以更簡潔的方式表達(dá)比淺層網(wǎng)絡(luò)大得多的函數(shù)關(guān)系(如圖2)。通過這種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),Deep Learning可以實現(xiàn)復(fù)雜函數(shù)的逼近,表征輸入數(shù)據(jù)的分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。
圖2 多層次實現(xiàn)復(fù)雜函數(shù)圖
1.2 Deep Learning訓(xùn)練過程
(1)首先逐層構(gòu)建單層神經(jīng)元,使得每次都是訓(xùn)練一個單層網(wǎng)絡(luò)。
(2)當(dāng)所有層訓(xùn)練完后,使用Wake-Sleep算法[6]進(jìn)行調(diào)優(yōu)。
將除最頂層的其它層間的權(quán)重是雙向的。向上的權(quán)重用于“認(rèn)知”,向下的權(quán)重用于“生成”。然后使用Wake-Sleep算法調(diào)整所有的權(quán)重。讓“認(rèn)知”和“生成”達(dá)成一致,也就是保證生成的最頂層表示能夠盡可能正確的復(fù)原底層的結(jié)點。
1.3 Deep Learning數(shù)據(jù)處理一般過程
Deep Learning算法通過傳感器等方式獲得數(shù)據(jù)之后,首先對數(shù)據(jù)進(jìn)行預(yù)處理。在數(shù)據(jù)預(yù)處理中,標(biāo)準(zhǔn)的第一步是數(shù)據(jù)歸一化處理,第二步是數(shù)據(jù)白化處理(如PCA白化和ZCA白化)。其次特征提取和特征選擇。然后將輸出作為下層的輸入,不斷進(jìn)行特征提取和特征選擇,直到學(xué)習(xí)到合符要求的最佳特征。在特征提取和特征選擇過程中,常用自動編碼、稀疏編碼、聚類算法、限制波爾茲曼機(jī)、卷積神經(jīng)網(wǎng)絡(luò)等算法進(jìn)行特征提取和特征選擇。然后用反向傳播算法、隨機(jī)梯度下降算法、批量梯度下降算法等進(jìn)行調(diào)優(yōu)處理,再用池化等算法避免特征過度擬合,從而得到最終提取特征。最后將學(xué)習(xí)到的最終提取特征輸入到分類器(如softmax分類器,logistic回歸分類器)進(jìn)行識別、推理或預(yù)測。
2 基于Regularization of Neural Networks using DropConnect模型改進(jìn)
2.1 Regularization of Neural Networks using DropConnect模型[2]
該模型的四個基本組成成分是:
(1)特征提?。簐=g(x;Wg)。x是輸入層的輸入數(shù)據(jù),Wg是特征提取函數(shù)的參數(shù),v是輸出的提取特征,特征提取函數(shù)g()。其中g(shù)()為多層卷積神經(jīng)網(wǎng)絡(luò)算法函數(shù),而Wg卷積神經(jīng)網(wǎng)絡(luò)的偏值。
(2)DropConnect層:r=a(u)=a((M*W)v)如圖3。v是輸出的提取特征,W是完全連接的權(quán)重矩陣,M是二進(jìn)制掩碼矩陣,該矩陣的每個元素隨機(jī)的以1-p概率設(shè)置為0或以p概率設(shè)置為1,a()是一個非線性激活函數(shù),r是輸出向量。M*W是矩陣對應(yīng)元素相乘。
(3)Softmax分類器層:o=s(r;Ws)。將r映射到一個k維的輸出矩陣(k是類的個數(shù)),Ws是softmax分類函數(shù)的參數(shù)。
(4)交叉熵?fù)p失:A(y,o)=-∑yi(oi),i∈1,2,3…k。y是標(biāo)簽,o是概率。
圖3 DropConnect示意圖
2.2 模型改進(jìn)描述和分析
對DropConnect模型的改進(jìn)主要集中在上面它的四個基本組成成分中的DropConnect層。由于該層以隨機(jī)方式讓掩碼矩陣M的每個元素Mij按1-p的概率設(shè)置為0,然后讓掩碼矩陣與層間的權(quán)重矩陣對應(yīng)相乘即M*W。相對DropOut模型r=a((M*(Wv))得到的特征,r=a((M*W)v)得到的特征是比較好的特征r,同時也提高算法的泛化性。因為Dropconnect模型在權(quán)重W和v運算之前,將權(quán)重以一定的概率稀疏了,從運行結(jié)果看整體算法的錯誤率降低了。但是,由于是隨機(jī)的讓Mij按1-p的概率為0,并且這種隨機(jī)是不可以預(yù)測的,故可能會導(dǎo)致某些重要特征對應(yīng)的權(quán)重被屏蔽掉,最終造成輸出ri的準(zhǔn)確性降低。故就此提出了新的設(shè)計思想。
改進(jìn)思想是用單層稀疏編碼層代替DropConnect層,通過稀疏編碼訓(xùn)練出一組最佳稀疏的特征。具體描述:讓經(jīng)過多層卷積神經(jīng)網(wǎng)絡(luò)提取到的特征v作為稀疏編碼的輸入,經(jīng)過稀疏編碼重復(fù)訓(xùn)練迭代,最終得到最佳的稀疏的特征r。因為稀疏編碼算法是一種無監(jiān)督學(xué)習(xí)方法,用它可以尋找出一組“超完備”基向量來更高效地表示輸入數(shù)據(jù)。
總之任何對Deep Learning算法的改進(jìn),都是為了提取出最佳特征,并使用優(yōu)秀的分類算法來分類、預(yù)測或推理,最終降低算法的錯誤率。而對于怎樣改進(jìn)算法,以何種方式降低錯誤率,則沒有具體的限制。并且各種提取特征和特征選擇的算法之間并不是互斥的,它們之間可以有各種形式的嵌套,最終的目標(biāo)都是提高算法的正確率和效率。
3 結(jié)束語
Deep Learning使得語音、圖像和文本等的智能識別和理解取得驚人進(jìn)展,如Google Brain項目和微軟推同聲傳譯系統(tǒng)。它極大地推動了人工智能和人機(jī)交互快速發(fā)展。隨著從學(xué)術(shù)界到工業(yè)界的廣泛重視,Deep Learning算法的改進(jìn)依然在繼續(xù),Deep Learning算法的正確率和效率仍在不斷提高。Deep Learning的發(fā)展將加快“大數(shù)據(jù)+深度模型”時代來臨。
參考文獻(xiàn):
[1]Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006(5786):504-507
[2]湯姆?米切爾.機(jī)器學(xué)習(xí)[M].北京:機(jī)械工業(yè)出版社,2003:1-280.
[3]吳昌友.神經(jīng)網(wǎng)絡(luò)的研究及應(yīng)用[D].哈爾濱:東北農(nóng)業(yè)大學(xué),2007.
[4]HINTON G,OSINDERO S,TEH Y. A fast learning algorithm for deep belief nets[J].Neural Computation,2006(07):1527-1554.
[5]Hubel D H, Wiesel T N. Receptive fields,binocular interaction and functional architecture in the cat's visual cortex[J].The Journal of physiology,1962(01):106.
[6]Chuang Gao,Bin Chen,Wei Wei.Dynamic detection of wake-sleep transition with reaction time-magnitude[J].Neural Regenerattion Research,2009(07):552-560.
當(dāng)今的社會是信息的社會。要使信息得到及時利用,為國民經(jīng)濟(jì)和科學(xué)技術(shù)以及國防工業(yè)的發(fā)展服務(wù),必須對信息數(shù)據(jù)的采集、加工處理、傳輸、存儲、決策和執(zhí)行等進(jìn)行全面的技術(shù)革新,以適應(yīng)社會發(fā)展形式的需求。因此,信息科學(xué)技術(shù)有著極其廣泛的重要應(yīng)用領(lǐng)域,如通信、雷達(dá)、聲納、電子測量儀器、生物醫(yī)學(xué)工程、振動工程、地震勘探、圖像處理、計算機(jī)科學(xué)等。各領(lǐng)域的電子信息系統(tǒng)往往具有不同的性能和特征,但是電子信息系統(tǒng)設(shè)備的設(shè)計都涉及到信息表征和信息處理技術(shù),如果這種信息科技能獲得新的突破,電子信息系統(tǒng)產(chǎn)品將走上新的臺階。
當(dāng)前信息系統(tǒng)智能化和具有高的魯棒性及容錯性是值得研究的重大問題,雖然人工智能和專家系統(tǒng)已取得好的成績,但還不適應(yīng)信息社會發(fā)展的需求,需尋求新的發(fā)展途徑。21世紀(jì)被稱為“智能化世紀(jì)和人工神經(jīng)網(wǎng)絡(luò)世紀(jì)”,信息科學(xué)與腦科學(xué)、認(rèn)知科學(xué)、神經(jīng)生物學(xué)、計算機(jī)科學(xué)、非線性科學(xué)、數(shù)學(xué)、物理學(xué)諸學(xué)科相結(jié)合所產(chǎn)生的神經(jīng)計算科學(xué),為實現(xiàn)新的信息表征和信息處理提供了新的手段,將使信息技術(shù)和信息系統(tǒng)智能化得到飛躍的發(fā)展。
21世紀(jì)是信息社會的智能化時代,信息高速公路的發(fā)展加速了通信技術(shù)和多媒體通信系統(tǒng)進(jìn)入網(wǎng)絡(luò)化、智能化進(jìn)程;開拓國際互聯(lián)網(wǎng),使千家萬戶能在因特網(wǎng)和大型計算機(jī)網(wǎng)絡(luò)上搜索和瀏覽各種信息,這都涉及到通信系統(tǒng)和信息處理系統(tǒng)的高度智能化問題。
現(xiàn)代信息處理要解決的問題往往是很復(fù)雜的,它要完成由輸入空間到輸出空間的映射,這個映射可以是線性的,也可以是非線性的,所以信息處理系統(tǒng)是有序結(jié)構(gòu)的物理系統(tǒng)中的映射,恰好是與神經(jīng)網(wǎng)絡(luò)信息處理同構(gòu)。
2 人工神經(jīng)網(wǎng)絡(luò)信息處理
一般來說,智能信息處理可以劃分為兩大類,一類為基于傳統(tǒng)計算機(jī)的智能信息處理,另一類為基于神經(jīng)計算的智能信息處理。前者信息系統(tǒng)包括智能儀器、自動跟蹤監(jiān)測儀器系統(tǒng)、自動控制制導(dǎo)系統(tǒng)、自動故障診斷和報警系統(tǒng)等。在人工智能系統(tǒng)中,它們具有模仿或代替與人的思維有關(guān)的功能,通過邏輯符號處理系統(tǒng)的推理規(guī)則來實現(xiàn)自動診斷、問題求解以及專家系統(tǒng)的智能。這種智能實際上體現(xiàn)了人類的邏輯思維方式,主要應(yīng)用串行工作程序按照一些推理規(guī)則一步一步進(jìn)行計算和操作,應(yīng)用領(lǐng)域很廣。后者是用人工神經(jīng)網(wǎng)絡(luò)來模仿延伸人腦認(rèn)知功能的新型智能信息處理系統(tǒng),即仿造人腦的思維、聯(lián)想記憶、推理及意識等高級精神活動的智能,這類神經(jīng)智能系統(tǒng)可以解決傳統(tǒng)方法所不能或難以解決的問題。例如美國研制出的一種電子“偵探”(蘇聯(lián)《科學(xué)與生活》,1990年),就是用神經(jīng)網(wǎng)絡(luò)做的能辨識人面孔的智能系統(tǒng),只要讓它看一下某人或他的照片就能記住描述此人面貌的256個數(shù)字參數(shù),同時能記住達(dá)500人,思考辨認(rèn)時間總共為1s。人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)具有很高的容錯性和魯棒性及自組織性,即使連接線被破壞了50%,它仍能處在優(yōu)化工作狀態(tài),這在軍事系統(tǒng)電子設(shè)備中有著特別重要的意義,故美國無人偵察飛機(jī)已用上這種神經(jīng)信息系統(tǒng)。美國許多公司生產(chǎn)的神經(jīng)網(wǎng)絡(luò)芯片及神經(jīng)智能系統(tǒng)已商品化。今年最新報導(dǎo):美Attrasoft公司做出世界上最大的百萬個神經(jīng)元的神經(jīng)網(wǎng)絡(luò)(軟件)。
3 盲信號處理技術(shù)
盲信號處理包括多個信源混合的盲源分離、多通道傳輸信道的參數(shù)估計和系統(tǒng)辨識、盲解卷積和盲均衡技術(shù)、盲陣列信號處理和盲波束形成技術(shù)等,在通信、雷達(dá)、聲納、控制工程、地震勘探、生物醫(yī)學(xué)工程等領(lǐng)域有著極其重要的應(yīng)用價值,是國際上非常重視的熱門研究課題。從數(shù)學(xué)上講,盲信號處理問題可以用X(t)=AS(t)來描述,這里X(t)是已知觀測數(shù)據(jù)矢量,而信號矢量S(t)和系統(tǒng)參數(shù)矩陣A都是未知的,如何只由觀測矢量X(t)來推求S(t)或A,其解將存在不定因素,可能有許多不同的兩個量相乘而得到同一個觀測數(shù)據(jù)X(t)。求解這類問題是一個國際性的盲處理難題,但該問題有很高的實用價值。圖像、語聲、中文詩詞及英文文字等多媒體信息混合后的盲分離問題,最高信號干擾之比高于70dB。
關(guān)鍵詞:圖像采集和處理;圖像檢測;Gabor紋理濾波;神經(jīng)網(wǎng)絡(luò)
DoI:10.15938/j.jhust.2016.06.009
中圖分類號:TPl83;TP391.4
文獻(xiàn)標(biāo)志碼:A
文章編號:1007-2683(2016)06-0044-06
0.引言
鋼鐵企業(yè)為了提高競爭力,對帶鋼的生產(chǎn)提出了新的要求,也對帶鋼表面檢測系統(tǒng)提出了更高的要求,既要有更高的檢測速度還要有更加準(zhǔn)確的檢測精度,而與此同時,跟隨機(jī)器視覺技術(shù)的發(fā)展,帶鋼表面檢測系統(tǒng)也得到了廣泛的研究與應(yīng)用,主要研究包括:①光源技術(shù),由于帶鋼檢測對光源要求頻度高、體積小,這限制了傳統(tǒng)光源在其應(yīng)用,激光具有方向性好、亮度高、體積小等優(yōu)點,被廣泛應(yīng)用于帶鋼檢測應(yīng)用中,國內(nèi)的徐科等提出熱軋鋼檢測中用綠光作為激光光源,但激光照明需解決均勻性問題.②掃描技術(shù),由于電荷耦合元件(charge-coupled device,CCD)能夠?qū)崿F(xiàn)實時檢測,成為目前研究和應(yīng)用的主流技術(shù),但是,CCD電荷耦合器需在同步時鐘的控制下,以行為單位一位一位地輸出信息,速度較慢,而互補(bǔ)金屬氧化物半導(dǎo)體(complementary metal oxide semiconductor,CMOS)光電傳感器采集光信號的同時就可以取出電信號,還能同時處理各單元的圖像信息,速度比CCD電荷耦合器快很多,③圖像處理算法,受限于帶鋼加工過程的特性,帶鋼表面呈現(xiàn)出隨機(jī)紋理的特點,對于隨機(jī)紋理圖像的處理分析,目前常用的方法有共生矩陣法、頻域濾波法、分形法等,作為頻域濾波法的代表,二維Gabor濾波器有著與生物視覺系統(tǒng)相近的特點,廣泛應(yīng)用于紋理圖像的處理分析,但是,CPU很難滿足現(xiàn)在的帶鋼檢測的實時要求,④分類算法,特征選擇的主流算法是主成分分析和信息增益,主成分分析存在特征向量方向不一致的問題,而且如何確定主成分存在主觀性,信息增益可以衡量特征的劣,利用它可對特征進(jìn)行排序,方便后面的特征選擇,但信息增益適用于離散特征,信息增益率既適用于離散特征也適用于連續(xù)特征,被廣泛應(yīng)用于特征選擇的過程中,圖像分類算法主流算法包括支持向量機(jī)和BP神經(jīng)網(wǎng)絡(luò),支持向量機(jī)不適用于大樣本的分類問題,BP神經(jīng)網(wǎng)絡(luò)方法具有能夠解決非線性分類問題,對噪聲不敏感等優(yōu)點,被廣泛應(yīng)用于帶鋼檢測中,如王成明等提出的基于BP神經(jīng)網(wǎng)絡(luò)的帶鋼表面質(zhì)量檢測方法等,但是BP神經(jīng)網(wǎng)絡(luò)的超參的設(shè)定往往具有隨機(jī)性,這嚴(yán)重影響了分類效果。
本文首先介紹了帶鋼表面缺陷高速高分辨率成像系統(tǒng)的設(shè)計,針對光源的不均勻性、圖像處理速度慢等問題,提出改進(jìn)方法,然后介紹了分類器的構(gòu)建,針對樣本劃分的隨機(jī)性、特征選擇的隨機(jī)性以及BP神經(jīng)網(wǎng)絡(luò)超參設(shè)定的隨機(jī)性問題,做出改進(jìn),最后介紹試驗結(jié)果。
1.帶鋼表面缺陷高速高分辨率的成像系統(tǒng)的設(shè)計
1)大功率半導(dǎo)體均勻發(fā)光激光器技術(shù),激光能夠保證帶鋼表面缺陷的檢出率,本系統(tǒng)選用808mm半導(dǎo)體激光器作為照明源,出光功率可達(dá)30w,亮度可達(dá)1500流明,激光照明需解決均勻性的問題,本文采用了基于鮑威爾棱鏡的激光線發(fā)生辦法,解決了激光照明的均勻性問題,其光路如圖1所示。
該方法首先在激光聚焦位置放置圓形球面透鏡,負(fù)責(zé)將發(fā)散的激光束匯聚成準(zhǔn)平行光,同時控制光柱的粗細(xì),然后,利用鮑威爾棱鏡的擴(kuò)散效果對圓柱的一個方向進(jìn)行擴(kuò)束,最終形成激光線,為保證亮度及寬度的適應(yīng)性,激光器出光口距離圓透鏡、鮑威爾棱鏡的距離可以精密調(diào)整,為了降低反射亮度損失,在透鏡表面鍍上808±5nm的T≥99%的增透膜。
GPU的算法分為兩個流程:訓(xùn)練過程主要針對無缺陷圖像進(jìn)行,通過訓(xùn)練完成紋理圖像的背景建模,一方面消除背景變化帶來的干擾,另一方面形成有效的Gabor卷積參數(shù),以便在檢測過程中得到最優(yōu)的檢出效果.檢測過程對實際拍攝的缺陷圖像進(jìn)行分析,首先按照GPU的核心數(shù)和緩存大小對圖像進(jìn)行分解,本文所有GPU的核心數(shù)為1024,顯存2G,因此將原始圖像分解為1000塊,分別加載到1000個核心中,同時并發(fā)運行卷積運算.最后將各個窗口的卷積結(jié)果合并到一起,得到完成的濾波結(jié)果,最后借助于背景模式,將背景的干擾消除,得到干凈的缺陷區(qū)域。
3)成像系統(tǒng),根據(jù)缺陷檢測的精度要求(1800m/min的檢測速度,0.25mm的精度),帶鋼的規(guī)格要求(1900 mm規(guī)格),對帶鋼進(jìn)行成像系統(tǒng)設(shè)計,基于互補(bǔ)金屬氧化物半導(dǎo)體(CMOS)的成像芯片具有速度快,用電低等優(yōu)勢,選用兩個4K線掃描CMOS相機(jī)作為成像核心器件,選用Camera Link Full接口作為數(shù)據(jù)輸出,兩個4K掃描中間重疊100mm作為圖像拼接區(qū),兩組線激光光源與線掃描組成系統(tǒng)的主要成像模塊,成像系統(tǒng)結(jié)構(gòu)如圖3所示。
2.構(gòu)建分類器
檢測缺陷類別及其特征描述如表1所示:
1)訓(xùn)練集和樣本集劃分.主要缺陷類別有5個,每個類別收集樣本7000,共計35000個樣本,為了避免訓(xùn)練集和樣本集劃分的盲目性,采用10一折交叉驗證的方式劃分訓(xùn)練集和測試集,即將樣本集分成10份,從中選1份為測試集,剩下的為訓(xùn)練集,如圖4所示,究竟選擇哪一份作為測試集,需在后面的嵌套循環(huán)中實現(xiàn)。
2)特征選擇,缺陷區(qū)域的長度、寬度、面積、區(qū)域?qū)Ρ榷鹊裙灿?38個特征形成初始特征集合,利用信息增益率來對各個特征排序。
上述各循環(huán)組合在一起就是一個嵌套循環(huán),其N-S盒圖如圖5所示,最外層是測試集和訓(xùn)練集的10折交叉驗證,第1層是確定最優(yōu)的特征數(shù),第3層是確定最優(yōu)的隱含層節(jié)點數(shù),第4、5層是確定最優(yōu)的輸入層和隱含層、隱含層和輸出層的初始權(quán)值。
經(jīng)以上循環(huán),確定D3作為測試集,最優(yōu)特征數(shù)為23個,最優(yōu)的隱含層節(jié)點數(shù)是46個,同時也確定了最優(yōu)的初始權(quán)值,對應(yīng)的3層BP神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)模型如圖6所示。
3.實驗結(jié)果
1)鮑威爾棱鏡與柱透鏡進(jìn)行對比在實際工作距離1.5m處,采用0.1m為間隔使用光功率計測試光源功率,如圖7所示,橫軸為測試點,縱軸為測試點的光功率。實驗表明,鮑威爾棱鏡均勻性優(yōu)于柱透鏡。
2)Gabor濾波方法與其他方法比較將動態(tài)閾值法+Blob分析法(方法A)和灰度共生矩陣紋理背景消除法(方法B)兩種方法與Gabor濾波方法進(jìn)行比較,如圖8所示.由于缺陷與背景灰度相近(圖(a)),致使方法A缺陷丟失(圖(b)),由于缺陷與背景紋理相近(圖(d)),致使方法B產(chǎn)生噪聲(圖(e)),Gabor方法取得了不錯的效果(圖(e)、(圖(f)))。
3)GPU與CPU比較以4096×4096的圖像為例,選10幅有代表性圖像,利用CPU(最新的inteli7-2600處理器,4核8線程,2.6GHz,內(nèi)存8G)和GPU(nVidiaGTX970,4G存顯卡)進(jìn)行Ga-bor運算,計算時間如表2所示,GPU計算效率明顯優(yōu)于CPU,其中CPU的平均耗時為290.4ms,而GPU的平均耗時為31.7ms。
4)檢測效果在產(chǎn)線速度為1775m/min,最小檢測缺陷的尺寸為0.25mm的檢測系統(tǒng)中,對帶鋼的主要4種類型缺陷進(jìn)行檢測統(tǒng)計,檢測結(jié)果如表3所示。
可計算出整體檢出率99.9%,檢測準(zhǔn)確率99.4%。
關(guān)鍵詞:智能科學(xué)與技術(shù);興趣導(dǎo)向;逆向教學(xué)
0引言
智能科學(xué)與技術(shù)是信息科學(xué)與技術(shù)的核心、前沿與制高點,也是整個現(xiàn)代科學(xué)技術(shù)體系的頭腦中樞,是現(xiàn)代科學(xué)技術(shù)創(chuàng)新的引領(lǐng)和示范,是現(xiàn)代社會(包括經(jīng)濟(jì)、社會、文化、民生、國防等)走向智能化的主導(dǎo)技術(shù)支柱。在越來越激烈尖銳的國際競爭環(huán)境中,智能科學(xué)與技術(shù)水平已經(jīng)成為一個國家綜合國力與科技實力的標(biāo)志。智能科學(xué)與技術(shù)的發(fā)展和智能科學(xué)與技術(shù)學(xué)科的人才培養(yǎng),不僅僅是智能科學(xué)與技術(shù)研究與教育本身的事情,更是關(guān)系到整個社會智能化發(fā)展優(yōu)劣的大事情,也是關(guān)系到整個國家強(qiáng)弱興衰的大事情。
科技發(fā)展,關(guān)鍵在于人才。在新的發(fā)展機(jī)遇下,國家對智能科學(xué)與技術(shù)專門人才的需求更加旺盛。因此,如何促進(jìn)智能科學(xué)與技術(shù)教學(xué)方式的改革是培養(yǎng)厚基礎(chǔ)、高層次的智能科學(xué)與技術(shù)人才的基本途徑。智能科學(xué)與技術(shù)教學(xué)方式的改革,不僅發(fā)展智能科學(xué)與技術(shù)本身,而且對受教育者創(chuàng)新能力的提高也至關(guān)重要。
目前,網(wǎng)絡(luò)的普及與全社會信息化程度的提高,對我國人才培養(yǎng)提出了更高的要求,特別是高校在課堂教學(xué)方面,部分原有教材及培養(yǎng)模式亟待調(diào)整。以智能科學(xué)與技術(shù)為代表的前沿新興學(xué)科,在學(xué)科發(fā)展途徑、應(yīng)用技術(shù)轉(zhuǎn)化及從業(yè)人員年齡、成長環(huán)境等方面,均與很多傳統(tǒng)學(xué)科存在較大的差異,而使用傳統(tǒng)教學(xué)方式進(jìn)行人才培養(yǎng),也出現(xiàn)了一些水土不服的現(xiàn)象。
1教學(xué)理念的改變
相對于傳統(tǒng)學(xué)科,智能科學(xué)與技術(shù)從業(yè)人員平均年齡顯現(xiàn)出年輕化的特點,且由于從業(yè)人員及學(xué)生普遍年齡較輕,在他們的成長過程中,外在環(huán)境相對寬松,自由、平等的理念在他們的成長過程中不斷被提及和強(qiáng)化。傳統(tǒng)“教師講、學(xué)生聽”的演講式講授方式雖然能夠在一定時間內(nèi)讓學(xué)生了解大量信息,但學(xué)生接收到的大部分信息只停留在記憶層面,很難上升到理解層面,導(dǎo)致學(xué)生只是被動的“填鴨式”接受。
在科技發(fā)達(dá)、網(wǎng)絡(luò)互聯(lián)的今天,人們不是自投羅網(wǎng)就是被網(wǎng)羅其中,知識獲取的渠道不再局限于紙質(zhì)媒介和言傳身教,更多來自于電子資源及網(wǎng)絡(luò)媒介,教師和學(xué)生獲取知識的途徑及資源差異越來越小,在知識量、閱歷等方面縮小了師生間的差距,師生之間傳統(tǒng)的信息不對稱差距逐步縮小,導(dǎo)致教師在知識積淀上沒有了絕對優(yōu)勢。
與此同時,逐步深入青年學(xué)生內(nèi)心的自由、平等觀念對中國傳統(tǒng)的尊師重道思想帶來了不小的沖擊。在當(dāng)今開放的網(wǎng)絡(luò)環(huán)境下,針對新興時代的學(xué)生,傳統(tǒng)習(xí)俗中的師長觀念由于知識獲取渠道的平等化而缺乏強(qiáng)有力的現(xiàn)實支撐,教師的身份權(quán)威性和知識權(quán)威性都受到了不同程度的質(zhì)疑,繼續(xù)使用“填鴨式”“訓(xùn)導(dǎo)式”教學(xué)方式,將會事倍功半。
因此,針對新興學(xué)科,一線教師需要進(jìn)行教學(xué)理念上的修正,特別是教師應(yīng)順應(yīng)培養(yǎng)對象的整體特點,基于自由和平等的觀念進(jìn)行自我定位,以交流討論式代替居高臨下布施式的教學(xué)觀念,充分與學(xué)生打成一片,以便更好地調(diào)動學(xué)生的思維,引導(dǎo)學(xué)生進(jìn)行主動思考和主動學(xué)習(xí)。
2教學(xué)素材的改進(jìn)與提高
當(dāng)今時代是知識爆炸的時代,科學(xué)技術(shù)日新月異,新知識、新成果層出不窮,特別是智能科學(xué)與技術(shù)這一前沿學(xué)科,正在向理論創(chuàng)新和大規(guī)模實際應(yīng)用發(fā)展,新理論、新方法不斷被提出并驗證,新模型、新實例、新應(yīng)用不斷產(chǎn)出。
“教學(xué)素材對教育理念的滲透發(fā)揮著重要作用,它已經(jīng)成為促進(jìn)或阻礙教學(xué)模式轉(zhuǎn)變的活躍而關(guān)鍵的要素。隨著新時代知識的快速更新?lián)Q代和知識面的不斷拓寬,教學(xué)素材是否優(yōu)秀的標(biāo)準(zhǔn)不僅僅是包含多少知識,更重要的是包含多少最新的知識;不僅僅是傳遞解決問題的方法,更重要的是傳遞超前、新穎的解決問題的方法。
當(dāng)今學(xué)生知識涉獵面廣,現(xiàn)有的網(wǎng)絡(luò)環(huán)境也為他們提供了很好的平臺,如果他們已經(jīng)獲取的知識及應(yīng)用的先進(jìn)程度遠(yuǎn)遠(yuǎn)超過課本素材羅列的知識,將會極大地削弱他們對本學(xué)科的興趣,進(jìn)而影響課堂教學(xué)效果。
此外,作為智能科學(xué)與技術(shù)這一前沿學(xué)科的教學(xué)素材,必須體現(xiàn)出時代性、開放性、多元性與全面性。因此,教學(xué)過程中所采用素材的改進(jìn)和提高,應(yīng)該向著不斷更新、與時俱進(jìn)的方向靠攏,教師應(yīng)該不斷將最新理論、最新方法、最新應(yīng)用融合于一線基礎(chǔ)教學(xué)過程中,使學(xué)生在學(xué)習(xí)過程中始終緊跟前沿技術(shù)的發(fā)展,在未來工作中能更快、更好地融入行業(yè)中。
3教學(xué)方式的轉(zhuǎn)變
目前,學(xué)生群體主要為90后,高校即將迎來00后,他們成長過程中的家庭環(huán)境和社會環(huán)境與早期學(xué)生相比更為平等和寬松,他們的學(xué)習(xí)需求也由目標(biāo)導(dǎo)向型逐步演化為興趣導(dǎo)向型。因此,如何激發(fā)學(xué)生的興趣,進(jìn)而以興趣為基礎(chǔ)激發(fā)學(xué)生自主學(xué)習(xí)的動力,將是教學(xué)效果事半功倍的途徑。
青年學(xué)生正處于思維高度活躍的階段,他們往往對新興成果和前沿?zé)狳c有著超過常人的關(guān)注,如何巧妙而有效地將這種關(guān)注轉(zhuǎn)化為針對本學(xué)科的興趣,進(jìn)而反向推導(dǎo)出基礎(chǔ)理論并讓學(xué)生消化、吸收,就成為一線教師面臨的重要問題。
從1997年國際象棋大師卡斯帕羅夫和電腦“深藍(lán)”第一次人機(jī)大戰(zhàn)開始,智能科學(xué)與技術(shù)迅速躋身科技前沿?zé)狳c,且經(jīng)久不衰。2016年3月,Alpha Go再次燃起人工智能之火,經(jīng)過媒體的推波助瀾,成為社會關(guān)注的焦點,大大增強(qiáng)了智能科學(xué)與技術(shù)的關(guān)注度。而青年學(xué)生作為最容易追趕潮流的群體,自然對此類熱點趨之若鶩。
作為智能科學(xué)與技術(shù)學(xué)科的一線教師,應(yīng)把握和利用社會輿論的潮流以及學(xué)生心理的律動,及時以此熱點為突破口,吸引學(xué)生的興趣,引起共鳴,進(jìn)而進(jìn)行反向推導(dǎo)相關(guān)基礎(chǔ)理論并加以詳解。
例如,教師以Alpha Go為課堂開篇討論,引導(dǎo)學(xué)生思考,并說明Alpha Go的核心原理是深度學(xué)習(xí)。在這個實例中,Alpha Go模擬人類下棋的推理與思考過程,其中推理過程通過搜索樹來搜索可能的棋局,思考過程通過兩個深度神經(jīng)網(wǎng)絡(luò)確定可能的搜索方向和評估棋局,這兩個神經(jīng)網(wǎng)絡(luò)包括:
(1)落子選擇器(policy network),這是一種深度卷積神經(jīng)網(wǎng)絡(luò),主要通過當(dāng)前棋盤布局預(yù)測下一步走棋位置的概率。
(2)棋局評估器(value network),與落子選擇器具有相似的結(jié)構(gòu),主要在給定棋子位置的情況下,輸出雙方棋手獲勝的可能性,從而對棋局進(jìn)行評估。
如此,教師可以帶領(lǐng)學(xué)生了解搜索樹及搜索算法,也可以從深度卷積神經(jīng)網(wǎng)絡(luò)到普通神經(jīng)網(wǎng)絡(luò),講解神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,分析神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)的發(fā)展過程。這樣就可以將學(xué)生對Alpha Go本身的興趣,巧妙地引導(dǎo)到對神經(jīng)網(wǎng)絡(luò)等基礎(chǔ)概念和原理方面,以此強(qiáng)化學(xué)生對基礎(chǔ)知識的掌握。
同時,開放式的考核方式也是促進(jìn)學(xué)生創(chuàng)新、使教學(xué)方法適應(yīng)新時代的一種有效途徑。對于本學(xué)科感興趣的話題,教師應(yīng)鼓勵學(xué)生多談自己的思路和想法;對于開放式課題,應(yīng)給學(xué)生提供展示的舞臺,鼓勵學(xué)生分享自己在查找資料、解決難點、編程過程中的心得體會,充分調(diào)動學(xué)生的積極性和主動性;將這些考核成績按比例計入學(xué)生課業(yè)總成績中,充分肯定學(xué)生的創(chuàng)新能力。
4結(jié)語
教學(xué)成效是設(shè)計和構(gòu)建教學(xué)方式的基本出發(fā)點,教師應(yīng)該結(jié)合學(xué)生需求從學(xué)習(xí)成效、教學(xué)技巧、教學(xué)內(nèi)容上總體把握教學(xué)方式閣,采用不同于傳統(tǒng)講授方式的逆向教學(xué)(如圖1所示),使其滿足和順應(yīng)新一代青年學(xué)生的心理認(rèn)同需求和學(xué)習(xí)需求,將新理論、新應(yīng)用不斷融入基礎(chǔ)教學(xué)中,達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:蛋白質(zhì)二級結(jié)構(gòu)預(yù)測;基團(tuán)編碼;正交編碼;SVM
0引言
氨基酸序列的研究是生物信息學(xué)中對生物序列展開探討設(shè)計的主要工作,氨基酸序列決定了蛋白質(zhì)的空間結(jié)構(gòu),而蛋白質(zhì)的空間結(jié)構(gòu)決定了蛋白質(zhì)生理功能的多樣性。在利用x射線結(jié)晶學(xué)及核磁共振等技術(shù)對蛋白質(zhì)結(jié)構(gòu)進(jìn)行探測時發(fā)現(xiàn),蛋白質(zhì)結(jié)構(gòu)有4個層次,蛋白質(zhì)的二級結(jié)構(gòu)是認(rèn)識了解蛋白質(zhì)的折疊模式和三級結(jié)構(gòu)的基礎(chǔ),進(jìn)一步為研究蛋白質(zhì)的功能以及彼此之間的相互作用模式提供結(jié)構(gòu)基礎(chǔ),同時還可以為新藥研發(fā)提供幫助。故研究蛋白質(zhì)的二級結(jié)構(gòu)具有重要的意義。