前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的缺陷主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:ROS;表面缺陷;圖像采集;神經(jīng)網(wǎng)絡(luò);模型訓(xùn)練
飛機(jī)蒙皮是包圍在飛機(jī)骨架結(jié)構(gòu)外且用粘接劑或鉚釘固定于骨架上,形成飛機(jī)氣動(dòng)力外形的維形構(gòu)件,在飛機(jī)正常工作狀態(tài)下扮演著重要的角色,一旦飛機(jī)蒙皮出現(xiàn)缺陷等問(wèn)題,需要及時(shí)的反饋出來(lái)并且維修。傳統(tǒng)的飛機(jī)表面缺陷檢測(cè)方式大多數(shù)是由人工來(lái)完成,會(huì)存在效率低、成本高等缺點(diǎn),甚至?xí)霈F(xiàn)檢測(cè)失誤的情況。本文就針對(duì)鋁合金表面缺陷檢測(cè)方面,提出一種基于ROS的飛機(jī)表面缺陷檢測(cè)系統(tǒng),采用移動(dòng)機(jī)器人底盤(pán)定位和導(dǎo)航技術(shù),結(jié)合深度學(xué)習(xí)、圖像處理等技術(shù)檢測(cè)出存在缺陷的位置并標(biāo)記出來(lái),通過(guò)機(jī)器代替?zhèn)鹘y(tǒng)人工的方式,旨在提高檢測(cè)效率和檢測(cè)精度,為飛機(jī)表面缺陷檢測(cè)提供一種方式。
1系統(tǒng)的總體設(shè)計(jì)
飛機(jī)表面缺陷檢測(cè)系統(tǒng)主要由檢測(cè)模塊、ROS機(jī)器人模塊、圖像處理模塊三大部分組成,系統(tǒng)的總體結(jié)構(gòu)框圖如圖1所示。系統(tǒng)的具體工作原理為:在某一區(qū)域范圍內(nèi),檢測(cè)模塊以樹(shù)莓派為核心控制器,通過(guò)檢測(cè)模塊中的圖像采集系統(tǒng)對(duì)鋁合金材料表面進(jìn)行圖像采集,將采集到的圖像通過(guò)TCP通信傳輸?shù)綀D像處理模塊上[4]。圖像處理模塊利用深度學(xué)習(xí)中設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)訓(xùn)練,得到檢測(cè)模型,將檢測(cè)模型應(yīng)用到圖像預(yù)處理上。此時(shí),OpenCV對(duì)檢測(cè)模塊得到的圖像進(jìn)行圖像處理[5],最終得到缺陷出現(xiàn)的位置。當(dāng)前區(qū)域檢測(cè)完畢后,通過(guò)ROS機(jī)器人模塊的定位和導(dǎo)航功能,驅(qū)動(dòng)運(yùn)動(dòng)執(zhí)行機(jī)構(gòu)工作,并移動(dòng)到相鄰下一塊檢測(cè)區(qū)域,直到所有位置都檢測(cè)完畢。上述工作原理可實(shí)現(xiàn)飛機(jī)表面缺陷檢測(cè)系統(tǒng),下文將對(duì)其包括的三大模塊進(jìn)行說(shuō)明介紹。
2檢測(cè)模塊設(shè)計(jì)
如圖2所示,系統(tǒng)的檢測(cè)模塊主要是包括樹(shù)莓派和攝像頭,其中樹(shù)莓派作為檢測(cè)模塊的處理器,搭建的有Ubuntu系統(tǒng),是系統(tǒng)實(shí)現(xiàn)的重要組成部分。樹(shù)莓派可以提供普通計(jì)算機(jī)的功能,并且功耗低。可直接在樹(shù)莓派上安裝Keil進(jìn)行開(kāi)發(fā),具有很好的開(kāi)發(fā)效果,運(yùn)行穩(wěn)定。本次飛機(jī)表面缺陷檢測(cè)系統(tǒng)實(shí)現(xiàn)了樹(shù)莓派將攝像頭拍攝的圖片發(fā)送到圖像處理模塊上,同時(shí)也搭載ROS系統(tǒng)實(shí)現(xiàn)了移動(dòng)底盤(pán)的定位和導(dǎo)航功能。
3ROS機(jī)器人模塊設(shè)計(jì)
ROS隨著機(jī)器人技術(shù)發(fā)展愈發(fā)受到關(guān)注,采用分布式框架結(jié)構(gòu)來(lái)處理文件,這種方式允許開(kāi)發(fā)者單獨(dú)設(shè)計(jì)和開(kāi)發(fā)可執(zhí)行文件。ROS還以功能包的形式封裝功能模塊,方便移植和用戶(hù)之間的共享。下面將介紹其建圖和導(dǎo)航功能的實(shí)現(xiàn)。
3.1建圖設(shè)計(jì)
本文在ROS系統(tǒng)中使用Gmapping算法軟件包實(shí)現(xiàn)建圖[7],在ROS系統(tǒng)中設(shè)計(jì)了建圖過(guò)程中各節(jié)點(diǎn)及節(jié)點(diǎn)間的話題訂閱/的關(guān)系如圖3所示。在圖3建圖節(jié)點(diǎn)話題關(guān)系圖上,其中橢圓形里代表節(jié)點(diǎn),矩形基于ROS的飛機(jī)表面缺陷檢測(cè)系統(tǒng)胡浩鵬(紐約大學(xué)NewYorkUniversity紐約10003)框里代表的是主題,節(jié)點(diǎn)指向主題代表著該節(jié)點(diǎn)了主題消息,主題指向節(jié)點(diǎn)代表著該節(jié)點(diǎn)訂閱了主題消息。在建圖過(guò)程中,主要涉及激光雷達(dá)節(jié)點(diǎn)、鍵盤(pán)控制節(jié)點(diǎn)、底盤(pán)節(jié)點(diǎn)、Gmapping節(jié)點(diǎn)和地圖服務(wù)節(jié)點(diǎn)。
3.2導(dǎo)航設(shè)計(jì)
ROS提供的Navigation導(dǎo)航框架結(jié)構(gòu)如圖4所示,顯然MOVE_BASE導(dǎo)航功能包中包括全局路徑規(guī)劃和局部路徑規(guī)劃兩部分,即在已構(gòu)建好的地圖的基礎(chǔ)上,通過(guò)配置全局和局部代價(jià)地圖,從而支持和引導(dǎo)路徑規(guī)劃的實(shí)施。為了保證導(dǎo)航效果的準(zhǔn)確,通過(guò)AMCL定位功能包進(jìn)行護(hù)理床的位置定位[8]。獲取目標(biāo)點(diǎn)的位置后,MOVE_BASE功能包結(jié)合傳感器信息,在路徑規(guī)劃的作用下,控制指令,控制護(hù)理床完成相應(yīng)的運(yùn)動(dòng)。
4圖像處理模塊設(shè)計(jì)
圖像處理模塊設(shè)計(jì)主要分為圖像預(yù)處理、模型訓(xùn)練和卷積神經(jīng)網(wǎng)絡(luò)三大部分,通過(guò)TCP通信協(xié)議進(jìn)行通信,TCP通信是一種面向連接的通信,可完成客戶(hù)端(樹(shù)莓派)和服務(wù)端(PC)的信息傳遞[9]。下面主要對(duì)卷積神經(jīng)網(wǎng)絡(luò)部分進(jìn)行介紹。
4.1卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練流程
通過(guò)相機(jī)采集到的缺陷和問(wèn)題圖像作為訓(xùn)練樣本,這部分是檢測(cè)飛機(jī)表面缺陷的關(guān)鍵一步,然后對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練,具體步驟如下所示。(1)訓(xùn)練標(biāo)記數(shù)據(jù):首先使用圖像預(yù)處理中標(biāo)記好的道路故障提取出來(lái),通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)標(biāo)記框內(nèi)的目標(biāo)數(shù)據(jù)進(jìn)行訓(xùn)練;(2)提取特征數(shù)據(jù):將道路故障的類(lèi)型統(tǒng)計(jì)并歸納;(3)誤差反饋學(xué)習(xí):對(duì)測(cè)試樣本進(jìn)行誤差反饋學(xué)習(xí),并進(jìn)行測(cè)試;(4)優(yōu)化訓(xùn)練數(shù)據(jù):將得到的測(cè)試結(jié)果與設(shè)定的故障分類(lèi)結(jié)果進(jìn)行誤差對(duì)比,不斷優(yōu)化訓(xùn)練集,最終得到理想的訓(xùn)練數(shù)據(jù)。
4.2缺陷檢測(cè)流程
缺陷檢測(cè)流程如圖5所示,首先輸入缺陷原始圖像,通過(guò)特征提取網(wǎng)絡(luò),將處理后的圖像使用檢測(cè)器進(jìn)行檢測(cè),其中檢測(cè)器里為卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練后得到的模型,最終缺陷檢測(cè)后得到的識(shí)別后的圖像,并反饋出來(lái)。
4.3實(shí)驗(yàn)測(cè)試
鋁合金表面缺陷主要有碰傷、刮花、凸粉、臟點(diǎn)等常見(jiàn)的缺陷,下面將以這四種為主要對(duì)象進(jìn)行檢測(cè)訓(xùn)練,各自訓(xùn)練集數(shù)量為1000張。通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)缺陷的特征進(jìn)行提取和分類(lèi),最終實(shí)現(xiàn)了缺陷的檢測(cè)。本次實(shí)驗(yàn)測(cè)試的樣本為200張,每種缺陷50張,均采集自鋁合金材料表面且與訓(xùn)練樣本一致,實(shí)驗(yàn)結(jié)果如表1所示。由表1可知,檢測(cè)臟點(diǎn)的準(zhǔn)確率高達(dá)98%,刮花和凸粉的準(zhǔn)確率也達(dá)到94%,但碰傷的準(zhǔn)確率相對(duì)較低,只有88%。可能造成的原因是:①硬件原因?qū)е虏杉膱D像清晰度比較低;②碰傷缺陷不明顯,無(wú)人機(jī)難以識(shí)別;③訓(xùn)練的數(shù)據(jù)集較少,特征學(xué)習(xí)誤差大;但最后結(jié)果是滿足了設(shè)計(jì)需求,還需進(jìn)一步改進(jìn)。
5總結(jié)與展望
關(guān)鍵詞:PCA算法;人臉識(shí)別;五級(jí)并行PCA模型;權(quán)重計(jì)算;均值濾波
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)19-0147-02
Research on Face Recognition System Based on Parallel PCA Algorithm
ZHAO Ya-peng
(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )
Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.
Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter
1 概述
隨著智能終端設(shè)備(手機(jī)、Pad、門(mén)禁等)的不斷發(fā)展,身份識(shí)別已經(jīng)成為我們?nèi)粘I畹闹匾M成部分,身份驗(yàn)證技術(shù)被廣泛應(yīng)用于各個(gè)領(lǐng)域,特別是人們對(duì)于個(gè)人隱私信息的保護(hù),使得身份識(shí)別再次成為關(guān)注的焦點(diǎn)。人臉識(shí)別作為身份識(shí)別的重要手段之一,因其具有識(shí)別率高、采集性強(qiáng)、接受性高等特點(diǎn),在身份識(shí)別的各類(lèi)方法中具有獨(dú)特的優(yōu)勢(shì),成為了目前比較熱門(mén)的研究領(lǐng)域。
目前,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks)是圖像識(shí)別領(lǐng)域最重要的研究熱點(diǎn),而且在語(yǔ)音識(shí)別領(lǐng)域也取得了不錯(cuò)的效果,但是卷積神經(jīng)網(wǎng)絡(luò)的整個(gè)訓(xùn)練過(guò)程比較費(fèi)時(shí),而且實(shí)現(xiàn)相對(duì)復(fù)雜,而基于PCA算法的人臉識(shí)別技術(shù)因其自身存在的許多缺陷,一直沒(méi)有被廣泛應(yīng)用,但該方法實(shí)現(xiàn)簡(jiǎn)單、學(xué)習(xí)速度較快,因此,本文主要研究改進(jìn)的并行PCA算法,以彌補(bǔ)傳統(tǒng)PCA算法在人臉識(shí)別領(lǐng)域的不足。
本文提出的基于并行PCA算法的人臉識(shí)別技術(shù),首先對(duì)原始圖像進(jìn)行預(yù)處理,如灰度歸一化和中值濾波等操作,以消除圖像噪聲、光照等因素造成的影響,使得特征提取更加準(zhǔn)確可靠。然后,通過(guò)5級(jí)并行PCA模型獲取數(shù)據(jù)的不同特征矩陣,然后將訓(xùn)練圖像和測(cè)試圖像分別進(jìn)行子空間的投影,利用歐氏徑向基函數(shù)(Euclidean Radial Basis Function)進(jìn)行人臉的匹配,最后根據(jù)訓(xùn)練得到的權(quán)值向量進(jìn)行加權(quán)決策。本文通過(guò)ORL人臉數(shù)據(jù)庫(kù)的仿真實(shí)驗(yàn)證明,該算法的效果明顯好于PCA算法。
2 并行PCA算法
PCA(Principal Component Analysis)即主成分分析技術(shù),PCA是基于K-L變換的統(tǒng)計(jì)學(xué)分析方法,是多元分析中常用的方法,其基本思想是將高維數(shù)據(jù)投影到低維空間,主要過(guò)程在于特征值的計(jì)算和矩陣的降維。將PCA應(yīng)用于人臉識(shí)別時(shí),首先將圖像轉(zhuǎn)化成矩陣向量,然后進(jìn)行矩陣的奇異值分解(Singular Value Decomposition),將高維向量通過(guò)計(jì)算得到的特征向量矩陣投影到低維的向量空間,從而減少數(shù)據(jù)的計(jì)算量。
2.1 基于并行PCA算法的人臉識(shí)別流程
本文中提出的并行PCA算法,正是基于上述的PCA算法,通過(guò)建立5級(jí)的PCA算法模型同時(shí)進(jìn)行數(shù)據(jù)特征的學(xué)習(xí),使得最終的人臉識(shí)別準(zhǔn)確率得到進(jìn)一步的提高,具體的人臉識(shí)別流程如圖1所示。
2.2 并行PCA算法的實(shí)現(xiàn)的步驟
2.2.1 人臉圖像的預(yù)處理
首先,需要把ORL人臉數(shù)據(jù)數(shù)據(jù)庫(kù)的所有訓(xùn)練圖像大小進(jìn)行歸一化,并轉(zhuǎn)化為像素矩陣,矩陣大小記為,為矩陣的行數(shù),為矩陣的列數(shù)。之后利用均值濾波和灰度歸一化進(jìn)行圖像的去噪處理,以消除光線等問(wèn)題對(duì)圖像造成的影響,以方便后期的特征提取等操作。
2.2.2 人臉圖像的PCA降維
根據(jù)PCA的原理,可以將每一張圖像看成是一個(gè)高維的向量,所有的圖像可以看成是這個(gè)高維空間中的一點(diǎn),PCA要做的就是找出另外一個(gè)盡可能多的反應(yīng)圖像特征的低維空間。
假如樣本由n張大小為p*q的人臉圖像組成,那么每一張圖像可以保存為一列向量,向量維數(shù)是p*q,真?zhèn)€樣本可以看成是一個(gè)行數(shù)為n,列數(shù)為p*q的矩陣記為矩陣A。
根據(jù)上述過(guò)程,首先求出矩陣A的協(xié)方差矩陣,然后求出協(xié)方差矩陣的特征值,選取前m個(gè)最大的特征值,然后求出對(duì)應(yīng)的特征向量,組成一個(gè)特征矩陣。通常所說(shuō)的“特征臉”就是這些特征向量,而特種功能矩陣就是“特征臉”空間或者說(shuō)子空間。然后可以將每一張圖片投影到該子空間,得到了每一張圖像的投影矩陣(l*m)。
2.2.3 人臉圖像的識(shí)別
對(duì)于待識(shí)別的圖像,也可以看成是一列向量,投影到子空間得到一個(gè)投影矩陣,然后一一求出這個(gè)投影矩陣與樣本圖像投影矩陣最相似的。然而有可能該人臉不是人臉庫(kù)中的,所以最相似的人臉也不一定是同一個(gè)人臉,還需要設(shè)置一個(gè)閾值來(lái)判斷待識(shí)別人臉是否是人臉庫(kù)中的。
人臉識(shí)別部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5級(jí)的PCA模型同時(shí)進(jìn)行人臉識(shí)別這一操作,最后根據(jù)訓(xùn)練得到的權(quán)值向量進(jìn)行決策,通過(guò)使用多個(gè)PCA模型,從而使得整個(gè)識(shí)別過(guò)程的準(zhǔn)確率得到進(jìn)一步的提升。
3 系統(tǒng)設(shè)計(jì)及實(shí)現(xiàn)
3.1 系統(tǒng)總體設(shè)計(jì)
本文中所提出的基于并行PCA算法的人臉識(shí)別系統(tǒng),包括人臉圖像采集模塊、圖像預(yù)處理模塊、識(shí)別模塊。人臉圖像采集模塊主要是采集訓(xùn)練圖像數(shù)據(jù)和測(cè)試圖像數(shù)據(jù),并由原始圖像提取出4幅與之對(duì)應(yīng)的部分圖像;圖像預(yù)處理模塊主要就是進(jìn)行圖像歸一化和圖像的去噪工作,圖像的歸一化包括大小歸一化和灰度歸一化,可以使用比較常見(jiàn)的直方圖均衡化等技術(shù),而圖像的去噪可以使用中值濾波技術(shù),以去除比較常見(jiàn)的高斯噪聲等;人臉識(shí)別模塊是基于5級(jí)相互獨(dú)立的PCA模型進(jìn)行特征值的學(xué)習(xí)和比對(duì),而且通過(guò)訓(xùn)練得到的權(quán)值向量進(jìn)行最終的是臉識(shí)別決策。整個(gè)系統(tǒng)的實(shí)現(xiàn)是基于Matlab進(jìn)行仿真實(shí)驗(yàn)的,實(shí)驗(yàn)數(shù)據(jù)來(lái)自劍橋大學(xué)AT&T實(shí)驗(yàn)室創(chuàng)建的ORL人臉數(shù)據(jù)庫(kù)。
3.2系統(tǒng)功能模塊實(shí)現(xiàn)
3.2.1人臉圖像采集實(shí)現(xiàn)
圖像采集模塊主要就是將存儲(chǔ)在本地的圖像文件通過(guò)Matlab的imread函數(shù)讀入矩陣中,以方便后期的PCA操作,其核心語(yǔ)句為Image{t}=imread([[filepath,F(xiàn)ilDir(ii).name],'\',ImDir{ii}(jj).name]);
使用上述語(yǔ)句即可讀入訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)文件。
3.2.2 圖像預(yù)處理模塊
該模塊的主要任務(wù)就是利用中值濾波和直方圖均衡化進(jìn)行圖像的去噪工作,以消除不同光照和圖像噪聲的影響,提高準(zhǔn)確率。其核心代碼為:
S1=zeros(1,256);
for i=1:256
for j=1:i
S1(i)=GP(j)+S1(i);
end
end
S2=round((S1*256)+0.5);
for i=1:256
GPeq(i)=sum(GP(find(S2==i)));
end
3.2.3 識(shí)別模塊
圖像經(jīng)過(guò)之前的預(yù)處理之后,需要將圖像矩陣轉(zhuǎn)化為列向量,一幅圖像就是一列向量,整個(gè)訓(xùn)練圖像構(gòu)成了整個(gè)特征空間矩陣,測(cè)試圖像也會(huì)轉(zhuǎn)化為一列向量,之后會(huì)利用矩陣之間的運(yùn)算進(jìn)行圖像的分析計(jì)算。識(shí)別模塊的工作就是根據(jù)測(cè)試圖像和之前所有的訓(xùn)練數(shù)據(jù)進(jìn)行對(duì)比,查找到與之最相似的圖像,實(shí)驗(yàn)的結(jié)果如圖2所示。
4 結(jié)論
PCA算法作為傳統(tǒng)的人臉識(shí)別算法,因其自身存在的許多缺陷而沒(méi)能發(fā)揮較好的作用,但是其自身具有其他算法所不具有的特點(diǎn),本文設(shè)計(jì)的并行PCA算法雖然是基于PCA算法,但是借鑒了卷積神經(jīng)網(wǎng)絡(luò)的多層結(jié)構(gòu),而且使用加權(quán)操作進(jìn)行最終人臉識(shí)別的決策?;贠RL人臉數(shù)據(jù)庫(kù)的測(cè)試結(jié)果表明,該并行PCA算法的準(zhǔn)確率和魯棒性均得到了進(jìn)一步的提升,與其他的單獨(dú)PCA算法具有十分明顯的優(yōu)勢(shì)。
參考文獻(xiàn):
[1] 張利芳. 基于PCA算法的人臉識(shí)別系統(tǒng)研究[D].太原:中北大學(xué),2015.
[2] 楊海燕,蔣新華. 基于并行卷積神經(jīng)網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)定位方法研究[J]. 計(jì)算機(jī)應(yīng)用研究, 2015, 32(8): 2517-2519.
[3] 楊穎嫻. 基于PCA算法和小波變換的人臉識(shí)別技術(shù)[J]. 微電子與計(jì)算機(jī), 2011, 28(1): 92-94.
[4] 段寶彬,韓立新. 改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)及在碎紙拼接中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(9): 176-181.
關(guān)鍵詞:交通標(biāo)志檢測(cè);ITS;TSR;顏色檢測(cè);形狀檢測(cè)
中圖分類(lèi)號(hào):TB
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.19311/ki.16723198.2017.12.089
1引言
隨著經(jīng)濟(jì)的發(fā)展,汽車(chē)出行在為人們帶來(lái)便利的同時(shí)也增加了安全事故的發(fā)生。智能交通系統(tǒng)ITS(Intelligent Transportation System)作為一種全新的汽車(chē)識(shí)別模式,能夠緩解交通事故的發(fā)生。具體表現(xiàn)在,汽車(chē)在行駛過(guò)程中,利用車(chē)載系統(tǒng)對(duì)交通標(biāo)志進(jìn)行識(shí)別,再反饋給駕駛員,為駕駛提供路況信息,使駕駛員能夠?qū)β窙r做出準(zhǔn)確的判斷,減少交通意外的發(fā)生。另一方面,對(duì)于無(wú)人駕駛和交通標(biāo)志的識(shí)別,也l揮著重要的維護(hù)作用。
近幾十年來(lái),交通標(biāo)志檢測(cè)與識(shí)別受到了諸多學(xué)者的關(guān)注與研究,ITS在減少安全事故和緩解道路壓力方面發(fā)揮著重要作用,交通標(biāo)志識(shí)別系統(tǒng)TSR(Traffic Sign Recognition)也應(yīng)運(yùn)而生。交通標(biāo)志識(shí)別系統(tǒng)包括很多方面,交通標(biāo)志檢測(cè)是其一個(gè)子方面,但其重視程度不言而喻,它的應(yīng)用范圍很廣,如無(wú)人駕駛車(chē)輛和駕駛員輔助系統(tǒng)等,在行車(chē)過(guò)程中,為駕駛員提供實(shí)時(shí)路況檢測(cè)。雖然目前在交通標(biāo)志檢測(cè)方面取得了一些突破性的進(jìn)展和一些階段性的成果,但隨著道路環(huán)境的多樣化和不確定因素,使得檢測(cè)仍存在諸多困難??偟膩?lái)說(shuō),交通標(biāo)志檢測(cè)實(shí)用性強(qiáng),關(guān)注度高,在任何時(shí)候熱度都不會(huì)消減,會(huì)引發(fā)更多的人去深入研究。
2交通標(biāo)志檢測(cè)系統(tǒng)組成
交通標(biāo)志檢測(cè)包括五部分:圖像采集,預(yù)處理,顏色分割,形狀檢測(cè),精準(zhǔn)定位。圖形的采集尤為重要,對(duì)于采集到傾斜的圖像,我們需要對(duì)其進(jìn)行矯正處理。對(duì)于正常圖像,大多數(shù)情況我們需要對(duì)其做預(yù)處理,以消除光照等的影響,然后可以通過(guò)交通標(biāo)志特有的顏色和形狀信息對(duì)其進(jìn)行分割處理,以得到待選區(qū)域。再根據(jù)一些特定的算法對(duì)干擾區(qū)域進(jìn)行剔除,從而得到目標(biāo)區(qū)域。對(duì)于目前交通標(biāo)志檢測(cè)的研究現(xiàn)狀,雖然取得了突破性的進(jìn)展,但各種算法亦有優(yōu)缺點(diǎn),面對(duì)復(fù)雜多變的交通環(huán)境很難做出很好的檢測(cè),所以有必要對(duì)交通標(biāo)志的檢測(cè)進(jìn)行更進(jìn)一步的討論和研究。
3國(guó)內(nèi)外研究現(xiàn)狀
3.1國(guó)外研究現(xiàn)狀
早在1987年日本就進(jìn)行了交通標(biāo)志的檢測(cè)與識(shí)別,采用了模板匹配的經(jīng)典算法,其平均識(shí)別時(shí)間為0.5秒。發(fā)到國(guó)家也不甘落后,1993年美國(guó)針對(duì)“停車(chē)”的標(biāo)志研究開(kāi)發(fā)了ADIS系統(tǒng),采用了顏色聚類(lèi)的方法對(duì)目標(biāo)進(jìn)行檢測(cè),然而AIDS存在一個(gè)明顯的缺陷,就是時(shí)間不穩(wěn)定。為了滿通標(biāo)志時(shí)間識(shí)別的精確性,1994年,戴姆勒-奔馳汽車(chē)公司與大學(xué)合作開(kāi)發(fā),最終,一個(gè)全新的系統(tǒng)誕生了,其速度之快令人嘆服,達(dá)到3.2s/幅,交通標(biāo)志數(shù)據(jù)庫(kù)中,有40000多幅圖像,其識(shí)別準(zhǔn)確率為98%。交通標(biāo)志檢測(cè)與識(shí)別研究進(jìn)入新千年。越來(lái)越多的科研工作者和科研機(jī)構(gòu)加入到交通標(biāo)志檢測(cè)與識(shí)別中去,使得檢測(cè)技術(shù)有了很大的進(jìn)步。在2001年Winconsin大學(xué)的Liu和Ran基于HIS空間的顏色閾值分割法,結(jié)合神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,經(jīng)過(guò)實(shí)驗(yàn)顯示該系統(tǒng)的準(zhǔn)確率為95%。2005年Carethloy實(shí)驗(yàn)室和Nick Barnes自動(dòng)化研究所利用交通標(biāo)志在圖形上的對(duì)稱(chēng)性來(lái)確定交通標(biāo)志的質(zhì)心位置,其建立的交通標(biāo)志識(shí)別系統(tǒng)的準(zhǔn)確率為95%。在2009年Muhammad等人運(yùn)用多個(gè)方法進(jìn)行識(shí)別實(shí)驗(yàn)得到最好的識(shí)別準(zhǔn)確率為97%。2011年德國(guó)以德國(guó)交通標(biāo)志數(shù)據(jù)庫(kù)(GTSRB)為基礎(chǔ)舉辦了交通標(biāo)志識(shí)別大賽(IJCNN2011)。標(biāo)志著交通標(biāo)志檢測(cè)與識(shí)別受到了全世界的高度關(guān)注,這也促進(jìn)了交通標(biāo)志檢測(cè)與識(shí)別的研究進(jìn)展。Ciresan等人在IJCNN2011大賽上采用深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolution Neural Network)識(shí)別算法得到了比人類(lèi)識(shí)別平均率高的結(jié)果。2013年,對(duì)于交通標(biāo)志檢測(cè)系統(tǒng),Kim J.B將視覺(jué)顯著性模型運(yùn)用到其中,使交通識(shí)別的準(zhǔn)確性更高。
3.2國(guó)內(nèi)研究現(xiàn)狀
與國(guó)外相比,在時(shí)間上,對(duì)于交通檢測(cè)系統(tǒng),我國(guó)運(yùn)用的稍微落后。在交通標(biāo)志檢測(cè)研究方面,將顏色和形狀結(jié)合的相關(guān)檢測(cè)方法較為廣泛,在識(shí)別算法方面,國(guó)內(nèi)一些學(xué)者也取得了顯著性的成果。在2000年郁梅提出了一種基于顏色的快速檢測(cè)方法。2004年,根據(jù)不變矩特征和BP神經(jīng)網(wǎng)絡(luò),王坤明等人對(duì)交通識(shí)別系統(tǒng)做了進(jìn)一步的闡述。2008年,交通識(shí)別系統(tǒng)有了進(jìn)一步的發(fā)展,以BP神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),寧波大學(xué)朱雙東教授等人將交通標(biāo)志的顏色區(qū)分成了五種最基本的顏色。2012年朱淑鑫在RGB和HIS空間上進(jìn)行多閾值分割。2013年,“紅色位圖”方法被提出,其主要利用在邊緣信息的形狀檢測(cè)上,王剛毅希望通過(guò)這一方法來(lái)提高紅色圓形標(biāo)志區(qū)域的檢測(cè)率。
4交通標(biāo)志檢測(cè)算法現(xiàn)狀
我國(guó)的交通標(biāo)志主要分為警告、禁止、指示三大類(lèi),交通標(biāo)志顏色主要有紅色、藍(lán)色、黑色、黃色和白色五種基本顏色,交通標(biāo)志的形狀有四大類(lèi),即三角形、矩陣、八邊形和圓形。目前針對(duì)道路交通標(biāo)志檢測(cè)的算法主要是基于顏色的檢測(cè)、形狀的檢測(cè)以及顏色和形狀相結(jié)合的檢測(cè),下面我們對(duì)常見(jiàn)的檢測(cè)方法進(jìn)行簡(jiǎn)單的概述。
4.1基于色的檢測(cè)方法
由于交通標(biāo)志具有很明顯的顏色特征,所以很多文獻(xiàn)都對(duì)這一方法做了討論和研究。常見(jiàn)的顏色空間有RGB、HSI、Lab、Ycgcr、Ycbcr等。De La Escalear A等人運(yùn)用RGB閾值的方法將顏色分類(lèi)。但此方法受光照影響因素較大,為了減少光照等環(huán)境因素的影響,Ruta等人提出了RGB空間顏色增強(qiáng)的方法,這種方法可以快速將標(biāo)志區(qū)域檢測(cè)出來(lái)。由于RGB空間亮度和色度的混合在一起的,后來(lái)研究者們運(yùn)用了更符合人類(lèi)對(duì)顏色的視覺(jué)理解的HIS、HSV空間。為了使交通標(biāo)志的檢測(cè)精度更高,在HIS空間中設(shè)定閾值這個(gè)方法被提出了,事實(shí)上,一個(gè)交通標(biāo)志可以由幾種顏色構(gòu)成,因此,S.LafuenteCArroyo等人希望通過(guò)這種方法對(duì)于不同顏色的交通標(biāo)志都能檢測(cè)出來(lái)。但HIS顏色空間聚類(lèi)效果不好,因此,為了更好的對(duì)交通標(biāo)志的顏色進(jìn)行區(qū)分,選擇聚類(lèi)效果好的顏色空間至關(guān)重要,在此基礎(chǔ)上,Jitendra N.Chourasia等人主張使用Ycbcr顏色區(qū)間。
4.2基于形狀的檢測(cè)方法
除了利用顏色對(duì)交通標(biāo)志進(jìn)行檢測(cè)之外,還可以利用交通標(biāo)志的形狀,這也是其另一個(gè)重要的特點(diǎn)。最常用的檢測(cè)圓形和直線是Hough變換,事實(shí)證明,Kuo W J等人通過(guò)Hough變換,對(duì)交通標(biāo)志進(jìn)行檢測(cè),效果顯著,但由于其計(jì)算量大的原因不適用于實(shí)時(shí)性監(jiān)測(cè)。另一種形狀檢測(cè)法是基于拐角提取算法,Escalera等人提出拐角檢測(cè)算法,簡(jiǎn)單來(lái)說(shuō),就是根據(jù)形狀的變化所產(chǎn)生的像素點(diǎn)判斷能否為拐點(diǎn),來(lái)進(jìn)行檢測(cè),但是,其唯一的缺點(diǎn)是誤檢率也比較高。Rangarajan等人提出了一種最優(yōu)拐角檢測(cè)方法,通過(guò)設(shè)計(jì)好的掩膜與圖像做卷積運(yùn)算后將拐角檢測(cè)出來(lái),魯棒性好。
4.3基于顏色和形狀的檢測(cè)方法
既然基于顏色和基于形狀的方法都不能得到很好的交通標(biāo)志檢測(cè),于是很多學(xué)者將這兩種方法結(jié)合起來(lái),產(chǎn)生了綜合顏色和形狀的檢測(cè)方法。并也取得了一些顯著性的成果。M.Zadeh等人利用圖像處理的相關(guān)知識(shí),先把圖像進(jìn)行顏色分割,再運(yùn)用形態(tài)學(xué)的相關(guān)方法提取區(qū)域邊緣,最后對(duì)待定區(qū)域進(jìn)行跟蹤和幾何分析,從而提取得到目標(biāo)檢測(cè)區(qū)域。但該方法對(duì)噪聲特別敏感。所以當(dāng)圖像的噪聲很強(qiáng)時(shí)這種檢測(cè)方法的效果并不理想。
5交通標(biāo)志檢測(cè)與識(shí)別難點(diǎn)
盡管近幾十年提出了很多新的檢測(cè)方法,但目前的研究成果還不能夠勝任復(fù)雜多變的現(xiàn)實(shí)場(chǎng)景。交通標(biāo)志識(shí)別系統(tǒng)TSR設(shè)計(jì)到多個(gè)研究領(lǐng)域,包括圖像處理、人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)等相關(guān)領(lǐng)域,因此,關(guān)于交通標(biāo)志識(shí)別系統(tǒng)的研究任重而道遠(yuǎn),在未來(lái),不管是自然場(chǎng)景下,還是復(fù)雜場(chǎng)景下,對(duì)于交通識(shí)別系統(tǒng)研究,都應(yīng)重點(diǎn)關(guān)注?,F(xiàn)階段交通標(biāo)志檢測(cè)與識(shí)別主要面臨的困難和挑戰(zhàn)如下:
(1)環(huán)境對(duì)交通標(biāo)志的影響。這主要表現(xiàn)在四季中風(fēng)雨對(duì)交通標(biāo)志的損壞,這在一定程度上會(huì)降低圖像的清晰度。交通標(biāo)志長(zhǎng)年暴露在外面,難免會(huì)出現(xiàn)變形、污損、褪色等情況,這對(duì)檢測(cè)也造成了困難。
(2)拍攝角度的影響。不同的拍攝角度對(duì)檢測(cè)具有比較大的影響,對(duì)傾斜的圖像我們需要對(duì)其做一個(gè)矯正處理。
(3)現(xiàn)場(chǎng)場(chǎng)景環(huán)境中有很多干擾物體,使得在分割的時(shí)候會(huì)把不是標(biāo)志的物體也分割出來(lái),對(duì)我們檢測(cè)帶來(lái)了一定程度上的干擾。
(4)交通標(biāo)志類(lèi)型復(fù)雜,種類(lèi)多,目前所了解的就有130多種,包括警告標(biāo)志、指示標(biāo)志、禁令標(biāo)志、指路標(biāo)志等等,給檢測(cè)大大增加了難度。
(5)實(shí)時(shí)性改進(jìn)的問(wèn)題,由于汽車(chē)移動(dòng)速度快,而且在移動(dòng)過(guò)程中往往在一定程度上有抖動(dòng)和變速等動(dòng)作,捕捉到的圖像會(huì)產(chǎn)生變形模糊,處理時(shí)間過(guò)長(zhǎng)會(huì)導(dǎo)致司機(jī)反應(yīng)時(shí)間縮短。
(6)準(zhǔn)確率有待進(jìn)一步提升。準(zhǔn)確率太低的話不但達(dá)不到駕駛輔助作用,反而會(huì)引起交通事故發(fā)生。
(7)沒(méi)有公用樣本數(shù)據(jù)。國(guó)內(nèi)目前統(tǒng)一的評(píng)判標(biāo)準(zhǔn)和數(shù)據(jù)庫(kù)尚未建立起來(lái)。
(8)智能交通識(shí)別系統(tǒng)服務(wù)于大眾,因此需要考慮經(jīng)濟(jì)成本問(wèn)題。
綜合以上可知,由于在現(xiàn)實(shí)場(chǎng)景中以上問(wèn)題的存在,所以在設(shè)計(jì)道路交通標(biāo)志檢測(cè)與識(shí)別算法的時(shí)候必須有針對(duì)性的解決上訴問(wèn)題。
6總結(jié)
總的來(lái)說(shuō),交通標(biāo)志檢測(cè)與識(shí)別系統(tǒng)(TSR)的發(fā)展前景非常好,被廣泛運(yùn)用于輔助駕駛系統(tǒng)、無(wú)人汽車(chē)駕駛和各種道路檢測(cè)標(biāo)志的檢測(cè)修復(fù)等領(lǐng)域。本文主要對(duì)國(guó)內(nèi)外的研究現(xiàn)狀做了一個(gè)回顧和分析,許多研究學(xué)者也做出了一些階段性的成果和進(jìn)展,但由于自然環(huán)境下一些復(fù)雜多變的因素對(duì)檢測(cè)造成了困難和挑戰(zhàn),因此TSR系統(tǒng)的研究還面臨許多難題有待解決。隨著人工智能和機(jī)器學(xué)習(xí)等算法的提升,我們堅(jiān)信未來(lái)的道路交通標(biāo)志檢測(cè)與識(shí)別會(huì)邁上一個(gè)新的臺(tái)階。
參考文獻(xiàn)
[1]徐華青,陳瑞南,林錦川等.道路交通標(biāo)志檢測(cè)方法研究[J].福州大學(xué)學(xué)報(bào),2010,(3):387392.
[2]常發(fā)亮,黃翠,劉成云等.基于高斯顏色模型和SVM的交通標(biāo)志檢測(cè)[J].儀器儀表學(xué)報(bào),2014,35(1):4349.
[3]Salichs M A.TRAFFIC SIGN DETECTION FOR DRIVER SUPPORT SYSTEMS[C].2001.
[4]Kehtarnavaz N,Griswold N C,Kang D S.Stop-sign recognition based on color/shape processing[J].Machine Vision and Applications,1993,6(4):206208.
[5]Priese L,Lakmann R,Rehrmann V.Ideogram identification in a realtime traffic sign recognition system[C].Intelligent Vehicles 95 Symposium. Proceedings of the.IEEE,1995:310314.
[6]Liu H,Ran B.Vision-Based Stop Sign Detection and Recognition System for Intelligent Vehicles[J].Transportation Research Record Journal of the Transportation Research Board,2001,1748(1):161166.
[7]Barnes N,Loy G,Shaw D,et al.Regular polygon detection[C].Tenth IEEE International Conference on Computer Vision.IEEE,2014:778785.
[8]Muhammad A S,Lavesson N,Davidsson P,et al.Analysis of Speed Sign Classification Algorithms Using Shape Based Segmentation of Binary Images[J].Lecture Notes in Computer Science,2009,5702:12201227.
[9]Kim J B.Detection of traffic signs based on eigen-color model and saliency model in driver assistance systems[J].International Journal of Automotive Technology,2013,14(3):429439.
[10]郁梅,郁伯康.基于彩色D像的指示標(biāo)志檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2000,36(4):169172.
[11]王坤明,許忠仁.基于不變矩和神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別方法研究[J].計(jì)算機(jī)應(yīng)用研究,2004,21(3):254255.
[12]朱雙東,蔣甜甜,劉蘭蘭.基于顏色規(guī)格化的交通標(biāo)志識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件,2008,25(1):220222.
[13]朱淑鑫.基于顏色特征的交通標(biāo)志圖像分割研究[J].考試周刊,2012,(81):111112.
[14]Wang G,Ren G,Jiang L,et al.Hole-based traffic sign detection method for traffic signs with red rim[J].The Visual Computer,2014,30(5):539551.
[15]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
[16]Ruta A,Li Y,Liu X.Real-time traffic sign recognition from video by class-specific discriminative features[J].Pattern Recognition,2010,43(1):416430.
[17]Lafuente-Arroyo S,Salcedo-Sanz S,Maldonado-Basc,et al.A decision support system for the automatic management of keep-clear signs based on support vector machines and geographic information systems[J].2010,37(1):767773.
[18]Chourasia J N,Bajaj P.Centroid Based Detection Algorithm for Hybrid Traffic Sign Recognition System[C].International Conference on Emerging Trends in Engineering and Technology.IEEE,2010:96100.
[19]Kuo W J,Lin C C.Two-Stage Road Sign Detection and Recognition[C].IEEE International Conference on Multimedia and Expo.IEEE Xplore,2007:14271430.
[20]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
關(guān)鍵詞:大學(xué)計(jì)算機(jī)基礎(chǔ);教學(xué)改革;人工智能;智慧課堂
云計(jì)算、大數(shù)據(jù)、人工智能新興領(lǐng)域的崛起,推動(dòng)信息技術(shù)全面滲透于人們的生產(chǎn)生活中。信息技術(shù)的核心在于計(jì)算機(jī)技術(shù)和通信技術(shù)。然而,雖然目前各個(gè)高校都開(kāi)設(shè)了計(jì)算機(jī)基礎(chǔ)課程,但是其教學(xué)卻存在著諸多問(wèn)題,導(dǎo)致該課程無(wú)法達(dá)到預(yù)期的教學(xué)效果。教育部在2012年《教育信息化十年發(fā)展規(guī)劃(2011-2020年)》,其中指明“以教育信息化帶動(dòng)教育現(xiàn)代化,促進(jìn)教育的創(chuàng)新與變革”[2]。因此,本文以華中師范大學(xué)計(jì)算機(jī)基礎(chǔ)課程教學(xué)為例,深入闡述了傳統(tǒng)計(jì)算機(jī)基礎(chǔ)課程教學(xué)的弊端,提出了在當(dāng)前人工智能如火如荼的時(shí)代背景下,如何應(yīng)用人工智能相關(guān)技術(shù)對(duì)傳統(tǒng)的計(jì)算機(jī)基礎(chǔ)教學(xué)進(jìn)行改革的具體方案。該方案以創(chuàng)建網(wǎng)絡(luò)智慧課堂教學(xué)模式改革為主體,輔以教學(xué)觀念、知識(shí)體系和課程考核方式改革,以期對(duì)高校的計(jì)算機(jī)基礎(chǔ)課程教學(xué)有所裨益。
1傳統(tǒng)教學(xué)的缺陷
⑴課程的教學(xué)地位沒(méi)有引起足夠的重視一些高校為計(jì)算機(jī)基礎(chǔ)課程分配較少的學(xué)時(shí)(少于48學(xué)時(shí)),甚至有的專(zhuān)業(yè)將此課程設(shè)置為選修課。這種設(shè)置降低了該課程在教師和學(xué)生心目中的位置,導(dǎo)致了對(duì)該課程的忽視。同時(shí),不少老師因?yàn)閷W(xué)時(shí)不夠,時(shí)間緊迫,僅僅講述與考試相關(guān)的內(nèi)容,不考的一概不講。這導(dǎo)致學(xué)生的眼界受限,知識(shí)和能力受限,無(wú)法培養(yǎng)其全面綜合的計(jì)算機(jī)素質(zhì)。還有的專(zhuān)業(yè)沒(méi)有將這門(mén)課給專(zhuān)業(yè)的計(jì)算機(jī)學(xué)院的老師講授,而是隨意安排授課人員。沒(méi)有經(jīng)過(guò)系統(tǒng)專(zhuān)業(yè)訓(xùn)練的教師缺乏足夠的知識(shí)儲(chǔ)備,很難講好這一門(mén)看似簡(jiǎn)單的課程。⑵課程教學(xué)內(nèi)容的制定與當(dāng)今時(shí)代對(duì)于信息化人才的需求脫節(jié)一些高校的現(xiàn)狀是計(jì)算機(jī)基礎(chǔ)的課程教材知識(shí)陳舊[3]、質(zhì)量堪憂,教材總是無(wú)法跟上知識(shí)更新的步伐,例如都2019年了還在講Office2010。有的高校由于缺乏對(duì)課程的重視,沒(méi)有對(duì)教材優(yōu)中選優(yōu),而是基于利益的考慮,優(yōu)先選擇自己院系編寫(xiě)的教材。其教材內(nèi)容是七拼八湊,沒(méi)有整體性、邏輯性和連貫性,更不用說(shuō)前瞻性。這樣的教材,無(wú)疑對(duì)學(xué)生的學(xué)習(xí)設(shè)置了巨大的屏障。除此以外,一些院校的課程教學(xué)知識(shí)體系不夠明確和完善,教學(xué)大綱的制定不夠科學(xué)。從教學(xué)大綱中制定的學(xué)時(shí)分配來(lái)說(shuō),常常偏重實(shí)用性[4],常用計(jì)算機(jī)軟件操作占據(jù)了大部分的課時(shí)。這會(huì)讓教師在授課時(shí)輕理論而重操作,如此培養(yǎng)學(xué)生,非常不利于其計(jì)算思維的形成,對(duì)后續(xù)其他計(jì)算機(jī)相關(guān)課程的學(xué)習(xí)也是很大的傷害。⑶教學(xué)模式過(guò)于傳統(tǒng),信息化水平較低從教學(xué)方式上來(lái)說(shuō),傳統(tǒng)的教學(xué)模式以教師課堂授課為中心,是以教師為主體的教學(xué)模式[5]。在這種模式下,教師仍然主要以填鴨式教學(xué)為主[6],無(wú)法通過(guò)課堂教學(xué)發(fā)現(xiàn)學(xué)生的個(gè)性化特點(diǎn),并進(jìn)行有針對(duì)性的教學(xué)。另外,雖然計(jì)算機(jī)基礎(chǔ)課程一般都配備了實(shí)驗(yàn)課時(shí),但是實(shí)驗(yàn)課常常是采用教師布置上機(jī)任務(wù)、學(xué)生做完抽樣檢查的模式。這對(duì)于大課堂來(lái)說(shuō),教師的任務(wù)繁重,無(wú)法搜集到每一個(gè)學(xué)生的任務(wù)完成情況,無(wú)法清晰地掌握學(xué)生學(xué)習(xí)的實(shí)際情況和薄弱環(huán)節(jié)。而且,該課程缺乏相應(yīng)的研討課時(shí),很難讓學(xué)生對(duì)其所學(xué)知識(shí)進(jìn)行深入思考和探究,以增強(qiáng)思辨能力和對(duì)課程的學(xué)習(xí)興趣。⑷課程考核方式不夠公平合理從考核方式上來(lái)說(shuō),該課程普遍采用“平時(shí)成績(jī)”+“期末考試”的加權(quán)方式對(duì)學(xué)生成績(jī)進(jìn)行評(píng)定。平時(shí)成績(jī)多由考勤分所得,期末考試多采用機(jī)考模式。這種考核方式過(guò)于單一化、機(jī)械化,無(wú)法對(duì)學(xué)生進(jìn)行全方位的評(píng)價(jià)。很多學(xué)生來(lái)到教室打考勤,但可能根本沒(méi)聽(tīng)講,而是在睡覺(jué)或者玩手機(jī)。期末機(jī)考的公平合理性也是存在著很多的漏洞。例如機(jī)考的試題庫(kù)可以十年不變,分值的分配和難度的掌握都沒(méi)有經(jīng)過(guò)系統(tǒng)的考量。甚至有的考試系統(tǒng)不夠穩(wěn)定和安全,頻頻爆出Bug,嚴(yán)重影響了考試結(jié)果的真實(shí)性。
2新人工智能環(huán)境下對(duì)計(jì)算機(jī)基礎(chǔ)課程改革的具體方案
2012年開(kāi)始,在隨著卷積神經(jīng)網(wǎng)絡(luò)技術(shù)在視覺(jué)處理方面的應(yīng)用取得巨大的成功之后,人工智能到達(dá)了有史以來(lái)的第三個(gè)爆發(fā)期。目前,深度學(xué)習(xí)技術(shù)在AlphaGo、無(wú)人駕駛汽車(chē)、機(jī)器翻譯、智能助理、機(jī)器人、推薦系統(tǒng)等領(lǐng)域的發(fā)展如火如荼。與此同時(shí),人工智能技術(shù)在教育領(lǐng)域方面的應(yīng)用已經(jīng)興起。人工智能的教學(xué)產(chǎn)品也已有先例,例如基于MOOC平臺(tái)研發(fā)的教學(xué)機(jī)器人MOOCBuddy等等?;谌斯ぶ悄艿慕逃侨诤显朴?jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)、VR、區(qū)塊鏈等新興技術(shù)的增強(qiáng)型數(shù)字教育[2].在當(dāng)前人工智能的大時(shí)代背景下,針對(duì)傳統(tǒng)計(jì)算機(jī)基礎(chǔ)的種種弊端,我們提出了如下教學(xué)改革方案。⑴改變教學(xué)理念,確立計(jì)算機(jī)基礎(chǔ)課程的重要地位計(jì)算機(jī)基礎(chǔ)作為高校的一門(mén)公共課,實(shí)則應(yīng)當(dāng)作為各個(gè)專(zhuān)業(yè)的學(xué)生后續(xù)的學(xué)習(xí)、科研的必修之課程。因此,高等學(xué)校應(yīng)從源頭上確立該課程的重要地位,將該課程納入必修課范疇,并給與更充分合理的課時(shí)分配。除教學(xué)課時(shí)、實(shí)驗(yàn)課時(shí)之外,需要為該課程增加一定的研討課時(shí)。任課老師必須是來(lái)自于計(jì)算機(jī)專(zhuān)業(yè)的人才。同時(shí),定時(shí)舉辦關(guān)于該課程的教學(xué)培訓(xùn)、教學(xué)研討會(huì)和教學(xué)比賽,改變教師的教學(xué)理念,從源頭上給予該課程足夠的重視。⑵優(yōu)化教學(xué)內(nèi)容,重新制定課程的教學(xué)知識(shí)體系教材是教師教學(xué)的主要依據(jù),也是學(xué)生獲得系統(tǒng)性知識(shí)的主要來(lái)源。因此,教材對(duì)于教學(xué)的重要性不言而喻。教材的選取需要優(yōu)中擇優(yōu),必要的時(shí)候可以根據(jù)自身院校的情況自己編寫(xiě),力求使用好的教材使教學(xué)事半功倍。在選定優(yōu)質(zhì)教材的基礎(chǔ)上,制定更加合理的教學(xué)大綱,優(yōu)化計(jì)算機(jī)基礎(chǔ)課程的教學(xué)知識(shí)體系,突出計(jì)算機(jī)學(xué)科入門(mén)相關(guān)基礎(chǔ)理論知識(shí)的重要地位。對(duì)現(xiàn)有的過(guò)時(shí)內(nèi)容進(jìn)行更新,例如操作系統(tǒng)以Windows10的操作取代Windows7,Office這部分使用Office2019版本取代2010的版本,同時(shí)增加關(guān)于算法入門(mén)知識(shí)、程序設(shè)計(jì)入門(mén)知識(shí)以及人工智能、區(qū)塊鏈等前沿知識(shí)單元的介紹。以華中師范大學(xué)為例,我們?cè)趫D1中給出了該校計(jì)算機(jī)基礎(chǔ)課程的教學(xué)知識(shí)體系結(jié)構(gòu)圖。⑶充分利用現(xiàn)代化的教學(xué)工具和人工智能技術(shù),構(gòu)建智慧課堂,改變傳統(tǒng)教學(xué)模式現(xiàn)代化的教學(xué)應(yīng)當(dāng)轉(zhuǎn)變以教師為核心的教學(xué)模式,更加突出學(xué)生的主體性地位。因此,在人工智能、物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)和蓬勃發(fā)展的情形下,應(yīng)當(dāng)改變傳統(tǒng)的課堂教學(xué)形式,充分利用現(xiàn)代化信息技術(shù),將傳統(tǒng)課堂教學(xué)和網(wǎng)絡(luò)課堂教學(xué)模式相結(jié)合,構(gòu)建智慧課堂。融合課堂教學(xué)身臨其境的效果與網(wǎng)絡(luò)課堂自主性強(qiáng)且方便師生交流的特點(diǎn),通過(guò)師生之間多層次、立體化的互動(dòng),達(dá)到提升教學(xué)效果的目的。同時(shí),建立功能強(qiáng)大、完善的學(xué)生實(shí)驗(yàn)平臺(tái),基于不同專(zhuān)業(yè)學(xué)生的不同特點(diǎn)和不同需求,進(jìn)行個(gè)性化的作業(yè)設(shè)置。針對(duì)教師布置的實(shí)驗(yàn)任務(wù)和學(xué)生的完成情況,結(jié)合在線網(wǎng)絡(luò)教學(xué)系統(tǒng),通過(guò)傳感器及網(wǎng)絡(luò)數(shù)據(jù),搜集學(xué)生的學(xué)習(xí)行為數(shù)據(jù),并且使用人工智能算法進(jìn)行智能分析,使教師對(duì)當(dāng)前的學(xué)生的學(xué)習(xí)情況一目了然,并能引導(dǎo)學(xué)生對(duì)重點(diǎn)、難點(diǎn)的鞏固和掌握。研討課以學(xué)生為主體,按照所選課題進(jìn)行分組調(diào)研、分組討論,刺激學(xué)生的學(xué)習(xí)興趣,培養(yǎng)其思辨能力。研討內(nèi)容最終可以課程論文的形式上交至課程共享平臺(tái),由教師和同學(xué)共同給出評(píng)分。這里,仍以華中師范大學(xué)為例,我們將在線教學(xué)系統(tǒng)、實(shí)驗(yàn)課平臺(tái)、研討課共享平臺(tái)等集成為一個(gè)基于人工智能技術(shù)的網(wǎng)絡(luò)智慧教學(xué)綜合平臺(tái)系統(tǒng)。該系統(tǒng)主要包括用戶(hù)管理、在線教學(xué)、課堂互動(dòng)、作業(yè)管理、考試管理、BBS系統(tǒng)、智能分析和平臺(tái)管理8個(gè)模塊,其主要功能如圖2所示。該系統(tǒng)采用C/S模式,系統(tǒng)的服務(wù)器選用Linux服務(wù)器,同時(shí)開(kāi)發(fā)基于PC機(jī)的和手機(jī)端的客戶(hù)端系統(tǒng),方便學(xué)生和教師隨時(shí)選用、更加靈活。在線教學(xué)模塊中的智能學(xué)習(xí)助理功能,能夠根據(jù)歷史用戶(hù)的學(xué)習(xí)行為和當(dāng)前用戶(hù)的學(xué)習(xí)行為,自動(dòng)地識(shí)別學(xué)習(xí)內(nèi)容中的難點(diǎn)以及當(dāng)前學(xué)生的難點(diǎn)內(nèi)容,有針對(duì)性地對(duì)學(xué)生進(jìn)行知識(shí)點(diǎn)強(qiáng)化。課堂互動(dòng)模塊中,通過(guò)可穿戴式傳感器搜集學(xué)生的學(xué)習(xí)行為,用于后續(xù)智能分析模塊中對(duì)學(xué)生的學(xué)習(xí)態(tài)度和學(xué)習(xí)行為進(jìn)行智能分析。在線作業(yè)評(píng)價(jià)模塊包括機(jī)器評(píng)價(jià)和教師評(píng)價(jià)兩個(gè)功能。機(jī)器評(píng)價(jià)是系統(tǒng)為學(xué)生作業(yè)(客觀題、主觀題)自動(dòng)評(píng)分,其中主觀題的評(píng)分也是使用人工智能技術(shù)來(lái)實(shí)現(xiàn)。教師評(píng)分時(shí)可以參考機(jī)器評(píng)分,減少教師工作量。同時(shí),教師評(píng)分為機(jī)器評(píng)分提供機(jī)器學(xué)習(xí)的經(jīng)驗(yàn)數(shù)據(jù),促進(jìn)機(jī)器評(píng)分更加智能。智能分析模塊能夠依據(jù)學(xué)生的在線課程學(xué)習(xí)模塊、課堂學(xué)習(xí)模塊、作業(yè)管理模塊等搜集到的學(xué)習(xí)行為數(shù)據(jù)進(jìn)行綜合分析,促使教師深入了解學(xué)生的學(xué)習(xí)情況和個(gè)性化特點(diǎn),提升教學(xué)的針對(duì)性,并且有助于后續(xù)對(duì)學(xué)生進(jìn)行全面、綜合的分析和成績(jī)?cè)u(píng)定。所有系統(tǒng)模塊中使用到的智能分析技術(shù)包括基本的統(tǒng)計(jì)分析、以及各類(lèi)機(jī)器學(xué)習(xí)算法(k-means,NaveBayes,SupportVectorMachine,DeepLearning等等)。⑷改變傳統(tǒng)成績(jī)考核的方式在“教學(xué)”+“實(shí)驗(yàn)”+“研討課”課程結(jié)構(gòu)以及網(wǎng)絡(luò)智慧教學(xué)綜合平臺(tái)的輔助之下,學(xué)生的成績(jī)?cè)u(píng)定更加全面化、多元化、公平化、自動(dòng)化[7]。平時(shí)成績(jī)中,除了教學(xué)綜合平臺(tái)的“課堂簽到”次數(shù)之外,還增加更多豐富多元化的考察信息,如:學(xué)生的課堂討論、在線課程學(xué)習(xí)和考核結(jié)果、平時(shí)作業(yè)完成情況,以及智能分析模塊中輔助分析的學(xué)習(xí)態(tài)度、學(xué)習(xí)能力、平時(shí)成績(jī)預(yù)測(cè)。期末上機(jī)考試系統(tǒng)也是智慧課堂綜合平臺(tái)的一個(gè)子模塊,是精心設(shè)計(jì)的穩(wěn)定、安全、功能強(qiáng)大的子系統(tǒng),方便教師每一年更新試題庫(kù),修改bug。試題庫(kù)中的每一套試卷都應(yīng)當(dāng)經(jīng)過(guò)科學(xué)的考卷質(zhì)量分析,使其難度、覆蓋范圍在一個(gè)均衡、合理的范圍。最后,教師通過(guò)對(duì)各類(lèi)平時(shí)成績(jī)指標(biāo)以及期末考試成績(jī)加權(quán),給出最終的學(xué)習(xí)成績(jī)。通過(guò)規(guī)范、合理、公平、全面的考核體系,獲得對(duì)學(xué)生公平、完善的評(píng)價(jià)機(jī)制,激勵(lì)學(xué)生并刺激教學(xué)良性運(yùn)轉(zhuǎn)。
3結(jié)束語(yǔ)
1圖像特征表示方法概述
設(shè)計(jì)圖像的特征表示是計(jì)算機(jī)視覺(jué)中一項(xiàng)非?;镜难芯?jī)?nèi)容,圖像的分類(lèi)、檢索、標(biāo)注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關(guān)圖像分析中取得更佳的效果.因此,圖像特征的設(shè)計(jì)與構(gòu)造,直接影響算法的性能.而如何定義一個(gè)好的圖像特征卻是非常困難的:一方面,設(shè)計(jì)的圖像特征對(duì)于同一類(lèi)別下圖像之間的變化(比如尺度、光照變化、對(duì)象位置變化等)要有足夠的魯棒性;另一方面,設(shè)計(jì)的圖像特征要具備足夠的判別性來(lái)處理不同類(lèi)別間圖像的變化.近年來(lái),研究者提出了大量的底層特征用于各種圖像分析任務(wù),其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類(lèi)特征取得了一定意義的成功,但研究者發(fā)現(xiàn),這類(lèi)單一的底層特征并不足以在某些應(yīng)用上達(dá)到更好的效果,因此提出了一類(lèi)中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類(lèi)圖像特征表示方法的典型代表,該方法在場(chǎng)景分類(lèi)中獲得了較好的性能.BoW算法生成圖像特征表示分為3個(gè)過(guò)程:圖像底層特征的獲取、學(xué)習(xí)過(guò)完備字典和計(jì)算圖像的碼字直方圖表示.然而,BoW方式并沒(méi)有考慮特征向量在圖像空間上的位置關(guān)系,使得其特征描述能力并沒(méi)有達(dá)到最大化.為了彌補(bǔ)這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡(jiǎn)稱(chēng)SPM)[4]方法通過(guò)在一幅圖像的不同層次上計(jì)算碼字直方圖,形成了一個(gè)BoW多層特征,將BoW模型與圖像空間進(jìn)行合理融合.然而,由于SPM方法利用直方圖交核函數(shù)來(lái)度量?jī)煞鶊D像間的相似度,導(dǎo)致無(wú)法產(chǎn)生低維度的圖像特征表示,而且需要完整計(jì)算訓(xùn)練集圖像間相似度的Gram矩陣,因此,其算法復(fù)雜度為O(n2)(其中,n為訓(xùn)練集中圖像的個(gè)數(shù)).為了解決這一問(wèn)題,有效匹配核算法(efficientmatchkernel,簡(jiǎn)稱(chēng)EMK)[5]在碼字間相似性的基礎(chǔ)上構(gòu)造了一個(gè)低維特征映射空間,整個(gè)圖像的特征可以表示為碼字映射在這個(gè)低維特征空間后的平均,且可以采用線性SVM方法訓(xùn)練分類(lèi)器,在圖像分類(lèi)應(yīng)用中獲得了非常不錯(cuò)的效果.然而,有效匹配核算法仍然依賴(lài)于人為定義的圖像局部特征(如SIFT或HOG),只不過(guò)是通過(guò)計(jì)算有限維空間的局部線性特征表示來(lái)推出整體圖像的線性特征.
Bo等人擴(kuò)展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡(jiǎn)稱(chēng)KD)[6]方法.這種方法只需定義任意兩個(gè)局部圖像塊之間的相似性,且該相似性函數(shù)滿足核函數(shù)定義.由于每個(gè)核函數(shù)都隱性定義了一個(gè)映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡(jiǎn)稱(chēng)RKHS)中一個(gè)非常高維的向量,這樣,核函數(shù)可以表示為RKHS中兩個(gè)高維向量的內(nèi)積,通過(guò)核主成分分析(kernelprincipalcomponentanalysis,簡(jiǎn)稱(chēng)KPCA)[7]算法,可以由核函數(shù)推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱(chēng)為核描述子,并且采用EMK算法將其推廣到整個(gè)圖像的特征表示.盡管核描述子方法的設(shè)計(jì)思想較為新穎,但仍然存在計(jì)算復(fù)雜度過(guò)高這一缺陷,限制了其在大規(guī)模圖像數(shù)據(jù)庫(kù)上的應(yīng)用.事實(shí)上,在KPCA方法的離線階段,所有聯(lián)合基向量對(duì)之間的相似性都需要計(jì)算,這是非常耗時(shí)的.更重要的是:在線階段計(jì)算一個(gè)新圖像塊的特征映射時(shí),該圖像塊與所有聯(lián)合基向量之間的相似性也是需要計(jì)算的,而這實(shí)際上是不需要的.Xie等人[8]通過(guò)使用不完整Cholesky分解替代KPCA算法,成功地解決了這個(gè)問(wèn)題,并且通過(guò)迭代,應(yīng)用不完整Cholesky分解算法表示整個(gè)圖像特征[9].但文獻(xiàn)[8,9]中,通過(guò)不完整Cholesky分解得到的標(biāo)志聯(lián)合基向量并沒(méi)有對(duì)應(yīng)實(shí)際的圖像塊,因此,其產(chǎn)生的特征判別能力并沒(méi)有最大化地得到利用.
Wang等人提出了有監(jiān)督的核描述子方法[10],該方法利用訓(xùn)練集中的圖像類(lèi)標(biāo)來(lái)輔助設(shè)計(jì)底層圖像塊特征.盡管他們利用該特征取得了不錯(cuò)的分類(lèi)效果,但這個(gè)算法運(yùn)行過(guò)程中需要大量有類(lèi)標(biāo)的圖像,并且對(duì)象優(yōu)化函數(shù)求解過(guò)程復(fù)雜,時(shí)間復(fù)雜度過(guò)高.除了上述生成圖像底層特征表示的方法以外,另外一類(lèi)構(gòu)成圖像特征的方法基于深度學(xué)習(xí)理論.2006年,Hinton等人[11,12]提出了用于深度信任網(wǎng)絡(luò)(deepbeliefnetwork,簡(jiǎn)稱(chēng)DBN)的無(wú)監(jiān)督學(xué)習(xí)算法,DBN的多層結(jié)構(gòu),使得它能夠?qū)W習(xí)得到層次化的特征表示,實(shí)現(xiàn)自動(dòng)特征抽象,文獻(xiàn)[12]將DBN模型成功用于手寫(xiě)數(shù)字識(shí)別應(yīng)用上.Bengio等人在文獻(xiàn)[13]中提出了基于自編碼器(auto-encoder)[14]的深度學(xué)習(xí)網(wǎng)絡(luò),在手寫(xiě)數(shù)字識(shí)別圖像數(shù)據(jù)庫(kù)上得到了類(lèi)似的實(shí)驗(yàn)結(jié)果.另外,文獻(xiàn)[1517]提出了一系列基于稀疏編碼的深層學(xué)習(xí)網(wǎng)絡(luò),在圖像應(yīng)用中取得了一定的成功.LeCun等人用誤差梯度設(shè)計(jì)并訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,簡(jiǎn)稱(chēng)CNN),其在圖像分類(lèi),特別是手寫(xiě)體字符識(shí)別應(yīng)用中得到優(yōu)越的性能.在此基礎(chǔ)上,Krizhevsky等人[21]將CNN模型應(yīng)用到分類(lèi)大規(guī)模ImageNet圖像數(shù)據(jù)庫(kù),更加充分地顯示了深度學(xué)習(xí)模型的表達(dá)能力.盡管在深度學(xué)習(xí)模型下獲得的圖像特征有很強(qiáng)的判別表示能力,但其要求計(jì)算機(jī)硬件條件較高,單機(jī)環(huán)境下很難實(shí)現(xiàn).除此之外,更加詳細(xì)地介紹圖像特征描述子領(lǐng)域的綜述可以參考文獻(xiàn)[23].本文在大數(shù)據(jù)時(shí)代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡(jiǎn)稱(chēng)EPLd)方法.該方法在不完整Cholesky分解基礎(chǔ)上,可以自動(dòng)地進(jìn)行圖像塊篩選,對(duì)于求解新圖像塊的線性特征表示,只需計(jì)算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對(duì)應(yīng)著一個(gè)圖像塊特征的集合,該集合可以看作是特征空間中基于某個(gè)分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個(gè)分布的距離.本文采用基于高維概率分布的MMD距離[24]進(jìn)行估算,進(jìn)而計(jì)算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實(shí)現(xiàn)過(guò)程以及如何利用MMD距離計(jì)算兩幅圖像的相似性,并在幾個(gè)著名的圖像分類(lèi)數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),最后給出工作的結(jié)論和展望.
2核描述子方法簡(jiǎn)介
核描述子方法是對(duì)圖像像素點(diǎn)屬性(梯度/形狀/顏色+位置)基礎(chǔ)上生成的聯(lián)合基向量應(yīng)用KPCA方法,從而計(jì)算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點(diǎn)的梯度屬性來(lái)介紹核描述子方法.通過(guò)公式(2)可以看到,核描述子方法的主要缺陷有以下3點(diǎn):(1)算法計(jì)算復(fù)雜度高,因?yàn)樾枰獙?duì)dodp維的聯(lián)合基向量形成的Gram矩陣計(jì)算特征值分解,如果聯(lián)合基向量的維度過(guò)高或者個(gè)數(shù)過(guò)多,KPCA算法甚至無(wú)法實(shí)施;(2)對(duì)聯(lián)合基向量進(jìn)行KPCA獲得的tij并不是稀疏的,這也就意味著在計(jì)算新圖像塊的特征表示時(shí),需要和所有的聯(lián)合基向量進(jìn)行在線計(jì)算,所以算法需要存儲(chǔ)全部的聯(lián)合基向量;(3)算法無(wú)法進(jìn)行特征選擇,即,并不知道聯(lián)合基向量中哪些樣本最具代表性.
3有效圖像塊描述子算法
針對(duì)核描述子方法的3點(diǎn)不足之處,文獻(xiàn)[8]解決了其主要缺陷的第一、第二兩點(diǎn),但是文獻(xiàn)[8]在本質(zhì)上仍然使用聯(lián)合基向量,所以沒(méi)有明確地進(jìn)行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒(méi)有達(dá)到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱(chēng)為有效圖像塊描述子.該方法基于對(duì)圖像塊相似度矩陣執(zhí)行不完整Cholesky分解。總體上來(lái)說(shuō),有效圖像塊描述子算法由兩部分構(gòu)成:1)首先從訓(xùn)練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執(zhí)行不完整Cholesky分解算法.如果設(shè)定N代表圖像塊的個(gè)數(shù),M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點(diǎn):首先,在分解過(guò)程中只需要按需計(jì)算O(MN)個(gè)Gram矩陣元素的值;其次,對(duì)Gram矩陣執(zhí)行Cholesky分解的時(shí)間復(fù)雜度為O(M2N),遠(yuǎn)遠(yuǎn)低于KPCA算法的O(N3).2)經(jīng)過(guò)第1步分解步驟之后,選擇出了M個(gè)最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過(guò)O(M)次計(jì)算就可以得到.算法的具體步驟將在以下部分詳細(xì)介紹.
3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標(biāo)就是找到一個(gè)矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執(zhí)行不完整Cholesky分解算法的過(guò)程中,選擇出M個(gè)最具代表性的基圖像塊,利用所有圖像塊和這M個(gè)基圖像塊之間的相似性,可以近似恢復(fù)Gram矩陣K.這里,M的值是可以通過(guò)算法在線確定的,由算法中提前給定的近似精度參數(shù)來(lái)控制.關(guān)于不完整Cholesky分解的詳細(xì)執(zhí)行過(guò)程可以參考文獻(xiàn)[26],其中,作為輸入?yún)?shù)的Gram矩陣K實(shí)際上是按需計(jì)算的,即,算法執(zhí)行過(guò)程中需要用到哪兩個(gè)訓(xùn)練圖像塊間的相似度,就按照公式(1)計(jì)算得到.算法執(zhí)行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號(hào),同時(shí)得到了矩陣G,使得.TGGK
3.2構(gòu)造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構(gòu)造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復(fù)得到。通過(guò)算法1可以看到:選擇出的M個(gè)最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個(gè)新圖像塊和這些基圖像塊進(jìn)行相似性度量的過(guò)程,也可看成是對(duì)這個(gè)新圖像塊進(jìn)行特征提取的過(guò)程.另外,針對(duì)圖像塊相似度矩陣執(zhí)行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過(guò)程中只與某些訓(xùn)練樣本(圖像塊)有關(guān).也就是說(shuō),利用這些訓(xùn)練樣本就可以很好地近似恢復(fù)相似度矩陣,所以訓(xùn)練集中的圖像塊具有不同程度的重要性.因此,我們稱(chēng)重要性最高的前M個(gè)圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們?cè)赟cene-15圖像庫(kù)上提取了最重要的前16個(gè)基圖像塊,如圖1所示(每個(gè)圖像塊由其像素點(diǎn)的梯度幅值來(lái)表示).可以看到,每個(gè)圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻(xiàn)[8]的有效性,而且很好地解決了核描述子算法中的第3點(diǎn)缺陷,最大限度地發(fā)揮了圖像塊特征的判別能力.
4利用MMD距離計(jì)算圖像間的相似性
基于算法1,每一個(gè)圖像塊都可以用有效圖像塊描述子來(lái)表示.一幅圖像通過(guò)稠密采樣確定很多關(guān)鍵點(diǎn),每一個(gè)關(guān)鍵點(diǎn)都對(duì)應(yīng)著一個(gè)局部的圖像塊,因此,一幅圖像就對(duì)應(yīng)著一個(gè)局部特征的集合.假定圖像I1包含m個(gè)圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個(gè)圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來(lái)自分布p的一個(gè)樣本集,同樣,Fq也可以看作是來(lái)自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個(gè)分布的距離表示.當(dāng)然,這兩個(gè)概率分布之間的距離只能通過(guò)這兩個(gè)樣本集進(jìn)行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進(jìn)行估算.MMD距離可以看作是將兩個(gè)概率分布,通過(guò)非線性核函數(shù)映射到再生核希爾伯特空間(RKHS)后均值的距離.對(duì)于上述分布p和q的MMD距離估計(jì)可由公式(3)計(jì)算。單純地利用公式(3),并沒(méi)有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個(gè)問(wèn)題,本文首先采用空間金字塔方法將整幅圖像進(jìn)行逐層劃分;然后,在兩幅圖像每個(gè)層次對(duì)應(yīng)的小圖像上計(jì)算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對(duì)應(yīng)層次的權(quán)重進(jìn)行匯總求和,然后度量?jī)煞鶊D像I1與I2之間的差異性.
5實(shí)驗(yàn)
本文使用像素點(diǎn)的梯度、形狀和顏色屬性分別構(gòu)造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測(cè)試有效圖像塊描述子算法的性能,分別在3個(gè)著名的圖像分類(lèi)數(shù)據(jù)庫(kù)(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實(shí)驗(yàn).在接下來(lái)的實(shí)驗(yàn)中,計(jì)算3個(gè)不同類(lèi)型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過(guò)300300像素點(diǎn);特別地,在計(jì)算EPLd-G和EPLd-S時(shí),將縮放后的圖像中的像素點(diǎn)的灰度值標(biāo)準(zhǔn)化為[0,1]范圍.圖像塊通過(guò)每隔8個(gè)像素點(diǎn)的稠密采樣方式從訓(xùn)練集圖像中進(jìn)行抽取,大小為1616像素點(diǎn).EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個(gè)描述子串接起來(lái)形成的.訓(xùn)練線性SVM分類(lèi)器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來(lái)定義.在計(jì)算MMD時(shí),將圖像按照11,22和33分為3個(gè)層次來(lái)匯總求和,尺度參數(shù)在不同的數(shù)據(jù)庫(kù)上利用交叉驗(yàn)證方法確定.所有的實(shí)驗(yàn)均重復(fù)10次,每次的訓(xùn)練集和測(cè)試集都隨機(jī)抽取確定,將10次分類(lèi)準(zhǔn)確率的平均值和方差記錄下來(lái).實(shí)驗(yàn)中的其他參數(shù)從公平比較的角度考慮,與文獻(xiàn)[6,8]設(shè)置相同.
5.1Scene-15Scene-15場(chǎng)景數(shù)據(jù)庫(kù)包含4485張圖片,這些圖片分屬15個(gè)類(lèi)別,有室內(nèi)場(chǎng)景和室外場(chǎng)景,每一個(gè)類(lèi)別包含200張~400張圖片不等.按照慣例,從每個(gè)類(lèi)別中隨機(jī)抽取100張圖片作為訓(xùn)練,剩余圖片作為測(cè)試.在算法中設(shè)置Pivots的個(gè)數(shù)為200,即,利用不完整Cholesky分解選出200個(gè)最具代表性的基圖像塊來(lái)構(gòu)造維度為200的有效圖像塊描述子.實(shí)驗(yàn)結(jié)果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個(gè)數(shù)據(jù)庫(kù)上的最佳分類(lèi)準(zhǔn)確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過(guò)了文獻(xiàn)[6,8].在實(shí)驗(yàn)中,除了測(cè)試分類(lèi)準(zhǔn)確率來(lái)體現(xiàn)EPLd的判別能力,還通過(guò)不同維度下測(cè)試分類(lèi)準(zhǔn)確率來(lái)體現(xiàn)EPLd的有效性.我們發(fā)現(xiàn),在特征維度只有50維的情況下也獲得了接近最優(yōu)分類(lèi)準(zhǔn)確率的性能,這充分體現(xiàn)出EPLd算法的有效性和健壯性.事實(shí)上,通過(guò)表2可以看到:特征維度從50維增加到300維,分類(lèi)準(zhǔn)確率并沒(méi)有得到明顯的提升.造成這一現(xiàn)象的原因是,不完整Cholesky分解容易獲得高質(zhì)量的低秩近似.表2中的數(shù)據(jù)表明:即使是50維的低秩近似也足以體現(xiàn)Gram矩陣中的關(guān)鍵信息,而這些關(guān)鍵信息直接決定了分類(lèi)的性能.在后面的實(shí)驗(yàn)中,從算法效率的角度考慮都使用了100維的特征表示.
5.2Caltech-101Caltech-101圖像數(shù)據(jù)庫(kù)包含9144張圖片.這9144張圖片隸屬于101個(gè)對(duì)象類(lèi)別外加一個(gè)背景類(lèi)別,每個(gè)類(lèi)別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進(jìn)行了對(duì)比.同樣根據(jù)慣例,每個(gè)類(lèi)別隨機(jī)挑出30張圖片進(jìn)行訓(xùn)練,從剩余圖片中挑選不超過(guò)50張進(jìn)行測(cè)試.可以看到:EPLd算法達(dá)到了最佳的分類(lèi)準(zhǔn)確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達(dá)到了非常不錯(cuò)的分類(lèi)效果(73.7%).
5.3UIUC-8UIUC-8圖像數(shù)據(jù)庫(kù)包含1579張圖片,這1579張圖片隸屬于8個(gè)運(yùn)動(dòng)類(lèi)別,每個(gè)類(lèi)別下包含圖片137張~250張不等.按照慣例,隨機(jī)從每個(gè)類(lèi)別中抽取70張圖片進(jìn)行訓(xùn)練,從剩余圖片中挑選60張進(jìn)行測(cè)試.分類(lèi)準(zhǔn)確率結(jié)果列于表4中.通過(guò)表4可以看到,EPLd-All非常接近最佳分類(lèi)準(zhǔn)確率(87.2%vs.87.23%).在實(shí)驗(yàn)部分的最后,本文對(duì)比了構(gòu)造3種不同描述子(EPLdvs.KDvs.EKD)的計(jì)算效率.其中,最耗時(shí)的是形狀特征,一幅標(biāo)準(zhǔn)圖像(最大300300分辨率,圖像塊大小為1616像素點(diǎn),圖像塊間隔8個(gè)像素點(diǎn))上的EPLd-S與EKD-S描述子在Matlab環(huán)境下計(jì)算需要耗時(shí)2s,而KD-S需要耗時(shí)2.5s.對(duì)于梯度特征,EPLd-G與EKD-G描述子耗時(shí)0.9s,KD-G耗時(shí)1s.以上對(duì)比結(jié)果列在表5中.表5中的對(duì)比結(jié)果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計(jì)算效率提升相對(duì)于KD會(huì)表現(xiàn)得更加明顯.另外一點(diǎn)需要指出的是:EPLd與EKD的計(jì)算耗時(shí)雖然基本相同,但EPLd描述子的特征判別能力相對(duì)于EKD描述子要強(qiáng)很多,這一點(diǎn)通過(guò)在3個(gè)圖像數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)對(duì)比結(jié)果可以得到印證.所以,綜合考慮,EPLd描述子無(wú)論在計(jì)算效率還是在判別能力上都要優(yōu)于EKD和KD描述子.
6結(jié)束語(yǔ)