前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)現(xiàn)狀主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:圖像復(fù)原;盲復(fù)原;逆濾波;神經(jīng)網(wǎng)絡(luò)復(fù)原
1 圖像退化及復(fù)原模型
1.1 圖像降質(zhì)的數(shù)學(xué)模型
圖像復(fù)原處理的關(guān)鍵問題在于如何建立退化模型。假定輸入圖像f(x,y)經(jīng)過某個退化系統(tǒng)后輸出的是一幅退化的圖像。為了方便討論, 把噪聲引起的退化(即噪聲)對圖像的影響一般作為加性噪聲考慮,這也與許多實際應(yīng)用情況一致,如圖像數(shù)字化時的量化噪聲、隨機噪聲等就可以作為加性噪聲,即使不是加性噪聲而是乘性噪聲,也可以用對數(shù)方式將其轉(zhuǎn)化為相加形式。原始圖像f(x,y) 經(jīng)過一個退化算子或系統(tǒng)H(x,y) 的作用,然后和噪聲n(x,y)進行疊加,形成退化后的圖像g(x,y)。圖像退化的過程可以用數(shù)學(xué)表達式寫成如下的形式:
g(x,y)=H[f(x,y)]+n(x,y)
n(x,y)是一種統(tǒng)計性質(zhì)的信息下圖表示退化過程的輸入和輸出的關(guān)系,其中H(x,y)包含了退化系統(tǒng)的物理過程,即所要尋找的退化數(shù)學(xué)模型。
1.2 圖像的退化恢復(fù)模型
數(shù)字圖像的圖像恢復(fù)問題可以看作是:根據(jù)退化圖像g(x ,y)和退化算子H(x ,y)的形式,沿著逆向過程去求解原始圖像f(x ,y), 或者說逆向地尋找原始圖像的最佳近似估計。
2 研究背景與意義
圖像復(fù)原是數(shù)字圖像處理技術(shù)的一個重要研究方向,在現(xiàn)實生活中,有著非常廣闊的應(yīng)用前景和市場。數(shù)字圖像處理研究很大部分是服務(wù)于數(shù)字圖像復(fù)原的,而運動模糊圖像的復(fù)原又是圖像復(fù)原中的重要課題之一,從六十年代起就有人研究它。初期研究的主要原因是對衛(wèi)星所拍攝的圖像進行復(fù)原,因為衛(wèi)星相對地球是運動的,所拍出的圖像是模糊的(當(dāng)然衛(wèi)星所拍攝圖像的模糊原因不僅僅是相對運動而造成的,還有其他原因如大氣湍流所造的模糊等等)。美國的噴氣推進實驗室(JPL)對徘徊者飛行器發(fā)回的月球照片進行了圖像恢復(fù)處理。傳統(tǒng)的圖像恢復(fù)方法可以很好地恢復(fù)出來原始圖像,但是需要事先知道系統(tǒng)的先驗知識(例如系統(tǒng)的點擴散函數(shù))。在先驗知識不足的情況下,如何恢復(fù)出來原始圖像?這就需要模糊圖像盲恢復(fù)技術(shù)。根據(jù)不同的應(yīng)用背景和先驗知識,大致可以兩種方法恢復(fù)兩種類型的模糊圖像,以滿足不同的應(yīng)用要求。
第一種方法:如何快速恢復(fù)模糊圖像,進行適時性圖像處理?這個技術(shù)在實際生活中有著廣泛應(yīng)用。
第二種方法:如何在事先不能確定模糊系統(tǒng)點擴散函數(shù)的情況下,恢復(fù)模糊圖像,改善圖像的質(zhì)量,這就是圖像盲恢復(fù)的問題。
3 國際國內(nèi)研究發(fā)展和現(xiàn)狀
從歷史上來看,數(shù)字圖像處理研究有很大部分是在圖像恢復(fù)方面進行的,包括對算法的研究和針對特定問題的圖像處理程序的編寫。數(shù)字圖像處理中很多值得注意的成就就是在這兩方面取得的。
在六十年代中期,去卷積(逆濾波)開始被廣泛地應(yīng)用于數(shù)字圖像恢復(fù)。這一階段對模糊圖像的研究主要是把因相對運動而拍攝的模糊圖像復(fù)原過來,從而增強人們的判讀能力。早期做圖像復(fù)原研究,主要強調(diào)盡可能使模糊圖像復(fù)原到原貌,增加它的判讀性,在此發(fā)展了很多的復(fù)原方法,諸如:差分復(fù)原、維納濾波等.這些方法各有特點,較好的解決了運動模糊圖像的判讀問題,但是在應(yīng)用上均有一定的限制。
雖然經(jīng)典的圖象復(fù)原方法不少,但歸納起來大致可分為逆濾波法,或稱相關(guān)變換法( inv ersefiltering or t ransfo rm related techniques) 和代數(shù)方法( alg ebraic techniques) 兩種。
3.1 傳統(tǒng)復(fù)原法
3.1.1 逆濾波方法
逆濾波法大致有經(jīng)典逆濾波法、維納濾波法、卡爾曼濾波法等. 其中,在傅立葉變換域,經(jīng)典逆濾波的變換函數(shù)是引起圖象失真的變換函數(shù)的逆變換,其雖在沒有噪聲的情況下,可產(chǎn)生精確的復(fù)原圖象,但在有噪聲時,將對復(fù)原圖象產(chǎn)生嚴(yán)重的影響,雖然濾波函數(shù)經(jīng)過修改,有噪聲的圖象也能復(fù)原,但它僅適用于極高信噪比條件下的圖象復(fù)原問題; 維納濾波法是通過選擇變換函數(shù),同時使用圖象和噪聲的統(tǒng)計信息來極小化均方復(fù)原誤差,這雖然在一定程度上克服了逆濾波法的缺點,但是維納濾波法需要較多有關(guān)圖象的先驗知識,如需要對退化圖象進行滿足廣義平穩(wěn)過程的假設(shè),還需要知道非退化圖象的相關(guān)函數(shù)或功率譜特性等等,而在實際應(yīng)用中,要獲得這些先驗知識有較大的困難,為此,Ozkan 等人在研究圖象序列的復(fù)原問題時,提出了一種解決空間和時間相關(guān)性的多幀維納濾波法,是近年來維納濾波法的新發(fā)展; 卡爾曼濾波是一種遞歸濾波方法,其雖可用于非平穩(wěn)圖象的復(fù)原,但是因計算量過大,而限制了其實際應(yīng)用的效果。 Wu 和Kundu 又對卡爾曼濾波方法進行了改進,不僅提高了速度,并考慮了應(yīng)用于非高斯噪聲的情況; Cit rin 和Azimi-Sadjadi 也對卡爾曼濾波方法進行了改進,提出了塊卡爾曼濾波方法; Koch 等提出了擴展卡爾曼濾波( extended Kalmam filter) 復(fù)原方法,該方法可以較好地復(fù)原模糊類型不相似的退化圖象.除了上述的逆濾波方法外,還有參數(shù)估計濾波法,它實質(zhì)上是維納濾波法的變種. 20 世紀(jì)90 年代初,又提出了基于遞歸圖象濾波的自適應(yīng)圖象復(fù)原方法及合成濾波方法,它代表了濾波方法新的發(fā)展方向. 1998 年Kundur 等人首先明確提出了遞歸逆濾波( recursiv e inv er se filter ing ) 算法 ,2000 年Chow 等人又進行了改進,即在代價函數(shù)中增加了空間自適應(yīng)正則化項,從而很好地抑制了噪聲,并減少了振鈴現(xiàn)象,較好實現(xiàn)了在低SNR 條件下的盲圖象復(fù)原. 2001 年,Eng 等人結(jié)合模糊集的概念,提出了自適應(yīng)的軟開關(guān)中值濾波方法,它能在有效地去掉脈沖噪聲的同時,很好地保存圖象的細節(jié),是一種值得重視的新的圖象復(fù)原方法。
3.1 2 代數(shù)方法
Andrews 和Hunt 提出了一種基于線性代數(shù)的圖象復(fù)原方法。這種方法可能比較適合那些相對于積分運算,則更喜歡矩陣代數(shù),而相對于分析連續(xù)函數(shù),又更喜歡離散數(shù)學(xué)的人的口味。它為復(fù)原濾波器的數(shù)字計算提供了一個統(tǒng)一的設(shè)計思路。代數(shù)方法可分為偽逆法、奇異值分解偽逆法、維納估計法和約束圖象復(fù)原方法等。 其中,偽逆法,實質(zhì)上是根據(jù)圖象退化的向量空間模型來找到引起圖象退化的模糊矩陣,但由于模糊矩陣總是很大的,因此在計算上往往不可行; 而奇異值分解偽逆法則是利用矩陣可分解成特征矩陣系列的思想,將模糊矩陣進行分解,由于簡化了計算,從而有利于模糊矩陣的估計計算,但在有噪聲存在時,經(jīng)常會出現(xiàn)不穩(wěn)定的現(xiàn)象; 維納估計法雖然考慮了噪聲的情況,但它僅適合噪聲是二維隨機過程,且已知其期望和協(xié)方差的情況。前面的方法僅把圖象看成是數(shù)字的陣列,然而一個好的復(fù)原圖象應(yīng)該在空間上是平滑的,其在幅度值上是正的,而約束圖象復(fù)原方法就是將這些因素作為約束條件,如基于維納估計法和回歸技術(shù)而提出的圖象復(fù)原方法就是一種約束圖象復(fù)原方法,而且通過選取不同的約束參數(shù)和回歸方法可以得到不同的圖象復(fù)原算法。傳統(tǒng)的圖象復(fù)原算法或面臨著高維方程的計算問題,或要求恢復(fù)過程滿足廣義平穩(wěn)過程的假設(shè),這就是,使得具有廣泛應(yīng)用價值的圖象復(fù)原問題沒有得到圓滿的解決的根本原因。
3.2 神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的方法
神經(jīng)網(wǎng)絡(luò)圖象復(fù)原方法的發(fā)展方向自從神經(jīng)網(wǎng)絡(luò)圖象復(fù)原首次提出十多年來,其研究在不斷地深入和發(fā)展,描述它的現(xiàn)狀已屬不易,展望它的未來更是困難,況且科學(xué)研究具有不確定性. 據(jù)筆者判斷,如下諸方面是亟待解決的問題,或研究活動已有向這些方面集中的趨勢。
3. 2.1小波神經(jīng)網(wǎng)絡(luò)用于圖象復(fù)原將是研究的重點
自1992 年Zhang 提出小波神經(jīng)網(wǎng)絡(luò)以來,如今已提出了各種類型的小波網(wǎng)絡(luò),且小波與神經(jīng)網(wǎng)絡(luò)的結(jié)合成了一個十分活躍的研究領(lǐng)域。通過學(xué)者們的理論分析和模擬實驗表明: 由于小波神經(jīng)網(wǎng)絡(luò)具有逼近能力強、可顯著降低神經(jīng)元的數(shù)目、網(wǎng)絡(luò)學(xué)習(xí)收斂的速度快、參數(shù)( 隱層結(jié)點數(shù)和權(quán)重) 的選取有理論指導(dǎo)、能有效避免局部最小值問題等優(yōu)點,因此將其用于圖象復(fù)原是一個值得研究的方向。將小波的時頻域局部性、多分辨性等性質(zhì),與神經(jīng)網(wǎng)絡(luò)的大規(guī)模并行性、自學(xué)習(xí)特性等優(yōu)點結(jié)合起來,不僅將使用于圖象復(fù)原的小波神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)分辨性,也將使正則化參數(shù)的選取更具有自適應(yīng)能力. 最終使復(fù)原圖象既能保持圖象的細節(jié),又能很好地抑制圖象中的各種噪聲。
3.2.2細胞神經(jīng)網(wǎng)絡(luò)、BP 網(wǎng)絡(luò)、自組神經(jīng)網(wǎng)絡(luò)
值得進一步研究細胞神經(jīng)網(wǎng)絡(luò)( CNN ) 由于其具有易于硬件實現(xiàn)的特點,因而具有很強的商業(yè)價值,但由于其自身還有很不成熟的地方,因此值得深入地研究. 其研究方向有: 細胞神經(jīng)網(wǎng)絡(luò)理論基礎(chǔ)的進一步完善及在此基礎(chǔ)上建立細胞神經(jīng)網(wǎng)絡(luò)中鄰域系統(tǒng)的概念; 與圖象數(shù)據(jù)局部相關(guān)性等概念結(jié)合起來研究,以建立新的圖象復(fù)原理論,形成新的圖象復(fù)原技術(shù)。BP 網(wǎng)絡(luò)對受污染或帶噪聲的訓(xùn)練樣本,不僅能進行正確的映射,且與其純樣本仍相似。 正是BP 網(wǎng)絡(luò)的泛化能力強,使它在解決圖象復(fù)原問題時,可能比其他神經(jīng)網(wǎng)絡(luò)具有更好的潛在性能。 將BP 網(wǎng)絡(luò)用于圖象復(fù)原是很值得進一步研究的.大家知道,人腦的學(xué)習(xí)方式是“自主的”,即有自組織和自適應(yīng)的能力的,即人腦能在復(fù)雜、非平穩(wěn)和有“干擾”的環(huán)境及其變化的情況下,來調(diào)整自己的思維和觀念,還能根據(jù)對外界事物的觀察和學(xué)習(xí),找到其內(nèi)在的規(guī)律和本質(zhì)屬性,并能在一定的環(huán)境下,估計到可能出現(xiàn)的情況以及預(yù)期會遇到和感覺到的各種內(nèi)容及情況。 自組織神經(jīng)網(wǎng)絡(luò)(SONN) 正是基于人腦的這些功能而生成的,由于它具有能從輸入的數(shù)據(jù)中,揭示出它們之間內(nèi)在關(guān)系的能力,因此將其用于“盲圖象”的復(fù)原將是非常有利的。
3.2.3 需要提出更適合圖象復(fù)原的新神經(jīng)網(wǎng)絡(luò)模型
小波神經(jīng)網(wǎng)絡(luò)是為逼近任意非線性函數(shù)而提出來的,但為了圖象復(fù)原的需要,可考慮針對圖象復(fù)原的特殊情況,提出新的神經(jīng)網(wǎng)絡(luò)模型。 如,因為大多數(shù)圖象是由平滑區(qū)域和輪廓細節(jié)組成的,其圖象數(shù)據(jù)在平滑區(qū)域雖具有較強的相關(guān)性,但與輪廓細節(jié)相鄰的數(shù)據(jù)應(yīng)極不相關(guān),所以,提出一種專用于圖象復(fù)原的“相關(guān)性神經(jīng)網(wǎng)絡(luò)模型”是必然的期待; 再有,因為多項式具有較廣的擬合性和較好的收斂性,所以應(yīng)提出的“多項式神經(jīng)網(wǎng)絡(luò)”,將它們用于圖象復(fù)原也是值得研究的。
3.2.4 神經(jīng)網(wǎng)絡(luò)與其他理論的結(jié)合
研究是尋求新模型、新方法的重要途徑目前神經(jīng)網(wǎng)絡(luò)的研究正由單純的神經(jīng)計算轉(zhuǎn)向計算智能,并結(jié)合腦科學(xué)的研究向生物智能方向發(fā)展。 為此,神經(jīng)網(wǎng)絡(luò)圖象復(fù)原的研究也應(yīng)考慮吸收模糊、分形、混沌、進化計算、信息融合等交叉學(xué)科的研究成果。 與模糊系統(tǒng)的結(jié)合將是一個重要的研究方向,因為,神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)有如下很多的相同之處: ( 1) 它們在處理和解決問題時,無需建立對象的精確數(shù)學(xué)模型,而只需要根據(jù)輸入的采樣數(shù)據(jù)去估計其要求的決策; ( 2) 在對信息的加工處理過程中,均表現(xiàn)出了很強的容錯能力; ( 3) 它們都可以用硬件來實現(xiàn). 由此可見,將神經(jīng)網(wǎng)絡(luò)與模糊系統(tǒng)結(jié)合,用于圖象復(fù)原將是有意義的研究工作。
4 未來展望
圖像恢復(fù)發(fā)展到現(xiàn)在,已經(jīng)有了許多成熟的算法,但是還是存在許多問題,等待著我們?nèi)ソ鉀Q。目前圖像恢復(fù)的最新發(fā)展有:
1. 非穩(wěn)圖像復(fù)原,即空間可變圖像復(fù)原。
2. 退化視頻信號的復(fù)原問題,以及攝像機拍照圖像復(fù)原,這是一個需要進一步研究的領(lǐng)域。
3. 運動補償時空復(fù)原濾波,同時將時間相關(guān)應(yīng)用到運動補償中。
4. “Telemedicine“的出現(xiàn),遠程診斷極大的依賴于遠程接受的圖像質(zhì)量,圖像恢復(fù)在醫(yī)學(xué)領(lǐng)域中有相當(dāng)重要的作用。
5. 模糊 PSF 的 Identification 仍然是一個困難的問題,尤其在空間可變的 PSF 的估計中。
6. 空間可變恢復(fù)方法,可以利用 Wavelets 和 Markov 隨機場等方法進行復(fù)圖像恢復(fù),這是一個具有發(fā)展?jié)摿Φ难芯糠较颉?/p>
參考文獻
1 馮久超,黃海東. 基于神經(jīng)網(wǎng)絡(luò)的盲圖象恢復(fù)[ J ] . 計算機科學(xué),2000,27( 1) : 67~68.
2 Er ler K,Jernigan E. Adaptive image restorat ion using recursive image f ilters [ J ] . IEE E Trans actions on Signal Process ing,1994,42( 7) : 1877~1881.
關(guān)鍵詞:圖像分割 閾值分割 遺傳算法 小波變換
中圖分類號:TP391 文獻標(biāo)識碼:A 文章編號:1002-2422(2010)02-0001-03
圖像分割是按照一定的規(guī)則把圖像劃分成若干個互不相交、具有一定性質(zhì)的區(qū)域,把人們關(guān)注的部分從圖像中提取出來,進一步加以研究分析和處理。圖像分割的結(jié)果是圖像特征提取和識別等圖像理解的基礎(chǔ),對圖像分割的研究一直是數(shù)字圖像處理技術(shù)研究中的熱點和焦點。圖像分割使得其后的圖像分析,識別等高級處理階段所要處理的數(shù)據(jù)量大大減少,同時又保留有關(guān)圖像結(jié)構(gòu)特征的信息。圖像分割在不同的領(lǐng)域也有其它名稱,如目標(biāo)輪廓技術(shù)、目標(biāo)檢測技術(shù)、閾值化技術(shù)、目標(biāo)跟蹤技術(shù)等,這些技術(shù)本身或其核心實際上也就是圖像分割技術(shù)。
1 經(jīng)典圖像分割方法
1,1閾值分割方法
閾值分割是常見的直接對圖像進行分割的算法,根據(jù)圖像像素的灰度值的不同而定。對應(yīng)單一目標(biāo)圖像,只需選取一個閾值,即可將圖像分為目標(biāo)和背景兩大類,這個稱為單閾值分割:如果目標(biāo)圖像復(fù)雜,選取多個閾值,才能將圖像中的目標(biāo)區(qū)域和背景被分割成多個,這個稱為多閾值分割,此時還需要區(qū)分檢測結(jié)果中的圖像目標(biāo),對各個圖像目標(biāo)區(qū)域進行唯一的標(biāo)識進行區(qū)分。閾值分割的顯著優(yōu)點,成本低廉,實現(xiàn)簡單。當(dāng)目標(biāo)和背景區(qū)域的像素灰度值或其它特征存在明顯差異的情況下,該算法能非常有效地實現(xiàn)對圖像的分割。閩值分割方法的關(guān)鍵是如何取得一個合適的閾值,近年來的方法有:用最大相關(guān)性原則選擇閾值的方法、基于圖像拓?fù)浞€(wěn)定狀態(tài)的方法、灰度共生矩陣方法、最大熵法和谷值分析法等,更多的情況下,閾值的選擇會綜合運用兩種或兩種以上的方法,這也是圖像分割發(fā)展的一個趨勢。
1,2基于邊緣的圖像分割方法
邊緣總是以強度突變的形式出現(xiàn),可以定義為圖像局部特性的不連續(xù)性,如灰度的突變、紋理結(jié)構(gòu)的突變等。邊緣常常意味著一個區(qū)域的終結(jié)和另一個區(qū)域的開始。對于邊緣的檢測常常借助空間微分算子進行,通過將其模板與圖像卷積完成。兩個具有不同灰度值的相鄰區(qū)域之間總存在灰度邊緣,而這正是灰度值不連續(xù)的結(jié)果,這種不連續(xù)可以利用求一階和二階導(dǎo)數(shù)檢測到。當(dāng)今的邊緣檢測方法中,主要有一次微分、二次微分和模板操作等。這些邊緣檢測器對邊緣灰度值過渡比較尖銳且噪聲較小等不太復(fù)雜的圖像可以取得較好的效果。但對于邊緣復(fù)雜的圖像效果不太理想,如邊緣模糊、邊緣丟失、邊緣不連續(xù)等。噪聲的存在使基于導(dǎo)數(shù)的邊緣檢測方法效果明顯降低,在噪聲較大的情況下所用的邊緣檢測算子通常都是先對圖像進行適當(dāng)?shù)钠交?,抑制噪聲,然后求?dǎo)數(shù),或者對圖像進行局部擬合,再用擬合光滑函數(shù)的導(dǎo)數(shù)來代替直接的數(shù)值導(dǎo)數(shù),如Mart算子、canny算子等。在未來的研究中,用于提取初始邊緣點的自適應(yīng)閾值選取、用于圖像層次分割的更大區(qū)域的選取以及如何確認(rèn)重要邊緣以去除假邊緣將變的非常重要。
1,3基于函數(shù)優(yōu)化的分割方法
此方法是圖像分割中另一大類常用的方法。其基本思路是給出一個目標(biāo)函數(shù),通過該目標(biāo)函數(shù)的極大化或極小化來分割圖像。GA.Hewer等人提出了一個具有廣泛意義的目標(biāo)函數(shù)。統(tǒng)計學(xué)分割方法、結(jié)合區(qū)域與邊緣信息的方法、基于貝葉斯公式的分割方法等是目前幾種活躍的函數(shù)優(yōu)化方法。
統(tǒng)計學(xué)分割方法是把圖像中各個像素點的灰度值看作是具有一定概率分布的隨機變量,且觀察到的實際物體是作了某種變換并加入噪聲的結(jié)果。統(tǒng)計學(xué)分割方法包括基于馬爾科夫隨機場方法、標(biāo)號法、混合分布法等。
區(qū)域增長法和分裂合并法是基于區(qū)域信息的圖像分割的主要方法。區(qū)域增長有兩種方式,一種是先將圖像分割成很多的一致性較強的小區(qū)域,再按一定的規(guī)則將小區(qū)域融合成大區(qū)域,達到分割圖像的目的。另一種實現(xiàn)是給定圖像中要分割目標(biāo)的一個種子區(qū)域,再在種子區(qū)域基礎(chǔ)上將周圍的像素點以一定的規(guī)則加入其中,最終達到目標(biāo)與背景分離的目的;分裂合并法對圖像的分割是按區(qū)域生長法沿相反方向進行的,無需設(shè)置種子點。其基本思想是給定相似測度和同質(zhì)測度。從整幅圖像開始,如果區(qū)域不滿足同質(zhì)測度,則分裂成任意大小的不重疊子區(qū)域,如果兩個鄰域的子區(qū)域滿足相似測度則合并。
2 結(jié)合特定工具的圖像分割算法
雖然圖像分割目前尚無通用的理論,但是近年來大量學(xué)者致力于將新概念、新方法應(yīng)用于圖像分割,結(jié)合特定理論的圖像分割方法在圖像分割方面取得了較好的應(yīng)用效果。如小波分析和小波變換、神經(jīng)網(wǎng)絡(luò)、遺傳算法等數(shù)學(xué)工具的利用,有效地改善了分割效果。
2,1基于遺傳算法的圖像分割
遺傳算法是模擬自然界生物進化過程與機制求解問題的一類自組織與自適應(yīng)的人工智能技術(shù)。對此,科學(xué)家們進行了大量的研究工作,并成功地運用于各種類型的優(yōu)化問題,在分割復(fù)雜的圖像時,人們往往采用多參量進行信息融合,在多參量參與的最優(yōu)值求取過程中,優(yōu)化計算是最重要的,把自然進化的特征應(yīng)用到計算機算法中,將能解決很多問題。遺傳算法的出現(xiàn)為解決這類問題提供了新而有效的方法,不僅可以得到全局最優(yōu)解,而且大量縮短了計算時間。王月蘭等人提出的基于信息融合技術(shù)的彩色圖像分割方法,該方法應(yīng)用剝殼技術(shù)將問題的復(fù)雜度降低,然后將信息融合技術(shù)應(yīng)用到彩色圖像分割中,為彩色分割在不同領(lǐng)域中的應(yīng)用提供了一種新的思路與解決辦法。
2,2基于人工神經(jīng)網(wǎng)絡(luò)技術(shù)的圖像分割
基于神經(jīng)網(wǎng)絡(luò)的分割方法的基本思想是先通過訓(xùn)練多層感知器來得到線性決策函數(shù),然后用決策函數(shù)對像素進行分類來達到分割的目的。近年來,隨著神經(jīng)學(xué)的研究和進展,第三代脈沖耦合神經(jīng)網(wǎng)絡(luò)(PCNN)作為一種新型人工神經(jīng)網(wǎng)絡(luò)模型,其獨特處理方式為圖像分割提供了新的思路。脈沖耦合神經(jīng)網(wǎng)絡(luò)具有捕獲特性,會產(chǎn)生點火脈沖傳播,對輸入圖像具有時空整合作用,相鄰的具有相似輸入的神經(jīng)元傾向于同時點火。因此對于灰度圖象,PCNN具有天然的分割能力,與輸入圖像中不同目標(biāo)區(qū)域?qū)?yīng)的神經(jīng)元在不同的時刻點火,從而將不同區(qū)域分割開來。如果目標(biāo)區(qū)域灰度分布有重疊,由于PCNN的時空整合作用,如果灰度分布符合某種規(guī)律,PCNN也能克服灰度分布重疊所帶來的不利影響,從而實現(xiàn)較完美的分割。這是其一個突出的優(yōu)點,而這恰恰是其他的分割方法所欠缺的,其在未來的圖像分割中將起主導(dǎo)作用。
2,3基于小波分析和變換的圖像分割
近年來,小波理論得到了迅速的發(fā)展,而且由于其具有良好的時頻局部化特性和多分辨率分析能力,在圖像處理等領(lǐng)域得到了廣泛的應(yīng)用。小波變換是一種多尺度多通道分析工具,比較適合對圖像進行多尺度的邊緣檢測。從圖像處理角度看,小波變換具有“變焦”特性,在低頻段可用高頻率分辨率和低時間分辨率,在高頻段可用低頻率分辨率和高時間分辨率,小波變換在實現(xiàn)上有快速算法具有多分辨率,也叫多尺度的特點,可以由粗及精地逐步觀察信號等優(yōu)點。近年來多進制小波也開始用于邊緣檢測。另外,把小波變換和其它方法結(jié)合起來的圖像分割技術(shù)也是現(xiàn)在研究的熱點。
3 圖像分割的應(yīng)用現(xiàn)狀
在圖像處理中,圖像分割是一種重要的技術(shù),是圖像分析的基礎(chǔ)。隨著圖像分割技術(shù)研究的深入,其應(yīng)用日趨廣泛,幾乎出現(xiàn)在有關(guān)圖像處理的所有領(lǐng)域,并涉及各種類型的圖像。凡屬需要對圖像目標(biāo)進行提取、測量的工作都離不開圖像分割。通常,圖像分割是為了進一步對圖像進行分析、識別、壓縮、編碼等,圖像分割的準(zhǔn)確性將直接影響后繼的工作,因此,分割的方法和精確程度是至關(guān)重要的。目前,圖像分割在圖像工程中占據(jù)非常重要的位置,圖像分割已在交通、醫(yī)學(xué)、遙感、通信、軍事和工業(yè)自動化等諸多領(lǐng)域得到廣泛應(yīng)用。表1是應(yīng)用領(lǐng)域表。
關(guān)鍵詞:圖像識別;OCR;題庫采集;移動終端;特征建模
中圖分類號:G434 文獻標(biāo)識碼:A 論文編號:1674-2117(2016)12-0075-04
采集題庫的現(xiàn)狀
隨著經(jīng)濟和社會的發(fā)展、“互聯(lián)網(wǎng)+”的廣泛應(yīng)用及教育觀念的更新,我們迫切需要科學(xué)、方便、完善的網(wǎng)絡(luò)型題庫管理系統(tǒng)。試題庫建設(shè)是教育現(xiàn)代化的需要,是考教分離、最大限度提高辦學(xué)效益的需要,因此,進行區(qū)域網(wǎng)絡(luò)試題庫系統(tǒng)的建設(shè)和研究具有十分重要的意義。
受限于教材版本和區(qū)域應(yīng)用層面的需求,采購商業(yè)化的題庫并不能完全滿足教育教學(xué)的實際要求。手握大量紙質(zhì)試卷的老師們,迫切需要一個錄入神器,方便快捷地將其錄入到題庫系統(tǒng)里。
利用基于移動終端的圖像文字識別技術(shù)將文字和圖片迅速錄入題庫是我們在移動端系統(tǒng)開發(fā)的應(yīng)用亮點。它能夠大幅提高對質(zhì)量不高圖像的識別率,其關(guān)鍵算法對圖像的噪聲、亮度明暗不一致和規(guī)格凌亂的問題進行了很好的處理。它能夠?qū)D像上傳到服務(wù)器進行在線識別,在識別過程中先對圖像進行消噪,然后對亮度進行均衡處理及對圖像閾值分割,提高了圖像識別的成功率。
題庫采集系統(tǒng)工作流程
題庫采集主要分為圖像采集、圖像識別和標(biāo)注三個過程。整體的工作流程包括:①系統(tǒng)啟動,進入主界面,可選擇開始拍攝閱卷或讀取設(shè)備中已有的圖像,如選擇拍攝題目,進入圖像采集模塊,調(diào)用移動設(shè)備的攝像頭進行拍攝,拍攝成功后,跳轉(zhuǎn)至識別界面,如選擇讀取相冊已有圖像也跳轉(zhuǎn)至識別界面。②在識別界面上顯示出拍攝或者讀取的相冊圖像,首先調(diào)用圖像預(yù)處理模塊對圖像進行預(yù)處理,輸出預(yù)處理后的圖像,然后調(diào)用圖像校正模塊對預(yù)處理圖像進行校正,輸出校正圖像,最后調(diào)用圖像識別模塊對校正圖像進行識別,輸出識別結(jié)果。③調(diào)用標(biāo)注模塊對識別結(jié)果進行分類管理,為題目添加系統(tǒng)屬性,如學(xué)科、章節(jié)、知識點類目、題型、難度系數(shù)等標(biāo)簽。圖1為題庫采集系統(tǒng)工作流程示意圖。
OCR智能模型設(shè)計思路
在人工智能領(lǐng)域,模擬人類圖像識別活動的計算機程序,人們提出了不同的圖像識別模型――模板匹配模型。這種模型認(rèn)為,識別某個圖像,必須在過去的經(jīng)驗中有這個圖像的記憶模式,又叫特征模型。當(dāng)前的刺激如果能與大腦中的模型相匹配,這個圖像也就被識別了。例如,有一個字母A,如果在腦中有個A模板,字母A的大小、方位、形狀都與這個A模板完全一致,字母A就被識別了。圖像識別中的模型識別(Pattern Recognition)利用計算機和數(shù)學(xué)推理的方法對形狀、模式、曲線、數(shù)字、字符格式和圖形自動完成識別、評價的過程。
那么如何通過模型的學(xué)習(xí)提高OCR的智能判斷水平呢?我們主要從以下三個方面做了實踐研究。
1.采集識別優(yōu)化
(1)二值化處理
二值圖像在數(shù)字圖像處理中占重要地位,其在處理實際圖像過程中地位更加突出。要應(yīng)用二值圖像,掃描文檔之后的第一步就是對灰度圖像根據(jù)所選閾值進行二值化處理。二值圖像是像素值為0或255的像素點集合,如此一來,圖像的數(shù)據(jù)量大大減少,但圖像的基本輪廓信息得以保留。此項的關(guān)鍵是所選取的閾值是否得當(dāng),不當(dāng)則會減弱二值圖像的處理效果。常用的閾值選取方法有固定閾值法、平均閾值法、直方圖法、Means法四種。
谷歌公司在HP公司Tesseract光學(xué)字符識別引擎的基礎(chǔ)上做了深度加工,其中對閾值的自適應(yīng)分類器和兩步矯正法的應(yīng)用大大提高了文本的識別效率。近幾年來,百度針對商業(yè)運用開發(fā)了自然場景OCR API服務(wù),依托百度的OCR算法,提供了整圖文字檢測、識別、整圖文字識別、整圖文字行定位和單字圖像識別等功能。目前火熱的作業(yè)幫APP就是基于百度識別API做的延伸產(chǎn)品(如圖2)。
(2)圖像去噪與矯正
任何一幅原始圖像,在其獲取和傳輸?shù)倪^程中,都會受到各種噪聲的干擾,使圖像質(zhì)量下降,淹沒其特征,對圖像分析非常不利。為抑制噪聲、改善圖像質(zhì)量所進行的處理被稱為圖像平滑或去噪。
圖像平滑是用于突出圖像的寬大區(qū)域和主干部分(低頻部分)或抑制圖像噪聲和干擾(高頻部分),使圖像平緩漸變,減小突變梯度,改善圖像質(zhì)量的圖像處理方法。它屬于圖像增強的一部分,主要的圖像平滑方法有均值濾波、中值濾波、灰度形態(tài)學(xué)濾波、小波濾波、高斯低通濾波以及統(tǒng)計方法濾波。
已獲得的文本圖像有些不可避免地會發(fā)生傾斜,這樣會給后面文字的行切分和列切分以及文字的識別帶來困難,所以需要對獲取的圖像進行傾斜校正。圖像的傾斜校正最關(guān)鍵的是傾斜角的檢測,我們主要采用平行四邊形法進行文本圖像的校正(如圖3)。根據(jù)拍攝者給出的一系列文件位置點,用位置點的坐標(biāo)結(jié)合模型擬合出文本線,根據(jù)文本線與水平線之間的差距進行精確恢復(fù),以得到水平分布的文本行。
2.特征提取與建模
特征提取是圖像識別的重要步驟,為了保證后續(xù)處理的質(zhì)量,生成的特征要具備描述物體的典型特性,如獨特性、完整性、幾何變換下的不變性、靈敏性以及抽象性。我們設(shè)計的系統(tǒng)的特征模型包括文字特征、圖片特征、公式特征等。
提取圖像特征關(guān)系可以有兩種方法:一是對圖像進行合理地分割,劃分出圖像中所包含的對象或區(qū)域,然后根據(jù)這些區(qū)域提取圖像特征,并建立索引;二是簡單地將圖像均勻地劃分為若干規(guī)則子塊,然后對每個圖像子塊提取特征,并建立索引。
圖像特征建模的基本原則是根據(jù)圖像的視覺內(nèi)容和可獲得的指導(dǎo)信息來確定對應(yīng)的文本語義描述。在圖像標(biāo)注任務(wù)中會涉及兩種不同的媒體:一是圖像,二是文本。這兩種媒體具有良好的互補性,可以協(xié)作傳遞信息,正所謂“圖文并茂”。由這兩種媒體可以產(chǎn)生4種關(guān)系,即圖像間關(guān)系(IIR)、詞間關(guān)系(WWR)、由圖像到詞的關(guān)系(IWR)和由詞到圖像的關(guān)系(IR)。
3.基于標(biāo)注模型的學(xué)習(xí)與訓(xùn)練
我們通常采用兩兩圖像之間的視覺相似性(pairwise similarity)來建立以圖像為節(jié)點的相似圖,但這種方式由于沒有考慮到數(shù)據(jù)集或某個數(shù)據(jù)子集內(nèi)的結(jié)構(gòu)分布信息,效果不能令人滿意。因此我們引入了第二個以詞為節(jié)點的圖學(xué)習(xí)過程,用來實現(xiàn)對圖像標(biāo)注的改善。
最常見的是屬性相關(guān)性,如“李白”是“古詩文”的關(guān)系。除此之外,詞匯之間還存在多種相關(guān)性,如“凸透鏡”與“光”之間有著很強的聯(lián)系,這種相關(guān)性不依賴于特定數(shù)據(jù)集,它是人們在生活中大量知識的積累和反映。當(dāng)一幅圖像已被標(biāo)為“凸透鏡”“光”等詞匯后,初中物理作為該圖像標(biāo)注詞匯的概率就會相應(yīng)提升。為了獲取這種相關(guān)信息,一種方法是從訓(xùn)練數(shù)據(jù)集中利用已標(biāo)注詞匯間的共生概率來計算詞匯間的關(guān)系。該方法基于已標(biāo)注信息,相對準(zhǔn)確,但它不能反映更廣義的人的知識。于是,我們可以采用另一種方法,利用具有大量詞匯的、包含了人的知識的結(jié)構(gòu)化電子詞典來計算詞匯間的關(guān)系。與統(tǒng)計方法相比,詞典包括了更加完整的大數(shù)據(jù)關(guān)聯(lián)信息。由此我們設(shè)計了基于標(biāo)注的模型學(xué)習(xí)體系(如下頁圖4),通過提取題目圖像的特征點綁定其隱形屬性,再與拍攝者提供的顯性屬性做比對,進行數(shù)據(jù)建模,并引導(dǎo)系統(tǒng)修正其三大特征庫(文字、圖片、公式),實現(xiàn)自我學(xué)習(xí)。
需要注意的是,基于標(biāo)注信息描述由圖到標(biāo)簽的關(guān)系,更適合按照多標(biāo)記分類(multilabel classification)問題來解決。具體而言,假設(shè)標(biāo)注詞匯服從多項式分布,由此將圖像標(biāo)注歸為多類別分類問題,而題庫的分類方式恰恰符合這樣的多標(biāo)記模型(相對固定是顯性標(biāo)簽:學(xué)科、學(xué)段、知識點、章節(jié)、難度等)。
注意事項
1.基于API方式的接入能使產(chǎn)品得到快速開發(fā)
例如,當(dāng)前百度通過專業(yè)服務(wù)分發(fā)平臺APIStore開放百度文字識別技術(shù),讓開發(fā)者可以零成本使用基于移動應(yīng)用的OCR技術(shù),為開發(fā)者創(chuàng)新應(yīng)用提供了更多的選擇。
2.題庫特征建模要考慮學(xué)科特征
實踐證明,文科和理科的題目有著截然不同的特征屬性,如語文更注重詞匯與語法方面的訓(xùn)練,而數(shù)學(xué)包含了大量的公式和二維化的圖像。往往數(shù)學(xué)在小學(xué)和中學(xué)階段的題目也會表現(xiàn)出不同的特征屬性,在建模的同時要注意抽取。
3.未來的方向是要構(gòu)建基于題庫圖像模型的題庫推送規(guī)則
當(dāng)題庫的建構(gòu)達到一定數(shù)量之后,我們要將圖像和翻譯成的題目都保存下來,再根據(jù)拍攝者的需求做相關(guān)的推送,根據(jù)其使用的情況(如點擊率、評價等)再對模型進行修正。
從目前的技術(shù)發(fā)展角度看,突破性來自于機器語言翻譯方面的研究成果:通過一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將一種語言的語句轉(zhuǎn)換成向量表達,并采用第二個RNN將向量表達轉(zhuǎn)換成目標(biāo)語言的語句。而谷歌將以上過程中的第一種RNN用深度卷積神經(jīng)網(wǎng)絡(luò)CNN取代,這種網(wǎng)絡(luò)可以用來識別圖像中的物體。此種方法可以實現(xiàn)將圖像中的對象轉(zhuǎn)換成語句,對圖像場景進行描述。概念雖然簡單,但實現(xiàn)起來十分復(fù)雜,科學(xué)家表示,目前實驗產(chǎn)生的語句合理性不錯,但還遠談不上“完美”,這項研究目前還處于起步階段。相信在不久的將來此項發(fā)明將應(yīng)用于教學(xué)領(lǐng)域,那么基于云模式下的圖像識別系統(tǒng)將得到一個質(zhì)的飛躍,它也將使圖像識別與深度學(xué)習(xí)更加緊密地聯(lián)系在一起,最終實現(xiàn)系統(tǒng)對互聯(lián)網(wǎng)上教育資源摘取和自學(xué)習(xí)的強大功能。
參考文獻:
[1]黃明明.圖像局部特征提取及應(yīng)用研究[D].北京:北京科技大學(xué),2016.
[2]劉淼,楊鎮(zhèn)豪,謝韻玲,謝冬青,唐春明.Android圖文同步識別系統(tǒng)的設(shè)計和實現(xiàn)[J].計算機工程與設(shè)計,2014(06).
[3]李龍卓.基于形狀特征的圖像檢索技術(shù)研究[D].青島:青島科技大學(xué),2015.
[4]付蘆靜,錢軍浩,鐘云飛.基于漢字連通分量的印刷圖像版面分割方法[J].計算機工程與應(yīng)用,2015(05).
關(guān)鍵詞:語音情感識別;情感描述模型;情感特征;語音情感庫;域適應(yīng)
DOIDOI:10.11907/rjdk.161498
中圖分類號:TP391
文獻標(biāo)識碼:A文章編號文章編號:16727800(2016)009014303
作者簡介作者簡介:薛文韜(1991-),男,江蘇常熟人,江蘇大學(xué)計算機科學(xué)與通信工程學(xué)院碩士研究生,研究方向為語音情感識別。
0引言
1997年,美國麻省理工學(xué)院的Picard教授提出了情感計算(Affective Computing)的概念。情感計算作為計算機科學(xué)、神經(jīng)科學(xué)、心理學(xué)等多學(xué)科交叉的新興研究領(lǐng)域,已成為人工智能的重要發(fā)展方向之一。而語音情感識別作為情感計算的一個重要分支,亦引起了廣泛關(guān)注。
許多國內(nèi)外知名大學(xué)和科研機構(gòu)也開始語音情感識別研究,國外如美國麻省理工學(xué)院Picard教授領(lǐng)導(dǎo)的情感計算研究小組,德國慕尼黑工業(yè)大學(xué)Schuller教授領(lǐng)導(dǎo)的人機語音交互小組等;國內(nèi)如清華大學(xué)的人機交互與媒體集成研究所、西北工業(yè)大學(xué)音頻、語音與語言處理組等。
1語音情感識別
語音情感識別系統(tǒng)主要由前端和后端兩部分組成。前端用于提取特征,后端基于這些特征設(shè)計分類器。在語音相關(guān)應(yīng)用中,運用比較多的分類器是支持向量機和隱馬爾科夫模型。目前,語音情感識別的重點主要集中于特征提取。在傳統(tǒng)的語音情感識別中,如何提取具有判別性的特征已成為研究的重點。隨著數(shù)據(jù)的大規(guī)模增長,傳統(tǒng)語音情感識別的前提(訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)具有相同的數(shù)據(jù)分布)已不能夠被滿足,研究者提出了遷移學(xué)習(xí)的概念,利用域適應(yīng)方法來解決跨庫的語音情感識別。
本文將從情感描述模型、語音情感特征、語音情感庫、語音情感挑戰(zhàn)賽這4個方面對語音情感研究現(xiàn)狀進行總結(jié),并給出現(xiàn)存語音情感識別的技術(shù)挑戰(zhàn)及相應(yīng)的研究方法。
2情感描述模型
目前主要從離散情感和維度情感兩個方面來描述情感狀態(tài)。
離散情感描述,主要把情感描述成離散的形式,是人們?nèi)粘I钪袕V泛使用的幾種情感,也稱為基本情感。在當(dāng)前情感相關(guān)研究領(lǐng)域使用最廣泛的六大基本情感是生氣、厭惡、恐懼、高興、悲傷和驚訝。
相對于離散情感描述,維度情感描述使用連續(xù)的數(shù)值來描述情感狀態(tài),因此也稱作連續(xù)情感描述。它把情感狀態(tài)視作多維情感空間中的點,每個維度都對應(yīng)情感的不同心理學(xué)屬性。常用的維度情感模型是二維的激活度-效價(Arousal-Valence)模型,其二維空間如圖1所示。其中橫軸表示效價屬性(Valence),用于衡量情感的正負(fù)面程度;而縱軸表示激活程度(Arousal),用于描述情感狀態(tài)的喚醒程度。通過不同的效價度和激活程度,就能區(qū)分出不同的情感,比如悲傷與生氣兩種負(fù)面情緒雖然效價相差無異,但兩者的激活度卻有很大差異。
3語音情感特征
傳統(tǒng)的語音情感特征可粗略地分為基于聲學(xué)的情感特征和基于語義的情感特征。基于聲學(xué)的情感特征又分為3類:韻律學(xué)特征、音質(zhì)特征以及頻譜特征[1]。音高、能量、基頻和時長等是最為常用的韻律學(xué)特征,由于韻律學(xué)特征具有較強的情感辨別能力,已經(jīng)得到了研究者們的廣泛認(rèn)同。音質(zhì)特征主要有呼吸聲、明亮度特征和共振峰等,語音中所表達的情感狀態(tài)被認(rèn)為與音質(zhì)有著很大的相關(guān)性。頻譜特征主要包括線性譜特征和倒譜特征,線性譜特征包括Linear predictor cofficient(LPC)、log-frequency power cofficient(LFPC)等,倒譜特征包括mel-frequency cepstral cofficient(MFCC)、linear predictor cepstral cofficient(LPCC)等。此外,基于這3類語音特征的不同語段長度的統(tǒng)計特征是目前使用最為普遍的特征參數(shù)之一,如特征的平均值、變化率、變化范圍等。然而到底什么特征才最能體現(xiàn)語音情感之間的差異,目前還沒有統(tǒng)一的說法。
在2009年首次舉辦的國際語音情感挑戰(zhàn)INTERSPEECH 2009 Emotion Challenge(EC)的分類器子挑戰(zhàn)中,組織者為參賽者提供了一個基本特征集,選擇了在韻律學(xué)特征、音質(zhì)特征和頻譜特征中廣泛使用的特征和函數(shù),包括16個低層描述子(Low-Level Descriptors,LLDs)和12個函數(shù),構(gòu)建了一個384維的特征向量[2]。具體的16個低層描述子和12個函數(shù)如表1所示。
4語音情感庫
語音情感庫作為語音情感識別的前提條件,影響著最終語音情感識別系統(tǒng)的性能。目前,在語音情感庫的建立方面還沒有統(tǒng)一的標(biāo)準(zhǔn),已構(gòu)建的情感語音庫多種多樣,在語言、情感表現(xiàn)方式(表演型(acted)、引導(dǎo)型(elicited),自發(fā)型(naturalistic))、情感標(biāo)記方案(離散情感或者維度情感)、聲學(xué)信號條件、內(nèi)容等方面具有很大差異。從情感表現(xiàn)方式而言,表演型情感一般是讓職業(yè)演員以模仿的方式表現(xiàn)出相應(yīng)的情感狀態(tài),雖然說話人被要求盡量表達出自然的情感,但刻意模仿的情感還是顯得更加夸大,使得不同情感類別之間的差異性比較明顯,這方面的語音情感庫有Berlin Emotional Speech Database(Emo-DB)、Airplane Behavior Corpus(ABC)等[34]。早期對語音情感識別的研究都是基于表演型語料庫,隨著人們意識到引導(dǎo)型情感具有更加自然的情感表達之后,研究者們開始基于引導(dǎo)型情感庫進行研究,比如eNTERFACE[5]。隨著研究的深入,迫切需要一些自發(fā)的語音情感數(shù)據(jù),目前出現(xiàn)了FAU Aibo Emotion Corpus(FAU AEC)、TUM Aduio-Visual Interest Corpus(TUM AVIC)、Speech Under Simulated and Actual Stress(SUSAS)和Vera am Mittag(VAM)[2,68]。常用的幾個語音情感庫如表2所示,描述了他們在年齡、語言、情感、樣本個數(shù)、記錄環(huán)境和采樣率之間的差異。
5語音情感挑戰(zhàn)賽
雖然已經(jīng)有很多研究致力于語音情感識別,但是相對于其它語音任務(wù)(如自動語音識別和說話人識別)而言,語音情感識別中還不存在標(biāo)準(zhǔn)的語音情感庫和統(tǒng)一的測試條件用于在相同條件下進行性能比較。同時,為了處理更加現(xiàn)實的場景,需要獲得自然的語音情感數(shù)據(jù)。國際語音情感挑戰(zhàn)INTERSPEECH 2009 EC旨在彌補出色的語音情感識別研究和結(jié)果可比性之間的缺陷,它提供了自然的語音情感庫FAU AEC,以及開源工具包openEAR來提取基本的384維特征集,保證了特征的透明性,從而使得結(jié)果具有重現(xiàn)性和可比性[9]。FAU AEC庫包括了德國兩個學(xué)校(Ohm和Mont)10~13歲的孩子與索尼公司的機器狗Aibo進行交互的語音數(shù)據(jù)。為了實現(xiàn)說話人獨立的語音情感識別,通常學(xué)校Ohm記錄的數(shù)據(jù)用于訓(xùn)練,而Mont記錄的數(shù)據(jù)用于測試。INTERSPEECH 2009 EC的情感分類任務(wù)主要包括2類情感(負(fù)面情感、所有其它情感)分類和5類情感(生氣、同情、積極、中立和其它)分類,目前已有很多研究基于FAU AEC庫進行情感分類。除了在FAU AEC庫上進行傳統(tǒng)的語音情感識別外,隨著跨庫語音情感識別研究的深入,很多研究者也將FAU AEC作為目標(biāo)域數(shù)據(jù)庫進行域適應(yīng)的研究。
6語音情感識別的主要挑戰(zhàn)
6.1語音情感特征
在傳統(tǒng)語音情感識別中,提取具有判別性的特征已經(jīng)成為一個重要的研究方向。在情感特征提取過程中,通常存在一些與情感無關(guān)的因素,如說話內(nèi)容、說話人、環(huán)境等,這些不相關(guān)的因素將會使得提取到的特征包含這些因素方面的變化,從而影響情感分類性能。
目前已有部分研究開始考慮這些與情感無關(guān)因素的影響。同時,隨著深度學(xué)習(xí)的提出與發(fā)展,越來越多的研究者開始使用深度神經(jīng)網(wǎng)絡(luò)進行特征提取。Chao等[10]利用無監(jiān)督預(yù)訓(xùn)練去噪自動編碼器,減少了情感特征中說話人的影響。Mao等[11]提出了半監(jiān)督卷積神經(jīng)網(wǎng)絡(luò)模型,提取情感相關(guān)特征,通過實驗證明其對說話人的變化、環(huán)境的滋擾以及語言變化都有很強的魯棒性。Mariooryad 等[12]對特征構(gòu)建音素層次的彈道模型,從聲學(xué)特征中分解出說話人的特性,從而彌補說話人對語音情感識別的影響。
6.2跨庫的語音情感識別
在傳統(tǒng)的語音情感識別中,訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)一般來自同一個語料庫或者具有相同的數(shù)據(jù)分布。隨著數(shù)據(jù)的爆炸式增長,從不同設(shè)備和環(huán)境下獲得的語音數(shù)據(jù)通常在語言、情感表現(xiàn)方式、情感標(biāo)記方案、聲學(xué)信號條件、內(nèi)容等方面存在很大差異,這就造成了訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)分布的不同,傳統(tǒng)的語音情感識別方法就不再適用。
近年來,遷移學(xué)習(xí)(Transfer Learning)的概念被提出,指從一個或多個源域中將有用的信息遷移到相關(guān)的目標(biāo)域,以幫助改善目標(biāo)域的分類性能[13]。域適應(yīng)(Domain Adaptation)作為一種特殊的遷移學(xué)習(xí),已成功應(yīng)用于跨庫的語音情感識別。Deng等[14]提出一種共享隱藏層自動編碼器(shared-hidden-layer autoencoder,SHLA)模型,相較于傳統(tǒng)的自動編碼器,SHLA的輸入數(shù)據(jù)包含了源域和目標(biāo)域兩類數(shù)據(jù),讓兩個域的數(shù)據(jù)共用編碼部分而解碼部分不同,目的是誘使兩個域的數(shù)據(jù)在隱藏層空間具有相似的數(shù)據(jù)分布。Huang等[15]利用PCANet沿著從源域到目標(biāo)域的路徑提取特征,并用目標(biāo)域空間來調(diào)整路徑上的特征,以此彌補域之間的差異。
參考文獻參考文獻:
[1]EL AYADI M,KAMEL M S,KARRAY F.Survey on speech emotion recognition:features,classification schemes and databases[J].Pattern Recognition,2011,44(3): 572587.
[2]SCHULLER B,STEIDL S,BATLINER A.The interspeech 2009 emotion challenge[C].Proceedings INTERSPEECH 2009,10th Annual Conference of the International Speech Communication Association,2009:312315.
[3]BURKHARDT F,PAESCHKE A,ROLFES M,et al.A database of German emotional speech[J].Interspeech,2005(5):15171520.
[4]SCHULLER B,ARSIC D,RIGOLL G,et al.Audiovisual behavior modeling by combined feature spaces[C].IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP),2007:733736.
[5]MARTIN O,KOTSIA I,MACQ B,et al.The eNTERFACE'05 audiovisual emotion database[C].22nd International Conference on Data Engineering Workshops,2006.
[6]SCHULLER B,MULLER R,EYBEN F,et al.Being bored recognising natural interest by extensive audiovisual integration for reallife application[J].Image and Vision Computing,2009,27(12): 17601774.
[7]HANSEN J H L,BOUGHAZALE S E,SARIKAYA R,et al.Getting started with SUSAS:a speech under simulated and actual stress database[C].Eurospeech,1997,97(4): 174346.
[8]GRIMM M,KROSCHEL K,NARAYANAN S.The vera am mittag german audiovisual emotional speech database[C].2008 IEEE International Conference on Multimedia and Expo,2008:865868.
[9]EYBEN F,WOLLMER M,SCHULLER B.OpenEAR―introducing the Munich opensource emotion and affect recognition toolkit[C].3rd International Conference on Affective Computing and Intelligent Interaction and Workshops,2009: 16.
[10]CHAO L,TAO J,YANG M,et al. Improving generation performance of speech emotion recognition by denoising autoencoders[C].2014 9th International Symposium on Chinese Spoken Language Processing (ISCSLP),2014: 341344.
[11]MAO Q,DONG M,HUANG Z,et al.Learning salient features for speech emotion recognition using convolutional neural networks[J].IEEE Transactions on Multimedia,2014,16(8):22032213.
[12]MARIOORYAD S,BUSSO pensating for speaker or lexical variabilities in speech for emotion recognition[J].Speech Communication,2014,57(1): 112.
[13]PAN S J,YANG Q.A survey on transfer learning[J].IEEE Transactions on Knowledge & Data Engineering,2010,22(10):13451359.
關(guān)鍵詞:科學(xué)計算;大數(shù)據(jù)處理;超級計算機;模擬仿真;并行計算
1引言
在現(xiàn)代科學(xué)研究和工程實踐中,通常使用數(shù)學(xué)方程式來表示某些自然科學(xué)規(guī)律,產(chǎn)生了眾多復(fù)雜繁瑣的數(shù)學(xué)計算問題[1]?;谄胀ㄓ嬎愎ぞ邅斫鉀Q這些問題,將耗費大量人力物力,甚至無法得到準(zhǔn)確結(jié)果。而科學(xué)計算[2],利用計算機仿真、重現(xiàn)、預(yù)測或探索自然世界萬物運動規(guī)律和演變特性的全過程,通過研究合理的計算方法,設(shè)計高效的并行算法,研制合適的應(yīng)用程序,能準(zhǔn)確、高效地模擬各領(lǐng)域研究過程,分析計算結(jié)果。然而,普通計算機的科學(xué)計算能力往往是有限的,現(xiàn)有的計算能力無法高效地解決某些基礎(chǔ)學(xué)科和工程技術(shù)部門的科學(xué)計算問題,如長期天氣預(yù)報、石油勘探、飛機整體氣動力等等。
與此同時,地震檢測儀、粒子碰撞器、天文望遠鏡以及高通量分析裝置等大型科學(xué)儀器的研制和發(fā)展[3],產(chǎn)生了大量非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù),使得“大數(shù)據(jù)”趨勢變得越來越突出[4]。如今,許多科學(xué)發(fā)現(xiàn)和見解由大量數(shù)據(jù)集驅(qū)動,“大數(shù)據(jù)”被認(rèn)為是除了實驗、理論和計算方法之外的第四種科學(xué)范式[5]。數(shù)據(jù)生成的容量、速度和多樣性構(gòu)成了分析大數(shù)據(jù)的主要挑戰(zhàn)。
為提高科學(xué)計算能力,解決大數(shù)據(jù)問題,高性能計算(HPC)[6]技術(shù)迅猛發(fā)展。高性能計算機代表用于解決計算密集型科學(xué)和工程問題的高端計算基礎(chǔ)設(shè)施。我國的高性能計算早已突破每秒浮點運算千萬億次的壁壘,并繼續(xù)解決性能、可擴展性、可編程性、能效和可靠性等問題,探索新的支持技術(shù)以達到e級計算能力。
目前,高性能計算機已在多個領(lǐng)域得到了成功的應(yīng)用[7],但仍存在大量可供多個研究機構(gòu)使用的空閑節(jié)點。本文簡介了一些高性能計算機系統(tǒng)及其性能,針對近年來在高性能計算機上的各大領(lǐng)域應(yīng)用實例進行總結(jié),并對在其他領(lǐng)域的應(yīng)用做出了展望,以促進更高效、全面地使用高性能計算機。
2高性能計算機系統(tǒng)概述
中國首臺千萬億次超級計算機,是“天河一號”?!疤旌右惶枴背売嬎銠C使用由中國自行研發(fā)的“龍”芯片,其峰值計算速度能夠達到1.206TFlop/s,同時Linpack實測性能達到了0.563TFlop/s,該超級計算機位居當(dāng)時公布的中國超級計算機前100強之首,中國成為了繼美國之后世界上第二個能夠自主研制千萬億次超級計算機的國家。
天河一號采用6144個英特爾通用多核處理器和5120個AMD圖形加速處理器,其內(nèi)存總?cè)萘?8TB。至于點對點通信的帶寬就達到了40Gbps,而其用于共享的磁盤總?cè)萘縿t達到1PB。該超級計算機系統(tǒng)部署于天津濱海新區(qū)的國家超級計算天津中心作為業(yè)務(wù)主機。
2013年,由國防科學(xué)技術(shù)大學(xué)研制的“天河二號”大型超級計算機以每秒33.86千萬億次的浮點運算速度成為全球最快的超級計算機,位列國際大型超級計算機TOP500榜首。隨后,“天河二號”實現(xiàn)了世界最快超算“六連冠”。天河二號采用基于加速器的架構(gòu)[8]。在可接受的總成本、功率預(yù)算、支持可靠性、可用性和可服務(wù)性(RAS)的能力、應(yīng)用開發(fā)和移植的復(fù)雜性下提供高的計算性能。
天河二號的硬件系統(tǒng)由五個子系統(tǒng)組成,包括計算系統(tǒng)、通信系統(tǒng)、存儲系統(tǒng)、監(jiān)控診斷系統(tǒng)和服務(wù)系統(tǒng)。它由16000個節(jié)點組成,每個節(jié)點有2顆基于IvyBridge-EXeonE52692處理器和3顆XeonPhi,每個節(jié)點的內(nèi)存是64GB。所有的計算節(jié)點都通過專有的高速互連系統(tǒng)連接。還提供了一個服務(wù)子系統(tǒng)的4096個節(jié)點,以加快高吞吐量的計算任務(wù),如大數(shù)據(jù)處理。存儲子系統(tǒng)包括256個I/O節(jié)點和64個容量為12.4PB的存儲服務(wù)器。天河二號文件系統(tǒng)命名為h2fs,采用麒麟操作系統(tǒng)、基于SLURM的全局資源管理。支持大多數(shù)現(xiàn)代編程語言,包括C、C++、Java、Python等。采用的是新型異構(gòu)多態(tài)體系結(jié)構(gòu)(Multipurpose-Heterogeneous)[9]。
天河二號的系統(tǒng)配置列于表1中。
“天河二號”集科學(xué)計算、大數(shù)據(jù)分析和云計算于一體,被認(rèn)為是滿足工業(yè)和社會需求的戰(zhàn)略基礎(chǔ)設(shè)施。以超級計算機為支撐的高性能計算應(yīng)用正加速向各個領(lǐng)域滲透。
Table1SystemindicatorsofTianhe-2
表1天河二號系統(tǒng)指標(biāo)
width=375,height=252,dpi=110
在國內(nèi)早期的高性能計算機研究中,2004年6月超級計算機曙光4000A研制成功,落戶上海超級計算中心,標(biāo)志著繼美國和日本之后,中國是第三個能研制10萬億次高性能計算機的國家。曙光能夠每秒運算11萬億次,進入全球超級計算機前十名。經(jīng)過十多年發(fā)展,曙光E級高性能計算機系統(tǒng)項目現(xiàn)在是國家“十三五”期間高性能計算的重點專項,其最顯著的特點是突破了制約E級計算發(fā)展的各個關(guān)鍵技術(shù),通過這樣原型機的研制去驗證E級的技術(shù)路線,為未來真正實現(xiàn)國產(chǎn)E級系統(tǒng)做技術(shù)鋪墊。
width=642,height=303,dpi=110
Figure1StructureofSugon’sCPU
圖1曙光CPU結(jié)構(gòu)
在2016年法蘭克福世界超算大會上,“神威·太湖之光”超級計算機系統(tǒng)成為新的榜首,速度較第二名“天河二號”快出近兩倍,效率提高三倍。
神威·太湖之光超級計算機由40個運算機柜和8個網(wǎng)絡(luò)機柜組成。每個運算機柜包含4塊由32塊運算插件組成的超節(jié)點。每個插件由4個運算節(jié)點板組成,一個運算節(jié)點板又含2塊“申威26010”高性能處理器。一臺機柜就有1024塊處理器,整臺“神威·太湖之光”共有40960塊處理器。每個單個處理器有260個核心,主板為雙節(jié)點設(shè)計,每個CPU固化的板載內(nèi)存為32GBDDR3-2133。
在2018年的法蘭克福世界超算大會上,美國能源部橡樹嶺國家實驗室(ORNL)推出的新超級計算機“Summit”以每秒12.23億億次的浮點運算速度,接近每秒18.77億億次峰值速度奪冠,“神威·太湖之光”屈居第二。
3高性能計算機各大領(lǐng)域應(yīng)用實例分析
為充分發(fā)揮高性能計算機的優(yōu)勢,極大限度地滿足客戶需求,自超級計算機在中國開始發(fā)展以來,相關(guān)團隊都致力于擴展高性能計算在各個領(lǐng)域的利用,迎合各領(lǐng)域應(yīng)用的計算要求,協(xié)助用戶配置應(yīng)用環(huán)境,建立高效模型,設(shè)計合理并行算法,以實現(xiàn)各領(lǐng)域的科學(xué)計算和大數(shù)據(jù)處理在高性能計算機上的應(yīng)用。
3.1生物計算與精準(zhǔn)醫(yī)療
根據(jù)廣州國家超級計算中心的內(nèi)部統(tǒng)計[10],生物醫(yī)學(xué)相關(guān)應(yīng)用現(xiàn)在是超級計算中心的主要客戶。生物醫(yī)學(xué)研究主要包括生物大分子的結(jié)構(gòu)模擬與功能建模,藥物設(shè)計與篩選,蛋白質(zhì)序列分析,基因序列分析與比對,基因調(diào)控網(wǎng)絡(luò)的分析與建模,醫(yī)療衛(wèi)生的雙數(shù)據(jù)分析及生物醫(yī)學(xué)文獻挖掘等。
生物醫(yī)學(xué)數(shù)據(jù)繁多,且一直呈指數(shù)增長。如世界最大的生物數(shù)據(jù)保存者之一,歐洲生物信息學(xué)研究所(EBI),存儲超過20PB的數(shù)據(jù),并且最近每年的數(shù)據(jù)量都增加一倍[11]。數(shù)據(jù)源的異質(zhì)性,包括基因組學(xué)、蛋白質(zhì)組學(xué)、代謝組學(xué)、微陣列數(shù)據(jù)、文獻等,使其更加復(fù)雜。
針對典型類型的大數(shù)據(jù)——基因組大數(shù)據(jù),在大數(shù)據(jù)框架(如Hadoop和Spark)的幫助下,云計算已經(jīng)在大數(shù)據(jù)處理中發(fā)揮著積極作用?,F(xiàn)在,HPC在中國的快速發(fā)展使得以不同的方式解決基因組大數(shù)據(jù)挑戰(zhàn)成為可能。Yang等人[12]強調(diào)了在現(xiàn)代超級計算機上增強大數(shù)據(jù)支持的必要性,提出只需單個命令或單個shell腳本就能使當(dāng)前的大數(shù)據(jù)應(yīng)用在高性能計算機上運行,并且支持多個用戶同時處理多個任務(wù)的Orion作為高性能計算機的大數(shù)據(jù)平臺。該平臺可以根據(jù)大數(shù)據(jù)處理需求,合理分配所需的資源量,并使用HPC系統(tǒng)軟件棧自動建立和配置可回收的Hadoop/Spark集群。以華大基因提供的基因組學(xué)大數(shù)據(jù)作為案例研究,測試基因組分析流水線SOAPGaea的FASTQ過濾、讀取對齊、重復(fù)刪除和質(zhì)量控制四個過程,證明了Orion平臺的高效性。
為更好地了解基因的精細結(jié)構(gòu)、分析基因型與表現(xiàn)型的關(guān)系、繪制基因圖譜,DNA序列分析成為生物醫(yī)學(xué)中的重要課題[12]。
DNA序列的排序是對DNA序列分析的基礎(chǔ)[13]。通常先使用測序儀得到生物體基因組的一些片段,再利用計算機對片段進行denovo拼接,從而得到DNA序列的排列順序。而隨著測序儀的發(fā)展,基因組的數(shù)據(jù)量增大,分析復(fù)雜性提高,普通計算工具分析數(shù)據(jù)會消耗大量時間和空間。張峰等人[14]基于高性能計算機,使用一種新型序列拼接工具SGA(StringGraphAssernbler),對任務(wù)之間數(shù)據(jù)耦合度小的分批構(gòu)建FM-Index,采用粗粒度的多進程并行;對任務(wù)之間數(shù)據(jù)耦合度較大的FM-Index合并過程,采用多線程的細粒度并行。這種多進程與多線程的混合并行策略,使用并行計算代替通信開銷,測試小規(guī)模數(shù)據(jù)時,將索引構(gòu)建時間的最佳性能提高了3.06倍。葉志強等人[15]在基因組排序時,引入隨機listranking算法,基于高性能計算機,使用MPI并行實現(xiàn)Pregel框架的線性化步驟,利用節(jié)點之間的通信和計算能力,減少了線性化步驟時間。
SNP(單核苷酸多態(tài)性)檢測是DNA序列分析的關(guān)鍵步驟[16]。它將對齊的read、參考序列和被編排的數(shù)據(jù)庫(如數(shù)據(jù)庫SNPP)作為輸入,通過站點檢測對齊的read和引用站點的信息,生成SNP站點的列表。SNP檢測工具SoAPSNP可以用一個多星期的時間來分析一個覆蓋20倍的人類基因組。崔英博等人[17]通過重新設(shè)計SOAPSNP的關(guān)鍵數(shù)據(jù)結(jié)構(gòu)以降低內(nèi)存操作的開銷,設(shè)計CPU與XeonPhi協(xié)作的協(xié)調(diào)并行框架,以獲得更高的硬件利用率。并提出了一種基于讀取的窗口劃分策略(RWD),在多個節(jié)點上提高吞吐量和并行規(guī)模,開發(fā)了SOAPSNP的并行版本MSNP,在沒有任何精度損失的情況下,利用高性能計算機的一個節(jié)點實現(xiàn)了45倍的加速。
方翔等人[18]利用高性能計算機,構(gòu)建了由基因組與轉(zhuǎn)錄組測序數(shù)據(jù)分析、蛋白質(zhì)結(jié)構(gòu)預(yù)測和分子動力學(xué)模擬三個功能模塊組成的生物信息平臺分析水產(chǎn)病原,對約氏黃桿菌等多種水生動物病原進行生物信息學(xué)分析。
從生物醫(yī)學(xué)文獻中提取有價值的信息的一種主流方法是在非結(jié)構(gòu)化文本上應(yīng)用文本挖掘方法。然而,大量的文獻需要分析,這對文本挖掘的處理效率提出了巨大的挑戰(zhàn)。彭紹亮等人[19]將針對疾病實體識別的軟件DNorm加入可高效識別基因、蛋白質(zhì)、藥物、基因通路等實體關(guān)系的文本挖掘工具PWTEES流水線中,擴充了PWTEES的功能。使用LINNAEUS導(dǎo)入MEDLIN數(shù)據(jù)庫提供的摘要,并在個人賬戶目錄下,動態(tài)使用計算節(jié)點,編譯安裝配置了非關(guān)系型數(shù)據(jù)庫(MySQL),將大量非結(jié)構(gòu)化數(shù)據(jù)(文獻)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù)。將平時在普通服務(wù)器上需100天能完成的文本挖掘過程縮短為1小時,并利用200個進程并行挖掘7萬篇頭頸癌相關(guān)文獻中的關(guān)鍵命名實體,得到了80%以上的并行效率。Xing等人[20]開發(fā)了一個可運行的框架PARABTM,它能夠在超級計算機上實現(xiàn)并行文本挖掘。以GNormPlus、tmVar2.0、Dnorm三種命名實體識別任務(wù)為例,對多個數(shù)據(jù)集上PARABTM的性能進行了評價。結(jié)果表明,使用PARABTM并行處理策略中的短板匹配負(fù)載平衡算法(Short-Boardloadbalancingalgorithm),最大程度地提高了生物醫(yī)學(xué)命名實體識別的處理速度。
3.2全數(shù)字設(shè)計與制造
數(shù)字設(shè)計與制造是一種以計算機系統(tǒng)為中心的集成制造方法。隨著制造工廠中計算機系統(tǒng)數(shù)量和質(zhì)量的提高,數(shù)字化趨勢迅速。越來越多的自動化工具被用于制造工廠,有必要對所有機器、工具和輸入材料進行建模、模擬和分析,以優(yōu)化制造過程。而模擬能夠建模和測試一個系統(tǒng)行為特性,讓工程師能夠用更低耗、更快速同時更安全的方式來分析所做的設(shè)計會產(chǎn)生什么樣的影響。模擬的應(yīng)用范圍廣泛,涵蓋了產(chǎn)品設(shè)計、過程設(shè)計以及企業(yè)資源安排[21]。在模擬過程中,利用超級計算機強大的計算能力,使工程師能在幾分鐘或幾小時內(nèi)仿真和測試數(shù)千種設(shè)計方案。
利用數(shù)字化的方式,可以對產(chǎn)品進行結(jié)構(gòu)力學(xué)分析、流體力學(xué)分析、電磁設(shè)計和多物理場模擬等多種計算仿真。
在計算流體力學(xué)CFD(CcomputationalFluidDynamics)領(lǐng)域的一大熱點研究問題就是如何在當(dāng)前主流的眾核異構(gòu)高性能計算機平臺上進行超大規(guī)模計算。楊梅芳等人[22]在高性能計算機的單個節(jié)點上,利用超然沖壓發(fā)動機燃燒數(shù)值模擬軟件LESAP模擬一個實際發(fā)動機燃燒化學(xué)反應(yīng)和超聲速流動的問題,采用OpenMP4.0編程標(biāo)準(zhǔn),向量化SIMD,優(yōu)化數(shù)據(jù)傳輸過程,均衡基于網(wǎng)格塊劃分的負(fù)載技術(shù),實現(xiàn)了軟件面向CPU+MIC異構(gòu)平臺的移植,達到了3.07倍的性能加速比。王勇獻等人[23]面向高性能計算機探索了高階精度CFD流場數(shù)值模擬程序的高效并行性。在高性能異構(gòu)并行計算平臺上進行了多個算例的數(shù)值模擬的結(jié)果顯示最大CFD規(guī)模達到1228億個網(wǎng)格點,共使用約59萬CPU+MIC處理器核,實現(xiàn)了移植后的性能大幅度提高。通過將算法移植到超級計算機進行大規(guī)模并行,能夠?qū)崿F(xiàn)高效的流體力學(xué)分析。而文獻[24-26]都是針對空氣動力學(xué)中的具體分類利用高性能計算機進行模擬以驗證有效性的研究。利用數(shù)字化設(shè)計,能夠快速低成本地對設(shè)計性能進行分析評估。
在圖像模擬中,Metropolis光傳輸算法能夠利用雙向路徑跟蹤構(gòu)建出由眼睛到光源的路徑,是MonteCarlo方法的變體。然后,使用Metropolis算法靜態(tài)計算圖像中光線的恰當(dāng)?shù)纳⑸錉顟B(tài),由一條已發(fā)現(xiàn)的光到眼睛的路徑,能搜索到鄰近路徑。簡單地說,Metropolis光傳輸算法能夠生成一條路徑并存儲其上的節(jié)點,同時能通過添加額外節(jié)點來調(diào)整并生成新的路徑。隨著對照片級真實感圖像的要求越來越高,為Metropolis光傳輸算法開發(fā)高效且高度可擴展的光線跟蹤器變得越來越重要。主要是渲染圖像通常需要花費大量時間,開發(fā)高效且高度可擴展的光線跟蹤器的困難來自不規(guī)則的存儲器訪問模式、光攜帶路徑的不平衡工作量以及復(fù)雜的數(shù)學(xué)模型和復(fù)雜的物理過程。Wu等人[27]提出了一種基于物理的高度可擴展的并行光線追蹤器,并在高性能計算機上進行了實現(xiàn),利用多達26400個CPU內(nèi)核,證明了其可擴展性,能夠從復(fù)雜的3D場景生成逼真圖像。
模擬高場非局部載流子傳輸同樣需要3DMonteCarlo模擬方法,通過適當(dāng)?shù)牧孔有Uw散射效應(yīng),半經(jīng)典的MC模擬能夠給出準(zhǔn)確的結(jié)果。但是,MC方法中3D模擬和量子校正都需要巨大的計算資源[28],由效率出發(fā)超級計算機的計算能力就至關(guān)重要了。文獻[29]中,通過在高性能計算機上使用IntelMIC協(xié)處理器,進一步提高了之前工作中開發(fā)的3D并行的繼承MC模擬器的并行效率。
對于高性能計算機在全數(shù)字設(shè)計和制造領(lǐng)域的集成應(yīng)用,國家超級計算廣州中心推出了天河星光云超算平臺,以云服務(wù)的方式提供CAE計算和HPC訪問,大大降低了數(shù)字設(shè)計的門檻,支持產(chǎn)品設(shè)計的全工作流。目前基于該平臺支撐的項目有諸如國產(chǎn)大飛機、高鐵等,都是國家工業(yè)生產(chǎn)中重要項目[30]。
3.3地球科學(xué)與環(huán)境工程
基于該應(yīng)用領(lǐng)域,超級計算機的主要作用在于變革對自然界中諸如地理狀況、海洋、大氣等種種元素的模擬方式。以超算為平臺,不僅能模擬出地球上每個時期的狀況,甚至是對宇宙中的種種同樣能進行模擬分析,讓地球科學(xué)和環(huán)境工程的研究范圍不再限于此時此地,而是更廣闊的空間。
在宇宙學(xué)的層面,早在2015年就利用高性能計算機模擬出宇宙大爆炸后1600萬年之后至今約137億年的暗物質(zhì)和中微子的演化過程,并將進一步尋找宇宙邊界的報告[31]。中微子雖然是自然界中的基本粒子之一,在宇宙大爆炸約1s后與其他等離子體物質(zhì)退耦,形成看不見的宇宙背景,通過物理實驗和實際的天文觀測都無法精確測量中微子的質(zhì)量。在高性能計算機平臺上,利用3萬億粒子來對宇宙中的中微子和暗物質(zhì)的分布和演化進行模擬,開創(chuàng)了宇宙學(xué)中獨立測量中微子質(zhì)量的道路。
在地球外圍層面上,大氣變化同樣是一個關(guān)注點。Xue等人[32]提出了一種基于高性能計算機的全球性大氣動態(tài)模擬的混合算法。通過使用更靈活的域分區(qū)方案來支持節(jié)點中任意數(shù)量的CPU和加速器,算法能夠充分利用超算的優(yōu)良性能。當(dāng)使用8664個節(jié)點,包括了近170萬個核心時,可以有效地利用節(jié)點內(nèi)的三個MIC卡,對兩個IvyBridgeCPU(24個內(nèi)核)實現(xiàn)4.35倍的加速。基于成功的計算-通信重疊,算法分別在弱和強縮放測試中實現(xiàn)了93.5%和77%的并行效率。
相較于廣袤無邊的宇宙,大部分人們對于腳下的土地更加關(guān)心。自然災(zāi)害如地震、泥石流等,可能會造成巨大的生命財產(chǎn)損失,而地下油氣資源又是經(jīng)濟社會發(fā)展所必需的,利用超級計算機去探索大地也是發(fā)展所需要的。
中石油集團開發(fā)的用于石油油氣勘探的GeoEast系統(tǒng)已經(jīng)經(jīng)過了十幾年的發(fā)展更新,在數(shù)據(jù)模型、數(shù)據(jù)共享、一體化運行模式、三維可視化、交互應(yīng)用框架、地震地質(zhì)建模、網(wǎng)絡(luò)運行環(huán)境和并行處理方面取得了多項創(chuàng)新與重大技術(shù)突破,是地震數(shù)據(jù)處理解釋一體化系統(tǒng)。目前GeoEastV3.0版本軟件總體達到國際同類軟件先進水平,為推動中國石油勘探開發(fā)領(lǐng)域不斷取得新成果發(fā)揮了重要作用[33]。但是,這樣的一體化系統(tǒng)在使用中勢必會產(chǎn)生大量的數(shù)據(jù),這就對計算機的性能有了要求。因此,在GeoEast系統(tǒng)聞名世界的過程中,高性能計算機在幕后是功臣之一,保證了系統(tǒng)的順利運行,助力石油勘探工作[34]。而文獻[35]專注于地震模擬,提出了針對英特爾至強處理器的對于軟件SeisSol的優(yōu)化,以適用于高性能計算機的計算環(huán)境中,通過全摩擦滑動和地震波的耦合仿真實現(xiàn)了空前復(fù)雜的地震模型。移植到高性能計算機的SeisSol提供近乎最佳的弱縮放,在8192個節(jié)點上達到8.6DP-PFLOPS,在所利用的整個高性能計算機上能達到18~20DP-PFLOPS,成功模擬了1992年蘭德斯地震。
3.4智慧城市云計算
城市發(fā)展經(jīng)過多年的調(diào)整,已經(jīng)在經(jīng)濟上有了相當(dāng)進展,目前從如何讓人們生活更加便捷出發(fā),許多地區(qū)開始建設(shè)智慧城市。智慧城市(SmartCity)是指利用各種信息技術(shù)或創(chuàng)新意念,集成城市的組成系統(tǒng)服務(wù),以提升資源運用的效率,優(yōu)化城市管理和服務(wù),進而能夠提高居民生活質(zhì)量。智慧城市的發(fā)展不僅僅是對生活的改變,還能促進生產(chǎn)方式的轉(zhuǎn)變,解決在城市擴張及經(jīng)濟高速發(fā)展中產(chǎn)生的一系列“城市病”問題。智慧城市,代表的是城市的智慧,由智慧,能夠衍生出智能中、知識和數(shù)字等更廣泛的內(nèi)涵[36]。
迄今為止,廣州、北京、上海、寧波、無錫、深圳、武漢、佛山等國內(nèi)城市已紛紛啟動“智慧城市”戰(zhàn)略,相關(guān)規(guī)劃、項目和活動漸次推出。高性能計算機云平臺應(yīng)運而生,為智慧城市建立堅實、先進的基石。智慧城市由于其性能需求,對依賴的平臺的計算能力的要求會更高,而超算的計算能力就能為智慧城市的建設(shè)提供相當(dāng)助力。在2014年,就有中國首臺千萬億次超級計算機“天河一號”在智慧城市中應(yīng)用的報道,以其在天津濱海區(qū)的應(yīng)用為例,“天河一號”的建筑信息領(lǐng)域的大數(shù)據(jù)平臺通過對建筑信息建模,實現(xiàn)對建筑物從規(guī)劃、設(shè)計、建造到后期物業(yè)管理理的全程數(shù)字化。此外,城市規(guī)劃、氣象預(yù)測、生物醫(yī)療、裝備制造、汽車碰撞模擬等行業(yè),也能更多地通過“天河一號”,實現(xiàn)大批量數(shù)據(jù)計算、分析和存儲[37]。
而高性能計算機的持續(xù)計算速度進一步達到了億億次,所能提供的服務(wù)質(zhì)量也更高,麒麟云平臺被部署在1920個節(jié)點(15個機柜),其中64個節(jié)點(兩個機框)作為云平臺控制節(jié)點,其余節(jié)點為運行虛擬機的計算節(jié)點和分布式存儲的存儲節(jié)點。為方便管理,將計算節(jié)點進行分區(qū)管理,512個節(jié)點(4個機柜)為一區(qū),用于滿足生產(chǎn)環(huán)境、適配環(huán)境、測試環(huán)境需要。分布式存儲沒有分區(qū),所有節(jié)點形成一個全局的分布式存儲池,但在使用時可按需劃分指定容量的區(qū)域供不同用途使用[38]。這種云超算服務(wù)采用麒麟安全云系統(tǒng)實現(xiàn)虛擬化技術(shù),將虛擬機資源遠程推送給用戶使用[39]??赏ㄟ^互聯(lián)網(wǎng)遠程管理虛擬機資源,使高性能計算機云平臺資源能夠被更多人使用,超算的計算能力能夠更好地推動社會各個領(lǐng)域發(fā)展。2017年OpenStack的第15個版本中,麒麟云團隊在核心功能解決的Bug數(shù),以及Commits的數(shù)量均進入全球前20,麒麟云的發(fā)展是非常迅速的,與開源社區(qū)緊密結(jié)合,貢獻突出[40]。
3.5材料科學(xué)與工程
在材料科學(xué)與工程的研究中,量子力學(xué)、經(jīng)典動力學(xué)、統(tǒng)計力學(xué)是三大基礎(chǔ)且主要的研究方向。研究人員致力于材料參數(shù)的建模、多尺度平臺開發(fā)和新材料的設(shè)計、開發(fā)和優(yōu)化。
分子動力學(xué)模擬在材料科學(xué)、生物化學(xué)和生物物理學(xué)等領(lǐng)域得到了廣泛的應(yīng)用。分子動力學(xué)(MD)是研究分子和分子的物理運動的計算機模擬方法,它提供分子尺度上的微觀取樣?;谀芰考毣妮o助建模AMBER(AssistedModelBuildingwithEnergyRefinement)[41]是用于MD模擬的使用最廣泛的軟件包之一。然而,對于具有百萬原子級的系統(tǒng)的AMBERMD模擬的速度仍然需要改進。彭紹亮等人[42]在單CPU上的細粒度OpenMP并行、單節(jié)點CPU/MIC并行優(yōu)化和多節(jié)點多MIC協(xié)作并行加速方面進行了改進。在高性能計算機上實現(xiàn)AMBER的并行加速策略,與原程序相比,實現(xiàn)了25~33倍的最高加速比。同時,對于計算資源的限制,分子動力學(xué)軟件GROMACS不能大規(guī)模地進行滿意的操作。Wang等人[43]提出了一種利用卸載模式加速GROMACS的方法。為了提高GROMACS的效率,提出了異步化、數(shù)據(jù)重組和數(shù)組重用等一系列方法。在這種模式下,GROMACS可以與CPU和IntelXeonPHITM多個集成內(nèi)核(MIC)協(xié)處理器同時有效地配置,充分利用高性能計算機資源。
材料輻照效應(yīng)(Materialirradiationeffect)是使用核能的重要關(guān)鍵之一。然而,由于高通量輻照設(shè)施和進化過程知識的缺乏,此效應(yīng)的利用并不好。在高性能計算的幫助下,Hu等人[44]提出了一種新的數(shù)據(jù)結(jié)構(gòu),用于大規(guī)模并行模擬金屬材料在輻照環(huán)境下的演化?;谒岢龅臄?shù)據(jù)結(jié)構(gòu),開發(fā)了一種新的分子動力學(xué)軟件——CrystalMD,并在高性能計算機上進行了二兆個原子模擬,對MD輻射效應(yīng)研究的模擬規(guī)模進行了擴展。
3.6其他領(lǐng)域
近年來,隨高性能計算的推廣,政府部門對超級計算機的重視,舊產(chǎn)業(yè)轉(zhuǎn)向新產(chǎn)業(yè)的變化及大量有高性能計算需求的企業(yè)對超級計算機的需求增大,超算人才培養(yǎng)初見成效[45]。在應(yīng)用軟件開發(fā)等推動下,高性能計算機的適用范圍逐漸向更多領(lǐng)域滲透。
源于人工神經(jīng)網(wǎng)絡(luò)的研究深度學(xué)習(xí)作為人工智能的一個新研究領(lǐng)域,在模仿人腦的機制來解釋如圖像、聲音和文本數(shù)據(jù)上有了很大進展。例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN)能準(zhǔn)確地對大型圖像進行識別處理,然而CNN的訓(xùn)練密集程度很高,特別是對于大型具挑戰(zhàn)性的任務(wù),卷積層的參數(shù)數(shù)據(jù)量龐大。而高性能計算機的易訪問、高峰值等性能使學(xué)術(shù)界和工業(yè)界都可以輕松訪問相關(guān)平臺,并可以在合理的時間內(nèi)訓(xùn)練中等和較大規(guī)模的CNN。使用基于輸入展開以將其投影為矩陣乘法(Unfold+Parallel-GEMM)的算法的CAFFE、Theano、Torch7、Chainer、CNTK和TensorFlow等最先進的CNN基礎(chǔ)設(shè)施已可以在高性能計算機上進行部署和應(yīng)用。
增強現(xiàn)實技術(shù)AR(AugmentedReality),將真實世界信息模擬至虛擬世界,讓人隨時產(chǎn)生真實感受。通過高性能計算機高效地實現(xiàn)算法,可以數(shù)字虛擬孕育“互聯(lián)網(wǎng)+”新業(yè)態(tài),開發(fā)虛擬試衣、模擬試駕等應(yīng)用項目。