前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的步驟主題范文,僅供參考,歡迎閱讀并收藏。
1.神經網絡的架構正變得越來越復雜。感知和翻譯等大多數神經網絡的架構正變得越來越復雜,遠非此前簡單的前饋神經網絡或卷積神經網絡(CNN)所能比。特別需要注意的是,神經網絡正與不同的技術(如LSTMs、自定義目標函數等)相混合。
神經網絡是多數深度學習項目的根基。深度學習基于人腦結構,一層層互相連接的人工模擬神經元模仿大腦的行為,處理視覺和語言等復雜問題。這些人工神經網絡可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋,還可以自行學習與工作。
2.長短期記憶網絡(LSTMs)。當你閱讀本文時,你是在理解前面詞語的基礎上來理解每個詞語的。你的思想具有連續(xù)性,你不會丟棄已知信息而從頭開始思考。傳統神經網絡的一大缺陷便無法做到這一點,而遞歸神經網絡能夠解決這一問題。
RNN(循環(huán)神經網絡)擁有循環(huán)結構,可以持續(xù)保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關鍵在于一種特殊的RNN――長短期記憶網絡。
3.“注意力模型”。“注意力”是指神經網絡在執(zhí)行任務時知道把焦點放在何處。我們可以讓神經網絡在每一步都從更大的信息集中挑選信息作為輸入。例如,當神經網絡為一張圖片生成標題時,它可以挑選圖像的關鍵部分作為輸入。
4.神經圖靈機依然有趣,但還無法勝任實際工作。當你翻譯一句話時,并不會逐詞進行,而會從句子的整體結構出發(fā)。機器難以做到這一點,這一挑戰(zhàn)就被稱為“強耦合輸出整體估計”。
神經圖靈機就是研究者們在硅片中重現人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經網絡,它們可以適應與外部存儲器共同工作,這使得神經網絡可以存儲記憶,還能在此后檢索記憶并執(zhí)行一些有邏輯性的任務。
5.深度學習讓計算機視覺和自然語言處理不再是孤島。卷積神經網絡最早出現在計算機視覺中,但現在許多自然語言處理(NLP)系統也會使用。LSTMs與遞歸神經網絡深度學習最早出現在NLP中,但現在也被納入計算機視覺神經網絡。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。
6.符號微分式越來越重要。隨著神經網絡架構及其目標函數變得日益復雜,手動推導出“反向傳播”的梯度也變得更加困難而且容易出錯。谷歌的TensorFlow等最新的工具包已經可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓練時誤差梯度可被反向傳播。
7.神經網絡模型壓縮的驚人成果。多個團隊以不同方法大幅壓縮了訓練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數、迭代修剪和精細調優(yōu)步驟等。
這些技術潛在的應用前景廣闊,可能將會適應在移動設備上進行復雜模型的訓練。例如,不需要延遲就可以得到語音識別結果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設備上也可以運用復雜神經網絡模型,近乎實時地完成計算機視覺任務。
8.深度學習和強化學習繼續(xù)交匯。在“端對端”機器人等領域出現了令人激動的進展,現在機器人已經可以一起運用深度和強化學習,從而將原始感官數據直接轉化為實際動作驅動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。
【關鍵詞】神經網絡;故障測距;小波包;相對誤差
0 引言
我國礦井配電網多為6kV單側電源供電系統,采取中性點非有效接地方式,屬于小電流接地系統(NUGS)。饋電回路選用多段短電纜徑向延伸為各種井下高低壓電機、電氣設備、照明及各種通信、自動化裝置和儀表、儀器提供電能。由于井下工作環(huán)境惡劣,供電電纜經常發(fā)生接地、斷線、短路等故障,據電力部門統計,其中單相接地故障的發(fā)生率最高。盡管發(fā)生單相接地故障時,線電壓仍然對稱,暫時不影響對負荷的連續(xù)供電,但就礦井這類危險易爆場所而言,當發(fā)生單相接地故障時,應盡快跳閘斷電以確保安全。為此,必須及時對故障點進行定位、排除故障、加快恢復線路供電。
NUGS饋線的故障定位問題一直以來未得到滿意的解決,這與其自身的特點有關。由于電網變壓器中性點不直接接地,造成單相接地電流無法形成小阻抗回路,故障電流主要由線路對地電容電流提供,其數值較小,且基波分量幅值故障前后變化不大,使得定位保護裝置很難準確進行故障選線和定位。考慮到井下環(huán)境條件和負荷的特殊性,礦井配電網與傳統意義上的NUGS存在一定的差異:單相接地產生的暫態(tài)分量較穩(wěn)態(tài)分量大得多,暫態(tài)波形畸變嚴重,應研究利用暫態(tài)電氣量進行故障測距的可行性;饋電線路分支少、長度短,對測距精度要求高[1]。
鑒于上述原因,本文就井下配電網故障測距問題進行研究,以期提高故障測距的精度和可靠性。
1 BP網絡的結構和算法
BP網絡結構上類似于多層感知器,是一種多層前饋神經網絡,網絡權值的訓練算法為誤差反向傳播(BP)學習算法。如圖1所示為一典型3層BP網絡模型。
圖1 3層BP網絡模型
以圖示BP網絡模型為例說明網絡的學習過程:
(1)初始化。為每個連接權值wij、wjt、閥值θj、θt賦予(-1,1)區(qū)間的隨機值。
(2)給定輸入輸出目標樣本。給定輸入向量Xp=(x1,x2,...,xn)和期望目標向量Tp=(t1,t2,...,tm),p∈1,2,...,P。
(3)計算網絡各層的輸出。由輸入樣本、連接權值、閥值及各層神經元傳遞函數計算隱含層和輸出層的輸出。
(4)計算網絡實際輸出與期望輸出的一般化誤差。系統的目標函數為:
E=■■■(t■-y■)2=■E■(1)
網絡通過調整權值和閥值使?jié)M足預先設定的一個極小值。
(5) 利用目標函數調整網絡的權值和閥值。BP算法按照目標函數梯度的反方向對網絡參數進行調整,使目標函數收斂,即實際輸出接近目標輸出。對于第p個輸入樣本的權值、閥值,按下式修正,式中?濁為學習速率。
?駐w=-?濁■, ?駐θ=-?濁■(2)
對應的權值、閥值按下式調整,式中為迭代步數。
w(k+1)=w(k)+?駐wθ(k+1)=θ(k)+?駐θ(3)
(6)隨機選擇下一組學習樣本向量進行訓練,直到P個樣本對訓練完畢。
(7)重新從P個學習樣本中隨機選取一組輸入、目標樣本對,返回步驟(3),直到目標函數E收斂于給定值,若訓練次數大于設定的最大訓練次數,則網絡不收斂。
由于BP算法學習速率為固定值,收斂速度較慢,且可能會產生多個局部極小值,另外網絡的隱含層層數和神經元數目的選擇尚無理論指導,因此網絡具有較大的冗余性。為了克服以上不足,提出了許多改進算法,從改進途徑上分為兩類:
一類為啟發(fā)式學習算法,如動量BP算法、彈性算法、學習率可變的BP算法等;另一類為快速優(yōu)化算法,如擬牛頓算法、LM算法等。
2 基于BP小波神經網絡的故障測距
小波包具有正交特性、信號分解后的信息量是完整的,因此利用小波包算法分析信號頻率的分布情況,能夠有效提取信號的暫態(tài)特征。對于電纜線路而言,其暫態(tài)零序電流的自由振蕩頻率一般在1500~3000Hz之間[2-3]。本文利用小波包提取該頻段的暫態(tài)零序電流信號模極大值作為神經網絡模型的輸入,以期實現高精度的故障測距。
2.1 小波基的選擇
在利用小波包提取模極大值時,小波基的選擇十分重要,選擇不同的小波基對信號進行分解,可以突出不同特點的信號特征。Daubechies小波系是信號分析處理中常用的一類小波,具有緊支性、正交性,滿足精確重構條件,但由于其不具有對稱性,因而其邊界效應會隨尺度的增加而擴大,引起分解誤差;Morlet小波常用于信號表示、圖像特征的提取和識別;Mexican hat小波則用于系統辨識。
3次B樣條小波是一種具有線性相位的緊支對稱小波,分頻能力強,頻帶相干小,由于具有對稱性,只要采取合理的延拓方式,其邊界效應引起的誤差可忽略不計。
B樣條基函數的遞推公式如下:
N■(x)=1,x■≤x≤x■0,x?埸x■,x■N■(x)=■N■(x)+■N■(x)(4)
3次B樣條基函數N■(x)在xi,xi+4上具有局部支集性,表達式如(5)所示。
(5)若取參數x■=i(i=0,1,...,n)為節(jié)點即為均勻B樣條基,再對均勻B樣條基作參數變換,在每個子區(qū)間內以參數代換,在每個子區(qū)間的值均為u0,1。3次B樣條基函數的表達式如式6所示。
由于二進小波包變換具有平移不變性,不會引起正交小波包變換在所分析信號不連續(xù)處產生的偽吉布斯現象[4]。故本文利用3次B樣條小波包對短路故障電流進行卷積型二進小波包分解,以期獲得更顯著的故障特征信息。
N■(x)=■,x■≤x≤x■■+■,x■≤x≤x■■+■,x■≤x≤x■■,x■≤x≤x■0,x?埸x,x■
(5)
N■(u)=■u3■(-3u3+3u2+3u+1)■(3u3-6u2+4)■(-u3+3u2-3u+1) 0≤u≤1(6)
2.2 分解尺度的選擇
如何選擇分解尺度對于零序電流暫態(tài)分量的模極大值提取至關重要,尺度取得越大,信號與噪聲的表現差異越明顯,越有利于兩者的分離。但分解尺度取得越大,則對應的頻帶寬度越窄,采樣點數過小,不利于下一步的信號分析[5-7]。
由于本文仿真的采樣頻率取1MHz,則Nyquist頻率為5kHz,為提取暫態(tài)零序電流1500~3000Hz頻率段分量,小波包分解層數為3,考慮小波包頻帶劃分規(guī)則,取(3,3)、(3,7)頻帶的零序電流暫態(tài)分量即可滿足要求。
2.3 BP網絡結構參數的選擇
欲利用BP小波神經網絡計算井下配電網故障測距,必須首先確定BP網絡的結構和參數,如各層的初始權值、閥值,學習速率,各層節(jié)點數、傳遞函數等,只有確定了網絡的最佳配置,才能有效解決所提出的問題[8]。
(1)網絡層數的確定。Hecht-Nielsen已經證明,在不限制隱層節(jié)點數的情況下,含有一個隱層的BP網絡能夠實現任意非線性映射。Cybenko指出,當隱層傳遞函數選用S型傳遞函數時,單隱層足以滿足解決任意判決分類問題的需要,兩個隱層則能夠實現輸入圖形的映射。增加隱層數可以進一步提高精度,但同時會增加網絡權值的訓練時間。另外,增加隱層神經元個數也能降低誤差,訓練效果也更易觀察,因此,應優(yōu)先考慮增加隱含層神經元的個數。對于本文研究的故障測距問題,網絡需要較快的收斂速度,因此采用單隱層網絡。
(2)各層節(jié)點數目的確定。網絡輸入層節(jié)點數等于輸入向量的維數。由于井下電網大多數實時運行參數如負荷、系統等效阻抗可由監(jiān)控終端獲得,其它隨機性因素如發(fā)生故障線路、故障時刻可由故障后可測信息準確識別,不可知變化因素僅包括接地過渡電阻及故障點位置,并且神經網絡的內插性能優(yōu)于外推性能,故輸入向量維數等于3,分別為(3,3)、(3,7)頻帶零序電流暫態(tài)分量的模極大值和故障點過渡電阻值。輸出層節(jié)點數為1,表示故障點位置。隱含層節(jié)點數的選擇比較復雜,需要依據經驗和經過多次實驗確定,選取過多將導致學習時間過長,過少將引起容錯性差,對未經學習的樣本識別能力低。根據Hebe準則可以確定最佳隱含層節(jié)點數的參考值。另外,也可先令隱含層節(jié)點數可變,開始時給以較小數值,學習到給定訓練次數最大值,若未達到收斂精度則再增加節(jié)點數,直至達到合理數值為止。經過多次仿真訓練,隱層節(jié)點數為11時,網絡的訓練誤差最小。
(3)初始權值的選取。初始權值的選擇對于網絡能否收斂和訓練的速度關系密切。若權值選擇過大,會使加權輸入處于激勵函數的飽和區(qū),導致無法進行權值的調整。威得羅等人提出一種權值初定策略,選擇權值的量級為S1的r次方,其中S1為第一層神經元數目,利用此方法可以在較少的訓練次數下獲得滿意的訓練結果。本文選擇的輸入層及隱含層至輸出層的初始權值均為0.25。
(4)訓練算法的選擇。給定一個具體問題,采用何種訓練算法對于是否能夠達到目標誤差及網絡收斂速度的影響很大。就中等規(guī)模的前饋神經網絡而言,LM算法的訓練函數trainlm可以獲得比其它任何一種算法更小的均方誤差,且收斂速度最快,在精度要求較高時,該算法的優(yōu)點尤其突出。本文選擇LM算法對BP網絡進行訓練。
(5)學習速率的選擇。一般情況下傾向于選擇較小的學習速率以保證訓練過程的穩(wěn)定性,但是過小的學習速率會導致訓練時間過長,收斂速度很慢,無法保證網絡的誤差值跳出誤差曲面的低谷而最終趨于最小誤差,一般選擇范圍在0.01~0.9之間。
3 系統仿真及測距結果
深井供電系統仿真模型如圖2所示。各模塊參數如下:進線電纜(In line)采用YJV42,線路正序參數為:R1=0.078/km,L1=0.27mH/km,C1=0.695F/km,零序參數為:R0=0.106/km,L0=1.223mH/km,C0=0.358F/km;配電電纜(Line)采用YJV32;采區(qū)電纜(Mine line)、負荷電纜(Load line)采用UPQ,正序參數為:R1=0.024/km,L1=0.516mH/km,C1=0.308F/km,零序參數為:R0=0.196/km,L0=3.98mH/km,C0=0.203F/km;采區(qū)變壓器(MineT1)型號為KBSG-200/6/0.69kV,Ud%=4%,I0%=2.5%;隔爆移動變電站(MineT2)選用KBSGZY-315/6/1.2kV,P0=1400W,Pd=2200W。負荷變壓器采用SL7-100/6/0.4kV。線路長度分別為:進線電纜取1km;
配電電纜1、3、4取0.5km;配電電纜2取0.4km;采區(qū)電纜長度均取0.3km;負荷電纜取0.2km。電源線電壓有效值6.3kV,X/R ratio=7。
考慮配電線路1在不同故障點位置和過渡電阻下發(fā)生單相接地故障(數據窗取故障前1ms至故障后4ms共5ms)得到的暫態(tài)零序電流經小波包分析后(3,3)、(3,7)頻帶的模極大值(為防止邊界效應引起的信號值突變,取前2000個采樣值進行模極大值分析)經歸一化處理后所形成的訓練和測試樣本集,對BP網絡進行訓練,并測試網絡的測距性能。
選取的訓練樣本集如下:
(1)過渡電阻值分別為0.01、5、50、100、150、200、250、300、350、400、450、500;
(2)在靠近線路兩端發(fā)生故障時,應適當減小故障距離以提高測距精度。故障點位置分別為:0.01km、0.02km、0.025km、0.075km、0.125km、0.175km、0.225km、0.25km、0.3km、0.325km、0.375km、0.425km、0.475km、0.48km、0.49km。
組合兩因素可形成12×15=180個訓練樣本集。
訓練誤差曲線如圖3所示,經2794次迭代后誤差收斂于0.00099829,基本達到了設定的目標誤差0.001。
為檢驗訓練后BP網絡的推廣能力即測距效果,采用非訓練樣本集進行測試,選取的測試樣本集如下圖3:
圖3 BP網絡訓練誤差性能曲線
(1)過渡電阻值分別為25、75、125、175、225、275、325、375、425、475;
(2)故障點位置分別為0.015km、0.05km、0.1km、0.15km、0.2km、0.275km、0.35km、0.4km、0.45km、0.485km。
組合兩因素形成10×10=100個測試樣本集。
對于給定的測試樣本集,經BP網絡前饋運算得到的實際測距結果及相對誤差分別如表1、表2所示。
其中,L表示實際故障距離,l表示測量距離。
相對誤差e=(實際故障距離-測量距離)線路總長×100%。
由表2可知,對于測試樣本集,訓練后的BP網絡測距相對誤差隨過渡電阻值的增加有增大的趨勢,最大誤差達到了-16.56%,且出現在過渡電阻為475時,同時注意到在故障點接近線路兩端時,由于適當增加了訓練樣本,測距相對誤差明顯減小,因此,通過增加訓練樣本數量有望進一步提高測距精度。
4 結論
通過研究得出以下結論:
1)采用小波包提取故障暫態(tài)零序電流的模極大值能有效表征故障時所蘊含的物理現象,為準確進行故障測距提供了有效的數據。
2)BP神經網絡具有良好的分類及擬合功能,能在獲得大量樣本數據的基礎上,訓練出符合要求的前饋型網絡,為煤礦井下電網故障測距提供強有力的手段。從測距相對誤差結果來看,基于小波分析與BP神經網絡的故障測距方法能基本滿足測距要求。另外,本文下一步的工作將在樣本集數量、網絡結構等方面進行更為深入的研究。
【參考文獻】
[1]丁恩杰,王超楠,崔連成.礦井配電網輸電線路故障測距方法的研究[J].中國礦業(yè)大學學報,2006,35(3):311-316.
[2]竇新宇,李春明.小電流接地系統行波測距方法研究[J].電力科學與工程,2010,26(2):51-53.
[3]季濤.基于暫態(tài)行波的配電線路故障測距研究[D].濟南:山東大學,2006.
[4]姚李孝,趙化時,柯麗芳,等.基于小波相關性的配電網單相接地故障測距[J].電力自動化設備,2010,30(1):71-74.
關鍵詞:堆疊去噪自編碼器;垃圾郵件;分類;支持向量機;貝葉斯方法
中圖分類號: TP393.098
文獻標志碼:A
0引言
電子郵件因為易于使用、速度快、溝通方便等原因,已經成為人們重要的聯系方式,但與此同時,垃圾郵件的數量卻急劇地增加:卡巴斯基實驗室的研究發(fā)現,2014年第1季度的垃圾郵件數目占總郵件的66.34%;McAfee實驗室2015年2月的威脅報告表明,2014年,垃圾郵件數量大概為31.2萬億,占該年郵件總量的69.02%。其中大部分垃圾郵件帶有商業(yè)性質,但有些郵件可能會包含病毒和其他具有危害性質的內容,給用戶帶來精力的損耗和財力上的損失,文獻[1]表明,由于垃圾郵件的原因,美國接近360萬用戶的損失高達32億美元。大量的垃圾郵件同時造成帶寬浪費和郵件系統超載。
垃圾郵件過濾方法用來解決上述問題。垃圾郵件過濾的目的是為了隔離垃圾郵件和合法郵件。一般的過濾方式包括:郵件客戶端擴展和郵件服務終端過濾過程,簡單郵件傳送協議(Simple Mail Transfer Protocol,SMTP)和基于機器學習算法的方法是最常用的垃圾郵件過濾方法。一般來說,基于SMTP的過濾方法通常是指SMTP流量的檢測、電子郵件交換路由驗證和經過身份驗證的SMTP會話?;趩l(fā)式規(guī)則的方法、黑名單/白名單的方法、協同垃圾郵件過濾也可以用來過濾垃圾郵件。機器學習方法包括郵件的分析和分類算法的部署。
文獻[2]表明在諸多過濾方法中,機器學習算法獲得更多的應用和更好的性能。貝葉斯過濾器因為計算效率高、過濾性能良好得到了廣泛的應用,文獻[3]比較了7個版本的貝葉斯過濾器,得出布爾樸素貝葉斯(Boolean Naive Bayes)、多項式布爾樸素貝葉斯(Multinomial Boolean Naive Bayes)、基本樸素貝葉斯(Basic Naive Bayes)具有較好的性能;文獻[4]提出了一些方法用來改進樸素貝葉斯過濾器,提高了過濾器的準確率; 文獻[5]將不同種類核函數和數據表示的支持向量機應用到垃圾郵件過濾中;文獻[6]提出了混合Taguchi方法、Staelin方法來優(yōu)化支持向量機參數的選擇過程,并且提高了準確率。其他的諸如隨機隨林、人工神經網絡、提升方法(boosting)和裝袋(bagging)等方法也被應用到了垃圾郵件過濾。近年來隨著社交網絡、云計算、網格計算、語義網絡等技術的發(fā)展,出現了許多基于上述技術的垃圾郵件分類器;隨著垃圾郵件中圖像的增加,出現了基于圖像的垃圾郵件分類器,文獻[7]對新技術和圖像分類應用進行了介紹。文獻[8]比較了不同的特征選擇和降維技術對垃圾郵件過濾的影響。文獻[9]研究表明:相對支持向量機(Support Vector Machine, SVM)、提升方法(boosting)、最大熵方法等“淺層學習”方法而言,深度學習所學得的模型中,非線性操作的層級數更多。 淺層學習依靠人工經驗抽取樣本特征,網絡模型學習后獲得的是沒有層次結構的單層特征;而深度學習通過對原始信號進行逐層特征變換,將樣本在原空間的特征表示變換到新的特征空間,自動地學習得到層次化的特征表示。
去噪自編碼器(Denoising Autoencoder, DA)是深度學習中的變形結構,和受限玻爾茲曼機、自編碼器[9](Autoencoder)一樣作為深度學習架構中的訓練模塊,具有良好的學習數據集特征的能力。通過多個DA的堆疊可形成堆疊去噪自編碼器(Stacked Denoising Autoencoder,SDA) [10]。SDA訓練過程中的無監(jiān)督學習過程和對數據的破壞過程,能進一步學習到數據集中的特征和數據結構,同時學習得到的隱含表示更適用于有監(jiān)督分類。文獻[11]的研究表明,在大部分情況下,SDA要優(yōu)于深度置信網絡[9](Deep Belief Network, DBN),并且因為SDA不需要吉布斯采樣,所以訓練更加容易。
本文將一個5層神經網絡結構的堆疊去噪自編碼器應用到垃圾郵件過濾,在6個公開數據集上進行測試,使用準確率、召回率和馬修斯相關系數作為測量標準,與在垃圾郵件過濾中應用最為廣泛的支持向量機算法、3種貝葉斯算法和DBN進行比較。結果表明,相對于其他幾種算法:堆疊去噪自編碼具有最好的平均性能和較好的預測能力。
1堆疊去噪自編碼器
1.1去噪自編碼器
自編碼器 (Autoencoder) [9]的學習只是簡單地保留原始輸入數據的信息,并不能確保獲得一種有用的特征表示。因為自編碼器可能僅僅簡單地拷貝原始輸入,或者簡單地選取能夠稍微改變重構誤差,卻不包含特別有用信息的特征。為了避免上述情況,并且能夠學習更好的特征表示,需要給數據表示一定的約束。去噪自編碼器可以通過重構含有噪聲的輸入數據來解決該問題。
去噪自編碼器所要實現的功能就是學習疊加噪聲的原始數據,而它學習到的特征與從未疊加噪聲的數據學到的特征幾乎一樣, 但去噪自編碼器從疊加噪聲的輸入中學習得到的特征更具魯棒性,并且可以避免自編碼器遇到的上述問題,簡單地學習相同的特征值。
去噪自編碼器通過一個隨機的映射變換x~qD(x′|x),對原始輸入數據x進行“破壞”,從而得到一個有部分損壞的數據x′, 其中D表示數據集。
去噪自編碼器由編碼器(encoder)、解碼器(decoder)和隱含層組成。編碼器是輸入x∈[0,1]d 的”破壞”版本x′到隱含表示 y∈[0,1]d′的映射,表示為:
y=fθ(x)=s(Wx′+b)(1
這個映射的參數集合是θ={W,b},s是一個非線性的函數,例如sigmoid,W是一個的d×d′權值矩陣, b是一個偏置向量。
解碼器函數gθ′(y)將隱含表示映射回重構表示z∈[0,1]d,表示為:
z=gθ′(y)=s(W′y+b′)(2
這個映射的參數集合是θ′={W′,b′},逆映射的權值矩陣W′可被約束為權值矩陣W的轉置:即W′=WT,被稱為去噪自編碼器捆綁權重。b′是一個偏置向量。
這樣每個訓練樣例x(i)被映射成一個y(i)和一個重構表示z(i),然后通過不斷地調準優(yōu)化這個模型的所有參數,從而獲得最小平均重構誤差:
L(x,z)=x-z2(3)
使z盡可能地接近初始輸入x,并且z是x′的函數。 定義聯合分布函數為:
q0(X,X′,Y)=q0(X)qD(X′X)δfθ(X′)(Y)(4)
其中:X,X′,Y是隨機變量,Y是X′的映射函數, q0(X,X′,Y)以θ為參數。這時就可以通過梯度下降算法最小化目標函數:
arg minθ,θ′ Eq0(X,X′)[L(X,gθ′(fθ(X′)))](5
去噪自編碼器的結構圖如圖1所示。
圖片
圖1去噪自編碼器結構
1.2堆疊去噪自編碼器
深度神經網絡可以分為3類:1)生成性深度結構,描述數據和相應類別的聯合概率分布,如DBN; 2)區(qū)分性深度結構,提供對模式分類的區(qū)分性能力,通常描述數據的后驗分布,如卷積網絡和堆疊去噪自編碼器; 3)混合型結構,目標是區(qū)分性的,但通常利用生成型結構的輸出會更易優(yōu)化。
通常情況下,由于網絡權值的隨機初始化,基于梯度的優(yōu)化容易陷入局部最小值。文獻[12]提出了一種新的貪婪逐層非監(jiān)督算法來初始化深度學習網絡,文獻[10]使用此算法來初始化基于降噪自編碼器的堆疊去噪自編碼器。訓練整個網絡的參數后,在使用基于梯度的算法如梯度下降法來微調網絡參數。SDA初始化方法的有效性[13]在多個數據集中得到驗證。正如受限玻爾茲曼機的堆疊形成深度置信網絡,去噪自編碼器的堆疊可形成堆疊去噪自編碼器。用疊加噪聲輸入訓練每層網絡的去噪能力,這樣訓練出來的每層編碼器可作為一個具有容錯性能的特征提取器,同時學習得到的特征表示具有更好的健壯性。
SDA 的網絡結構如圖2 所示。通過圖1中的步驟首先破壞原始數據,然后最小化重構誤差,訓練第1層去噪自編碼器,從而學習得到了編碼器函數fθ。接下來使用此函數學習原始的數據(如圖2(a)所示),得到的結果作為第2層去噪自編碼器的輸入,用來訓練第2層的去噪自編碼器(如圖2(b)所示),從而學習到第2層的編碼器函數f(2)θ。然后重復這一過程(如圖2(c)所示),直至所有的去噪編碼器層都已經訓練完成為止。
圖片
圖2堆疊去噪自編碼器的結構
為了讓堆疊去噪編碼器具有分類識別的功能,需要在堆疊自編碼器神經網絡的最后一個隱藏層之后加個sigmoid分類器,將整個神經網絡訓練成能完成分層特征提取和數據分類任務的多重感知器。然后利用有監(jiān)督學習規(guī)則,在監(jiān)督學習損失函數上使用梯度下降算法,實施微調,最小化預測目標的誤差,不斷調整整個網絡的參數。微調結構如圖3所示。
圖片
圖3分類深度網絡的微調結構
2堆疊去噪自編碼器實現
2.1堆疊去噪自編碼器的參數更新
去噪自編碼器的最終目的是找出模型最合適的參數,可以按照如下步驟更新參數。
初始化模型參數:輸入數據、可視節(jié)點個數、隱層節(jié)點個數、輸入數據破壞比例和更新的學習率(learning rate),權值矩陣和偏置向量;根據數據破壞比例,隨機選取原始數據,將其值設置為0,達到破壞數據的目的;使用sigmoid函數計算輸入數據的隱藏表示和重構表示;計算輸入數據的重構誤差;對重構誤差使用梯度下降算法,更新參數。具體過程如算法1。
算法1Denoising AutoEncoder。
程序前
輸入: X, n_vis, n_hid, c_r, l_r;
輸出: W, b, b′。
X′=get_corrupted_input(X, c_r)
1
for iter from 1 to iteration
2)
Y=get_hidden_units(X′, W, b)
3)
Z=get_reconstruction_units(Y, W, b′)
4)
cost=get_cost(X, Z)
5)
for param in parameters(W, b, b′)
6)
gparam=get_gradient(cost, param)
7)
param=param-l_r * gparam
8)
end for
9)
end for
程序后
2.2堆疊去噪自編碼器的預訓練
在堆疊去噪自編碼器的預訓練步驟中,首先應該確定隱藏層的數目,一般情況下,使用3層的去噪自編碼器構成深度學習網絡來訓練堆疊去噪自編碼器;每一層都訓練成去噪自編碼器,并且通過最小化重構誤差,更新參數10次以上。第i-1層的輸出即為第i層的輸入,這樣通過自底向上的方式訓練堆疊去噪自編碼器。每一層的數據破壞比例和隱藏節(jié)點個數可以互不相同;最后獲取整個網絡的參數。訓練步驟如算法2。
算法2Pretrain Step。
程序前
輸入:X,n_layers, n_vis, n_hid[n_layers],c_r[n_layers], l_r[n_layers];
輸出:dA_layers[n_layers], Y_out=X。
1
for i from 1 to n_layers
2)
X′=get_corrupted_input(Y_out,c_r[i])
3)
for iter from 1 to iteration
4)
Y=get_hidden_units(X′,W[i],b[i])
5)
Z=get_reconstruction_units(Y,W[i], b′[i])
6)
cost=get_cost(Y_out, Z)
7)
for param in parameters(W[i], b[i], b′[i])
8)
gparam=get_gradient(cost,param)
9)
param=param-l_r[i] * gparam
10)
end for
11)
end for
12)
Y_out=Y
13)
end for
程序后
2.3堆疊去噪自編碼器的微調
在堆疊去噪自編碼器的微調過程中,使用有監(jiān)督學習方法優(yōu)化從預訓練步驟中獲得的模型參數。由于最后一個隱含層只能輸出原始數據的重構,因而不具有分類識別功能。為了讓堆疊去噪編碼器具有分類識別的功能,需要在完成微調的神經網絡的輸出層之后加入sigmoid分類器,將整個神經網絡訓練成能完成分層特征提取和數據分類任務的多重感知器。多重感知器的sigmoid層的參數和預訓練步驟中去噪自編碼器的sigmoid函數具有相同的參數,因此可以通過最小化多重感知器的預測錯誤來不斷微調模型的參數。微調步驟作用在整個堆疊去噪自編碼器過程。微調的過程如算法3。
算法3Fine Tuning Step。
程序前
input: train_batches, test_batches, iteration, l_r
1
while iter < iteration do
2)
for batch in train_batches
3)
cost=get_finetuning_cost(X)
4)
for i from 1 to n_layers
5)
for param in parameters(W[i], b[i], b′[i])
6)
gparam=get_gradient(cost, param)
7)
param=param-l_r[i]*gparam
8)
end for
9)
end for
10)
valid_error=get_valid_error(batch)
11)
if valid_error
12)
update best_valid_error
13)
test_error=get_test_error(test_batches)
14)
if test_error
15)
update best_test_error
16)
end if
17)
end if
18)
end for
19)
end while
程序后
3實驗與分析
3.1數據集
3.1.1數據集描述
實驗中使用了6個著名的、數據量比較大的、公開的數據集Enron[14]。其中Enron1、Enron2和Enron3的合法郵件占多數,而Enron4、Enron5和Enron6的垃圾郵件占多數。Enron數據集中正常郵件是從Enron公司的前員工的郵箱中收集的,垃圾郵件則有不同的來源。6個數據集的具體組成如表1。
3.1.2數據集預處理
1)分別從垃圾郵件文件夾和合法郵件文件夾,按照30%的比例隨機選取文件,然后合起來作為測試集,剩余的70%合起來作為訓練集。
2)分別對訓練集和測試集進行分詞處理,字母小寫化和去除停用詞。
3)將訓練集和測試集表示為詞頻逆文檔(Term FrequencyInverse Document Frequency, TFIDF)的向量形式。
4)使用特征值提取技術對特征值進行提取,選取3000個特征值作為實驗特征。
3.2實驗性能測量標準
比較出名的性能指標有垃圾郵件準確率(Spamming precision, Spr),垃圾郵件召回率(Spamming recall, Sre),合法郵件準確率(Legitimate email precision, Lpr),合法郵件召回率(Legitimate email recall, Lre),準確率(Accuracy, Acc)。在分類時,垃圾郵件的類標設置為1(正例),合法郵件的類標設置為0(負例)。其中分類的混淆矩陣(confusion matrix)如表2所示,真正例(True Positive, TP),假負例(False Negtive, FN),假正例(False Positive, FP),真負例(True Negtive, TN)。
表格(有表名)
文獻[15]的研究表明,在機器學習的分類問題中,馬修斯相關系數(Matthews Correlation Coefficient,MCC)是最好的性能測試指標之一。相比其他的指標,MCC對于準確率提供了更為平衡的測量。MCC值的返回值介于-1和+1之間:+1,表明是完美的預測;0,表明是隨機的預測;-1,則表明是一個相反的預測。MCC的計算式如下:
MCC=TP*TN-FP*FN(TP+FP)(TP+FN)(TN+FP)(TN+FN)(6
MCC同時提供了相對合理的評價:現實情況下,垃圾郵件的數目要比合法郵件的數目更高,因此MCC可以自動調整一個假正例(即合法郵件分類為垃圾郵件)錯誤相對于一個假負例錯誤的嚴重程度,隨著垃圾郵件相對于合法郵件的比例的上升,一個假正例錯誤會比一個假負例錯誤更加嚴重,即MCC值會降低。
3.3實驗結果與分析
3.3.1隱藏層節(jié)點數目選擇對實驗的影響
由文獻[10-11]中一系列的參數實驗可以總結出,在大部分數據集上,SDA一般使用三層隱藏層就可以達到較優(yōu)的效果,因此本文中使用三層的隱藏層。
首先指出,圖4和圖5中的最低點Acc值是0.7101。這種情況是SDA把所有的郵件都分類為垃圾郵件。圖4中,350,650,950是第一層隱藏層的節(jié)點數目,30表示第三層隱藏層的節(jié)點數目;圖5中,350,650,950是第一層隱藏層的節(jié)點數目,500表示第二層隱藏層的節(jié)點數目。
圖4中,固定第一、三隱藏層的節(jié)點數目,SDA在數據集Enron 5上的Acc值隨著第二層隱藏層節(jié)點數目的改變而變化。從圖4中可看出,固定第一、三隱藏層節(jié)點數目時,當第二層節(jié)點個數過小或者過大時,Acc值會達到最低點0.7101,而第二層節(jié)點個數處于兩者之間時,Acc值正常波動。第二、三隱藏層節(jié)點固定時,可以看出,當第一層的節(jié)點數目越大時,第二層隱藏層節(jié)點的數目受到的限制更大。
對于圖4中出現的隨著第二層隱藏層節(jié)點數目的增加,Acc值會降至最低,可以通過改變第三層隱藏層節(jié)點數目來改變。圖5中,固定第一、二隱藏層節(jié)點的數目,SDA在數據集Enron 5上的Acc值隨著第三層節(jié)點數目的改變而變化??梢钥闯?,為了取得較優(yōu)的結果,第一層隱藏層的節(jié)點數越多,第三隱藏層需要的節(jié)點數也越多。
3.3.2在6個數據集上的實驗結果
為了書寫方便,下面描述中,Basic表示基本樸素貝葉斯方法、Bool表示布爾樸素貝葉斯方法、MN Bool表示多項式布爾樸素貝葉斯方法。
在6個Enron 數據集上的實驗結果如表3~8所示,其中加下劃線的數據表示該實驗中最大的MCC值。
表格(有表名)
表3Enron1上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic91.3385.0993.4896.3692.860.831
Bool96.0051.6163.3297.4972.780.540
MN Bool82.6762.0079.3591.8280.310.578
SVM83.3387.4195.1193.7091.700.796
DBN91.5690.7596.1996.5494.850.875
SDA90.2292.9197.1896.0595.160.882
表格(有表名)
表4Enron2上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic80.0097.5799.3193.5394.380.850
Bool95.3381.2592.4598.3093.190.836
MN Bool74.0098.2399.5491.7793.020.814
SVM90.6790.6796.8096.8095.230.875
DBN95.9891.6897.0298.6096.750.916
SDA95.9895.5698.4798.6297.830.943
表格(有表名)
表5Enron3上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic57.33100.00100.0086.2788.410.703
Bool99.3399.3399.7599.7599.640.991
MN Bool62.00100.00100.0087.5889.670.737
SVM91.3396.4898.7696.8396.740.917
DBN96.4489.6795.8498.6396.000.903
SDA92.6799.2999.7597.3297.820.945
表格(有表名)
表6Enron4上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic94.67100.00100.0086.2196.000.903
Bool98.00100.00100.0094.3498.500.962
MN Bool96.89100.00100.0091.4697.670.941
SVM98.89100.00100.0096.7799.170.978
DBN96.9697.9894.0091.1696.220.901
SDA99.9397.2691.5699.7697.840.942
表格(有表名)
表7Enron5上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic89.6798.8097.3379.3591.890.825
Bool87.23100.00100.0076.1490.930.815
MN Bool94.29100.00100.0087.7295.950.909
SVM89.4099.7099.3379.2692.280.837
DBN96.3799.4498.6791.7497.040.931
SDA98.7399.4598.6796.9498.710.969
表格(有表名)
表8Enron6上各個分類器的實驗結果
分類器Sre/%Spr/%Lre/%Lpr/%Acc/%MCC
Basic86.0098.9897.3369.8688.330.757
Bool66.8999.6799.3350.0075.000.574
MN Bool92.8997.2192.0081.1892.670.816
SVM89.7895.2886.6773.8690.050.727
DBN96.3798.5695.7589.7996.210.902
SDA99.0498.4595.3397.0698.110.949
通過觀察6個數據集6種分類器的實驗數據可以分析:在實驗的大部分數據集上,SDA垃圾郵件過濾器的性能超過了其他幾種分類器。同時在有些情況下SDA的過濾效果遠遠地優(yōu)于SVM和NB分類器:比如在Enron6數據集上的結果表明,SDA的垃圾郵件召回率達到了99.04%,而SVM卻只達到了89.78%。這意味著在Enron6數據集上,SDA要比SVM多識別9.26%的垃圾郵件,同時因為具有比SVM更好的合法郵件召回率,所以相對于SVM,SDA垃圾郵件過濾的總體性能提升要大于9%。在實際的應用中,這些差異將會非常重要。這種對比現象在數據集Enron1、Enron2、Enron3和Enron5也可以得到。在數據集Enron4上,SDA過濾效果稍遜于SVM,但是相差不大。
對于實驗中所有樸素貝葉斯過濾器,實驗數據表明它們之間達到了相似的結果,并且不具有太大的差異性。相對堆疊去噪自編碼器過濾器和支持向量機過濾器在所有的數據集上的準確率(Acc)達到90%以上,而基于樸素貝葉斯方法的過濾效果要差些。
實驗中的DBN的分類效果,總體上要優(yōu)于其他4幾種分類器,但是SDA的分類效果要稍微優(yōu)于DBN。
表中的實驗數據表明堆疊去噪自編碼器在垃圾郵件過濾中具有更好的效果:在實驗的所有數據集上,堆疊去噪自編碼器的準確率(Acc)都高于95%;在實驗的所有數據集上,堆疊去噪自編碼器的MCC值都高于0.88,這表明堆疊去噪自編碼器應用于垃圾郵件過濾中取得相對完美的預測。上述結果表明將堆疊去噪自編碼器應用到垃圾郵件過濾中是可行的。
4結語
本文提出了一種新的基于堆疊去噪自編碼器的垃圾郵件分類器。在6個著名的、數據量較大的、公開的數據集上進行測試,將實驗結果同基于支持向量機和貝葉斯方法的垃圾郵件過濾器的結果進行比較。對比分析表明,本文所提出的垃圾郵件過濾器表現出更好的性能。特別是基于堆疊去噪自編碼器的垃圾郵件分類器在6個數據集上具有最好的平均性能并且準確率(Acc)都高于95%。這些表明將堆疊去噪自編碼器應用到垃圾郵件過濾中是可行的。
未來的工作將會集中在以下3個方面:1)如何更好地選擇深度置信網絡隱藏層數以及每層的單元個數,如何選擇學習率等參數來提高算法的性能。2)在諸如TRE05、TRE06、TRE07等更大的數據集上進行更多的實驗來驗證實驗結果,同時也希望同一些諸如Bogo filter、Spam Assassin等開源和商業(yè)垃圾郵件過濾器進行比較。3)應把垃圾郵件過濾看作是共同進化問題,因為垃圾郵件過濾器努力提高預測能力的同時,垃圾郵件遞送者也不斷地改變垃圾郵件內容的表現形式以達到欺騙過濾器的目的,因此一個有效的垃圾郵件過濾器應該能夠有效地檢測垃圾郵件特征的變化,從而不斷地調整自身的規(guī)則。
參考文獻:
[1]GARTNER. Gartner survey shows phishing attacks escalated in 2007; more than $3 billion lost to these attacks[EB/OL].[20150220].http:///it/page.jsp?id=565125.
【關鍵詞】互聯網金融 人臉識別 信息安全 身份認證
一、引言
國家建設部于“十二五”期間頒布了關于開展國家智慧城市試點工作的通知,意在通過綜合運用現代科學技術來營造社會建設和管理的新模式。伴隨著智慧經濟的建設和我國的傳統金融行業(yè)對于創(chuàng)新變革的訴求,國內的互聯網金融行業(yè)開始快速發(fā)展。人臉識別在國內互聯網金融領域的應用也借助這一浪潮拉開帷幕。
二、人臉識別技術簡介
進入21世紀,隨著計算機技術、光學技術等技術的迅猛發(fā)展,人臉識別技術逐漸成熟,步入了應用階段。人臉識別安防、考勤、支付等系統走進了我們的生活。
人臉識別算法蓬勃發(fā)展,尤其是基于深度學習的識別方法。深度學習利用其對大型數據集的優(yōu)秀預測能力突破了之前在人臉識別過程中的精準率瓶頸。深度學習算法種類繁多,目前被廣泛應用于人臉識別領域的主要是卷積神經網絡。其現主要分為四個步驟。
首先是局部感知。在處理在圖像處理中,把圖像表示為像素的向量。只對局部的聯系緊密的向量進行感知,初步降低參數;第二步是權值共享。挑選第一步中的某個局部參數提取特征,再將其作為探測器也就是卷積核,應用到圖像的任意區(qū)域,對特征進行匹配,得到不同的激活值。將符合條件的激活值篩選出來;第三步是多卷積核。挑選更多的卷積核,不斷重復第二步驟,學習更多特征;最后是池化。一個圖像區(qū)域有用的特征極有可能在另一個區(qū)域同樣適用,對不同位置的特征進行聚合統計可以簡化對于大圖像的描述,進一步降參。
三、互聯網金融的人臉識別運用
互聯網金融是借助于互聯網技術、移動通信技術來實現資金融通、支付和信息中介等業(yè)務的一種新興金融模式。毫無疑問,互聯網金融正以其獨特的運行方式和價值創(chuàng)造模式,影響著傳統金融業(yè)務,逐步成為整個金融生態(tài)體系中不可忽視的一部分。
(一)互聯網金融面臨的風險
互聯網金融行業(yè)也同傳統金融行業(yè)一樣,它們的核心問題都是如何預防和處理風險。目前我國的互聯網金融行業(yè)面臨著政策法律風險、監(jiān)管風險、流動風險、市場風險、信用風險、技術風險這六大風險。
(1)信用風險?;ヂ摼W金融的信用風險主要來自于對客戶的真實身份的認證帶來的信息不對稱問題。由于國內的互聯網信用業(yè)務還沒有得到很完善的監(jiān)管,互聯網金融的虛擬性就會給對客戶身份的認證帶來不確定性素。例如,一些用戶在P2P網貸平臺進行身份信息造假騙取貸款。
(2)技術風險?;ヂ摼W金融是互聯網與金融的結合產物,自然避免不了對于網絡信息安全的要求。傳統的字符密碼具有可復制性,容易被網絡黑客、木馬病毒所竊取,造成不必要的損失。傳統的字符密碼認證對互聯網金融企業(yè)的網絡技術安全提出了更高的要求,而我國的互聯網金融企業(yè)大多還在成長階段,無法維護龐大的信息數據庫,給行業(yè)帶來了很大的技術風險。
(二)人臉識別技術降低信用風險與技術風險
人臉識別技術依靠人臉獨特性、難以復制性等優(yōu)勢可以很大程度上降低互聯網金融的信用風險和技術風險。目前,國內的云從科技、Linkface等科技公司都在LFW數據庫的實驗環(huán)境下,取得了99.5%以上的人臉識別成功率,高于人眼識別97.52%的準確率。
在人臉識別模式下的開戶過程需要用戶先需要出示自己的二代身份證,系統在客戶填寫開戶信息后繼續(xù)發(fā)出指令,讓客戶進行基于視頻流的身份認證,人臉識別系統會以此判別個人身份的真實性。同時,利用“活體檢測算法”、“圖像脫敏算法”以及“人臉比對算法”等算法對視頻流的背景和人像的對比分析,可以避免一些用戶利用錄制好的視頻來偽造身份信息。
識別開戶成功后,系統自動上傳用戶信息至后臺。當遇到支付等操作指令時調出信息,再次對客戶進行基于視頻流的身份認證來確定指令的安全性。
(三)互聯網金融中的人臉識別運用
(1)招商銀行“ATM刷臉取款”。我國的招商銀行一直以勇于創(chuàng)新的先行者姿態(tài)活躍于金融領域,在手機銀行和自助銀行等多種電子信息化自助服務渠道中保持著領先地位。繼在VTM渠道應用人臉識別技術以輔助柜員核實客戶身份后,又率先推出“ATM刷臉取款”業(yè)務。首先收集客戶的可信照片,再主要利用人臉識別技術并輔之以手機號碼驗證和密碼驗證來確認客戶信息,誤識率在萬分之一以下。
這是國內銀行首次將人臉識別技術應用到自助提款機上,也意味著招行“智能銀行”再一次取得進展。
(2)螞蟻金服的人臉識別體系。螞蟻金服起步于阿里巴巴集團的支付寶,致力于推進互聯網支付、消費、理財。螞蟻金服于2015年在支付寶上推出人臉識別的功能,已在用戶登錄、實名認證、找回密碼、商家審核、支付風險校驗等多個場景中投入使用,利用人臉識別代替?zhèn)鹘y的密碼輸入。同年,阿里巴巴董事局主席馬云在德國漢諾威消費電子、信息及通信博覽會上展示了螞蟻金服的“smiletopay”技術,用手機“刷臉支付”的方式在網上購買了一張1948年的漢諾威紀念郵票,完美展示了計算機人臉技術在支付中的應用。此項技術還在不斷完善,螞蟻金服的刷臉支付功能正式投入商用指日可待。
(四)人臉識別目前存在的問題
(1)沒有統一的安全標準。人臉識別技術領域的實際應用還在起步階段,目前還沒有統一的行業(yè)標準與國家標準,主要都是技術廠家自己制定標準。然而廠家標準制定的不一致,會導致不同的安全狀況與安全水平。只有通過制定統一的國家安全標準,才能解決人臉識別在技術推廣過程中的障礙。
(2)識別中的“矯枉過正”。當人臉識別技術被作為加密技術投入實際應用時,我們最看重的就是它的安全性。而人臉識別技術的安全性可以用誤接受率與誤拒絕率兩個指標來衡量。為了嚴格保證安全,技術廠商往往會盡量降低誤接受率,但這同時會提高誤拒絕率,使一些真正的用戶也會被系統拒絕,“矯枉過正”,影響了用戶體驗。
(3)可信照片的分辨率低。目前互聯網金融行業(yè)在使用人臉識別技術進行開戶等操作時,用于確定客戶信息的可信照片往往是居民二代身份證。而二代身份證的照片不僅分辨率低而且信息量少,這會降低人臉注冊、識別的準確率。
(4)人臉的變化。隨著時間的推移,用戶的年齡增長,會發(fā)生胖瘦、常規(guī)的化妝、自然老化等變化。通常情況下,這些變化是在計算機的識別范圍內的,但是如果出現整容、過濃的妝容、或者是佩戴眼鏡與一些裝飾性的飾物可能就會影響人臉識別的識別率。同時,由于雙胞胎、多胞胎的人臉信息過于相像,雙胞胎、多胞胎人臉信息的分辨在人臉識別技術中也是一個待攻克的難題。
四、未來發(fā)展應用趨勢
(一)發(fā)展展望
(1)制定統一的行業(yè)標準。為了保障人臉識別技術在應用過程中的安全性、規(guī)范性,有關的人臉識別科技公司和互聯網金融企業(yè)等應該聯合國家相關機構,加速人臉識別技術系列標準和規(guī)范的起草進一步規(guī)范人臉識別的技術指標和要求,為業(yè)務的深入和推廣提供基礎參考。
(2)突破對源圖信息提取瓶頸。計算機人臉識別技術中很關鍵的一環(huán)就是將可信的源圖信息與后期獲取圖像的信息進行對比篩選,計算機才能做出精確的判斷。在獲取到的源圖數據不充分、不理想的時,如何對信息進行有效的提取,到目前為止還沒有很好的解決辦法。但是,伴隨著科技的高速發(fā)展,人臉識別技術的這一瓶頸在將來必定會被突破。
(3)與其他生物識別技術相結合。各種生物特征識別技術都有各自的優(yōu)缺點,在具體的應用過程中,人臉識別技術可以和虹膜、靜脈等其他生物特征識別技術相結合使用,降低對用戶的誤接受率和誤拒絕率,進一步提高身份識別的整體安全性。
(二)應用展望
(1)全方位的身份查核。人臉識別身份驗證技術的應用是對互聯網金融業(yè)務的基礎性工作的一項重要技術保障。在將來,人臉識別身份驗證技術的應用應該從單純的“登錄認證”到擴展到“支付認證”,做到全方位的身份核查,提高群眾服務的便捷性,同時保證業(yè)務更加安全、可靠。除此之外,人臉識別身份驗證技術還可以帶動其他行業(yè)的類似業(yè)務場景,從而在全社會范圍內促成更廣泛的工作流程改進和社會成本節(jié)約。
(2)全面的私人數據保護。在將來,用戶的一切經濟活動信息都可以通過人臉識別技術進行有效保護,避免敏感數據泄露,消除欺詐者利用不正當途徑來竊取用戶個人信息進行非法交易的可能,提升互聯網金融行業(yè)客戶的體驗友好程度。
五、結語
對于互網金融行業(yè)來說,改革與創(chuàng)新、提高金融服務質量和安全防范是今后互聯網金融行業(yè)發(fā)展的主要趨勢,人臉識別等高科技技術投入互聯網金融行業(yè),會對整個行業(yè)的發(fā)展起到一種非常積極的作用。未來的人臉識別技術在互聯網金融行業(yè)中的應用必會繼續(xù)朝著遠程化發(fā)展,進一步取代現在的柜臺開戶、字符密碼認證等傳統的服務流程,做到“智慧金融,智慧生活,智慧城市”。
參考文獻:
[1]李子青.人臉識別結合視頻監(jiān)控看公安與金融市場應用[J].中國安防,2015,(8).
[2]呂曉強. 生物識別技術再造銀行客戶身份認證體系[J].金融電子化,2016,(4).
[3]廖敏飛,黃瑞吟,劉麗娟. 生物識別技術在金融行業(yè)的應用現狀與前景分析[J].金融電子化,2016,(4).
本文結合計算機行業(yè)的發(fā)展,對計算機網絡云計算技術進行了分析研究,希望能為計算機技術的進步提供一定的理論支持。
一、計算機網絡的云計算技術概念
美國的網絡公司最早提出計算機網絡云計算技術的概念,隨著科學的進步與發(fā)展已經逐漸成為了一門成熟的技術,有著豐富的理論基礎與實踐經驗?,F在的“云計算”技術是指能將網絡、硬件、設備相融合,同時實現規(guī)模性、安全性、虛擬性的技術。目前來看,對計算機網絡云計算的定義還沒有統一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點是:首先,每一個“云”都是獨立的計算機分布體系,基于網絡化、虛擬化的計算機服務層,與計算機中的資源保持一定的節(jié)奏,實現計算機資源的同步。其次,計算機網絡云是一個綜合體,并非是獨立的,計算機軟件的開發(fā)中離不開云計算的環(huán)節(jié),其重點就是網絡云計算特征的研究。對于計算機網絡的使用者來說,計算機集成軟件層面,能被接受與理解的就是云計算,在本文重點突出的就是云計算的屬性。最后,計算機網絡的使用者沒有進行長期的規(guī)劃后使用,很容易出現浪費現象,目前的云計算技術可以實現分或秒內的數據計算,可以很好地避免資源過載或資源浪費現象。
通過研究可以看出,計算機網絡云計算技術可以定義成計算機網絡中進行的某種服務形式,其中相關的硬件設施與軟件系統統稱為計算機網絡云計算。定義中包括網絡計算機、超級計算機、集成技術等,相關的技術既有區(qū)別又有聯系。計算機網絡云計算技術的原理是:大量的數據分布于分布式計算機中,同時保證用戶的數據系統與計算機同步運行,進而實現及時將需要的資源切換到相應的應用中,根據使用者的訪問需求進行存儲系統與計算機系統的定位。計算機網絡云計算技術可以基于用戶服務需求及時提供所需的網絡信息資源。計算機網絡云計算技術適應性強,彈性好,專業(yè)技術性高,發(fā)展前景十分好,應用越來越廣泛。
二、計算機網絡云計算技術的分類
基于多樣化的標準,計算機云計算的分類也有多種方式。比較常見的是:根據服務方式的不同,云計算可以分為私有云和公有云。私有云是根據用戶的自身情況進行獨立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進行開發(fā)利用。在選擇私有云與公有云時,應該考慮的主要因素是:
1.服務的延續(xù)性
大部分情況下,公有云提供的服務容易受外界影響,如網絡故障等情況,而私有云則不會出現這種問題。
2.數據安全性
如果對于穩(wěn)定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監(jiān)控能力
公有云可以將使用用戶對系統的監(jiān)控能力屏蔽起來,這對于金融保險投資行業(yè)是十分有必要的。
三、計算機網絡云計算技術的實現
為了將計算機系統的系統處理過程進行簡化,通常將該過程劃分為預處理過程與功能實現過程兩大部分。對系統的各項功能進行分解,得到一些不需要進行功能實現過程與預處理過程的功能。對于可以進行預先處理過程的功能通常是一次性處理,在執(zhí)行過程中,可以將預處理過程得到的結果直接使用,以此完成特點的系統功能。該方法與原則的采用,極大地簡化了系統,大幅度提高了系統運行效率。計算的云化中的系統就是計算云化系統,它的計算量十分巨大,系統計算運行效率極高。但因為計算云化系統為一次處理系統,只要計算云規(guī)則生成,計算云化系統的使命與任務也就完成,而不是在對計算機加以應用時需要該系統。通常在計算機網絡云計算中形成的系統就是云計算系統,是一個十分簡單的系統,對計算機的處理能力沒有過高要求,同時應用于各類計算機系統計算中。
四、計算機網絡云計算的計算與優(yōu)勢
建立計算機網絡云計算過程的第一步是服務器架構的建立,其對計算機網絡云計算技術中的IAAS部分進行充當。目前來看,仍沒有關于網絡云計算服務器架構的專門、統一的標準出現,這需要一定的相關技術進行支持,例如計算區(qū)域網SAN和附網NAS等,這都是應用比較多的服務器架構技術。NAS文件計算系統是松散結構型的集群,它的架構有很明顯的分布式特征。NAS文件系統集群中的各個節(jié)點具有互補與相互影響的特點,文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數據信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統安全穩(wěn)定。如果客戶發(fā)出過多的請求,NAS系統的限制就表現出來,二級計算就可以通過NAS的云服務完成。
SAN是一種緊密結合類型的集群,在集群中存儲文件之后,可以分解成很多個數據塊。相比于集群之中的節(jié)點,各數據塊之間能夠進行相互訪問。節(jié)點可以借助于訪問文件間的數據塊針對客戶的請求進行處理。SAN系統之中可以通過節(jié)點數量增減來響應請求,同時提升界定本身的性能。為了能夠將以SAN為基礎的OBS發(fā)展起來,就需要更好的性能與更低的成本。而SAN計算建構的硬件價格十分高,同時依托于SAN的服務價格,因此可以適當地降低一下性能,保證更好的性能與更低的成本。
五、實例――基于谷歌云計算技術的AlphaGo亮點分析
AlphaGo通過谷歌云計算技術,擁有與人類棋手類似的“棋感”,其技術遠勝于1997年IBM公司研制的超級電腦“深藍”?!吧钏{”面對的是相對圍棋簡單多的國際象棋,設計理念為根據棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術,可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運算能力都集中在“棋感策略”網絡中最有可能的情況上。其背后的深層算法,具備三大亮點:(1)深度卷積神經網絡學習技術:“棋感策略”網絡的本質學習人類圍棋大師走法思維。AlphaGo藉此擁有強大的盤面評估能力。(2)增強學習算法技術:此算法可通過自我對弈來持續(xù)提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術:“評價網絡”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機網絡云計算技術發(fā)展遇到的問題
在目前計算機網絡云計算技術廣泛地運用到各個領域的過程中,云計算技術也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應用過程中應采用足夠的措施來對數據信息的安全性進行可靠的保障,這是計算機網絡云計算技術發(fā)展過程中十分重要的一項課題?,F在的大部分云端是通過瀏覽器進行接入的,瀏覽器是計算機系統中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認證密鑰特別容易因為瀏覽器漏洞而產生泄密。同時由于不同的應用都需要在云端中進行認證,這就需要保證認證機制的高效性與安全性。在應用服務層之中,應該采取安全有效的措施來保護用書的隱私安全,在基礎設施層中要采取安全可靠的方法保C數據的安全性。
七、采取措施保障網民數據安全
如果數據的安全不能得到保障,就會對云計算的發(fā)展產生不利影響,所以為了能夠保障網民數據的安全。就需要采取切實可行的手段來保證數據的安全性。
1.隔離操作系統與數據
為了能夠切實有效地保障網民信息的安全,就需要充分使用Hypervisor,從而將網民的操作系統與數據資源隔離起來,從而有效地保證了計算資源的安全性,避免了網民操作系統所帶來的可能的不利影響。
2.重置API保護層
服務商提供給用戶API,用戶根據需要進行應用。但同時第三方也有可能對這些API進行使用。為了保證數據的安全性,就需要你安裝API保護層,重疊保護API。
3.嚴格身份認證
服務商應嚴格的執(zhí)行身份認證,防范冒充網民身份的行為,加強對賬號與密碼的管理控制,確保網民只訪問自己的程序與數據,從而保證數據資源的安全性。
關鍵詞: 極低信噪比環(huán)境; 基音頻率; 進化算法; 遺傳算法; 粒子群算法
中圖分類號: TN912.3?34 文獻標識碼: A 文章編號: 1004?373X(2017)11?0046?07
Evolutionary algorithm based fundamental tone frequency
detection in low SNR environment
ZHANG Xiaoheng1, 2, LI Yongming2, XIE Wenbin2
(1. Chongqing Radio & TV University, Chongqing 400052, China; 2. College of Communication Engineering, Chongqing University, Chongqing 400030, China)
Abstract: A frequency?domain detection model was constructed. The fundamental tone frequency is extracted as characteristic value. The model parameter (optimization factor) is introduced into the detection model, for which the global optimization is carried out with evolutionary algorithm (EA) to get the global optimum of the fundamental tone frequency, and obtain a better balance in optimization accuracy and time cost. Two representative EAs (genetic algorithm (GA) and particle swarm optimization (PSO) algorithm) are used to perform the algorithm design. The proposed algorithm is compared with the other representative algorithms. The comparison results show that the proposed algorithm can improve the detection recognition rate greatly in the noise environments of different types and different degrees, especially in the very?low SNR environment.
Keywords: very?low SNR environment; fundamental tone frequency; evolutionary algorithm; genetic algorithm; PSO
0 引 言
基音頻率是語音信號最為重要的參數之一。準確有效地檢測基音頻率對很多語音技術起著極為關鍵的作用,如說話人檢測、跟蹤、語音分離及識別等。盡管基音頻率檢測已經研究多年,并取得了一系列成果,但相關算法大都適用于高信噪比環(huán)境,而實際應用中,大多數語音都處于復雜惡劣的噪聲環(huán)境中。因此,針對低信噪比環(huán)境,特別是-5 dB以下的基音頻率檢測算法的研究,對實現性能優(yōu)良、實用的語音處理技術,取得實效應用有著重要的現實意義[1?4]。
基音頻率檢測的有效性依賴于語音信號諧波結構的完整性,噪聲疊加造成諧波結構被破壞,而隨著信噪比的下降最終難以分辨一個完整的諧波周期。因此低信噪比下實現優(yōu)良的檢測性能具有較大難度[5?9]。
由于語音信號參數隨時間變化緩慢,相鄰多個語音幀信號參數會保持一定連續(xù)性,因此典型的基音頻率檢測算法可以分為兩個階段[10]:第一個階段找出基音頻率的多個可能候選值,或者計算基音頻率值落在不同頻率區(qū)間的概率。第二階段一般依賴DP[11]或HMM[12]算法,從多個候選值選出最終的基音頻率值。這些算法大都利用了相鄰語音幀數據之間的相關性找出最優(yōu)的基音頻率序列值,從而使得整體的后驗誤差概率最低。但這類利用數據間強相關性的算法本身也會導致一定錯誤。此外,該類算法對相關性的過高要求在現實中常常難以得到較好滿足。
為了抑制噪聲,目前研究的方法一般分為參數化方法和非參數化方法兩類[13]:參數化算法采用統計方法對諧波結構進行建模,其典型的代表算法有GMM[14]算法;非參數化算法一般從頻域的諧波結構或者時域的周期特性入手,通過對頻域或時域峰值的檢測得到基音頻率,其典型的代表算法有RAPT[15]算法和YIN[16]算法,但這類方法在信噪較高時比較有效,而當信噪比較低時其峰值特性很容易湮沒在噪聲之中從而使得難以檢測出基音頻率。
近年在該領域有一些研究成果出現,如HSAC?SAMSF[17]算法對諧波進行自相關運算,然后作對稱性相加求和來尋找基音周期,該算法充分利用語音的諧波特性,并通過DCT相關運算及對稱累加運算抑制噪聲;TAPS?CA[18]算法對頻域信號進行相關運算,并利用稀疏矩陣對其進行重建,該算法利用短時譜的自相關運算抑制噪聲,在高信噪比環(huán)境利用最小均方誤差法求取稀疏矩陣,在低信噪比環(huán)境下利用GMM法對誤差信號進行建模,從而得到最優(yōu)稀疏矩陣。PEFAC[13]算法是最近提出的性能優(yōu)良的基音頻率檢測算法,其通過對信號的對數譜進行壓縮以求取峰值信號,充分利用噪聲統計特性及幅度譜的壓縮抑制噪聲,具有極低信噪比環(huán)境下較好的抗噪聲干擾能力,且在-20~20 dB信噪比下均性能良好?;谌斯ど窠浘W絡的基音頻率檢測算法[10]也利用了PEFAC算法的特征提取優(yōu)勢,并進一步采用深度神經網絡進行建模,但相比PEFAC算法僅在-10 dB信噪比以上得出性能優(yōu)良的結論。
總的來說以上算法都是在經典的參數化及非參數化方法上做了一定程度的改進,但仍然很難改變無法精確有效描述復雜噪聲環(huán)境中語音信號的缺陷。由于語音信號具有多次諧波特性,基音頻率這一重要參數可通過特征波形的峰值表達。因此,本文針對參數化方法與非參數化方法的各自不足,充分利用PEFAC對語音信號進行基音頻率特征提取,構造基音頻率特征波形,通過對特征波形的峰值求取實現基音頻率的提取。但是當語音信號被噪聲污染時,信號的諧波特征被破壞,特征波形的峰值與基音頻率就存在一定的誤差。當信噪比惡化時,該誤差就會明顯增大,嚴重影響了峰值對基音頻率的表達?;诖耍疚囊雰?yōu)化因子對特征波形進行校正以抵消噪聲帶來的畸變。該優(yōu)化因子的精確取值能最大程度地抑制噪聲帶來的畸變影響,從而消除特征波形峰值與基音頻率的誤差。
本文將優(yōu)化因子最佳取值問題轉換為最優(yōu)化問題,嘗試利用進化算法來獲取其全局最優(yōu)解。進化算法的優(yōu)勢在于其可解決復雜的非線性及多維空間尋優(yōu)問題,通過構造含有優(yōu)化因子的適應度函數,從而能動態(tài)尋找出最佳基音頻率值所對應的優(yōu)化因子的值。
1 基于進化算法面向極低信噪比環(huán)境的基音頻
率檢測方法(LSNR_PFD_EA)
本文提出的基音頻率估計算法,即低信噪比下基于進化算法的基音頻率估計(LSNR_PFD_EA)主要包括特征提取模塊、基于進化算法的優(yōu)化因子搜索模塊及基音頻率提取模塊三部分。圖1為該算法主要流程。
如圖1所示,首先提取語音的頻域特征,此頻域特征稱為基音特征波形,其峰值用來表達基音頻率值,然后設計一個多維變量稱為優(yōu)化因子,對基音頻率特征波形的峰值進行有效調整,使得調整后的峰值能夠表達的基音頻率是真實基音頻率值的最佳逼近。本文的特征提取方式基于PEFAC,包括短時傅里葉變換,頻域對數化,規(guī)整化,再進行頻域卷積得到基音特征波形即圖中的特征值。接著,通過優(yōu)化因子搜索模塊,利用基音特征波形與優(yōu)化因子共同構造適應度函數,利用進化算法結合訓練語音搜索到最佳優(yōu)化因子。最后,對測試集語音提取其特征值,基于搜索得到的最佳優(yōu)化因子對該特征值進行優(yōu)化,優(yōu)化完成后再通過動態(tài)規(guī)劃(DP)得到語音的基音頻率。
1.1 特征提取模塊
特征提取模塊主要包括如下步驟:
(1) 語音幀信號首先通過短時傅里葉變換映射到頻域。代表第幀的功率譜密度,對數頻域的功率譜密度采用表示,其中規(guī)整化后的功率譜密度為:
(1)
式中:代表長程平均語音譜;而代表平滑后平均語音譜。
(2) 規(guī)整化的頻譜通過如下擴展峰值的濾波器增強其諧波特性。其中濾波器定義如下:
(2)
其中的選取滿足而設置為1.8且設置為10。
(3) 通過對規(guī)整化的功率譜密度進行卷積得基音特征波形接下來的基音檢測方法一般可先從中選取較大的幾個峰值對應的頻率值作為候選基音頻率值。
(4) 然后通過DP等規(guī)劃算法得到基音頻率值的最佳估計值。
當信噪比惡化時,特征波形的峰值被嚴重破壞,使得候選值均極大地偏離真實值,也就無法得到準確的估計值。為減小候選值與真實值的誤差,本文提出了優(yōu)化因子策略,即使用優(yōu)化因子計算優(yōu)化后的基音特征波形從中選取新的峰值對應的候選基音頻率值,使得最終的基音頻率估計值與真實值的誤差最小。
1.2 優(yōu)化因子搜索模塊
1.2.1 優(yōu)化函數分析
圖2表示了優(yōu)化因子在基音頻率檢測中的作用。其中圖2(a)為不含噪聲的語音幀經過特征提取之后的輸出;圖2(b)為SNR=-10 dB下語音幀經過特征提取之后的輸出;圖2(c)為圖2(b)經過優(yōu)化因子處理后的波形,若選取幅值最大的3個峰值作為基音頻率候選值,通常最大峰值對應的基音頻率值成為估計值的概率是最大的,如果后續(xù)不作DP規(guī)劃,則最大峰值對應的基音頻率值就是基音頻率估計值,如果要作DP規(guī)劃,最終的估計值要在候選值,三個值之中選取。從圖中發(fā)現,圖2(a)中基音頻率候選值與圖2(b)中基音頻率候選值的誤差很大,特別是最大峰值對應的頻率值誤差極大,這是低信噪比環(huán)境下噪聲干擾的結果。
若要提升基音頻率估計精度,減小估計誤差,可通過優(yōu)化因子處理,如圖2(c)所示。通過將區(qū)間segment的幅度做一定程度的提升,則該區(qū)間峰值對應的頻率就會成為候選基音頻率,而免遭錯誤遺漏。優(yōu)化因子取值的不同可以使波形在不同區(qū)間的幅度進行放縮。通過進化算法來搜索最優(yōu)因子,從而使圖2(a)與圖2(c)的基音頻率候選值誤差最小。圖2是某一類語音幀的情況,由于不同語音幀的基音頻率候選值有所不同,而受到噪聲污染后基音特征波形的畸變也明顯有所不同,因此每個語音幀的理想優(yōu)化因子也不盡相同,事實上針對每一幀語音數據找出其對應的理想優(yōu)化因子是沒有意義的,因為優(yōu)化因子數量十分龐大而無法使用,其次優(yōu)化因子與語音幀的關聯性也無法得到有效建立。但肯定能找出一個合理的優(yōu)化因子,相對于每一幀語音數據來說雖不一定最優(yōu),但相對于所有幀語音數據來說,總體誤差最小?;谝陨戏治觯瑑?yōu)化因子的取值就被轉化為一個求解最佳優(yōu)化因子的最優(yōu)化問題。由于優(yōu)化因子是高維向量,加上不同維的取值都有一定精度,優(yōu)化因子的可能取值是海量的,即候選解空間較大。此外,優(yōu)化因子和峰值與基音頻率間誤差的關系并非線性相關,因此候選解空間將存在多個局部極值點。鑒于進化算法全局尋優(yōu)的特性,本文基于GA[19]和PSO[20]算法分別求解該優(yōu)化問題。
GA和PSO算法都涉及確定適應度函數的問題,用于基音頻率檢測的優(yōu)化因子的適應度函數分為如下兩種情況:
(1) 不使用DP動態(tài)規(guī)劃
由于不使用DP動態(tài)規(guī)劃,優(yōu)化后的基音特征波形最大峰值對應的頻率值為基音頻率估計值,其與真實基音頻率值的誤差。
因此適應度函數即小于5%的概率。
(2) 使用DP動態(tài)規(guī)劃
表示時刻語音幀基音特征波形的峰值幅度,表示與之相關聯的頻率,則選擇較小峰值的代價其中為最大峰值幅度;基音頻率候選值的選擇率其中為相鄰語音幀的時間偏移量,則躍遷到的代價為其中為在訓練語音庫中的均值;時刻語音幀基音頻率候選值與基音頻率中值的相對誤差為,其中可通過時刻最大峰值幅度對應的基音頻率候選值及相鄰幀的值估計得到,若相鄰幀不是濁音幀則跳過。綜上,時刻語音幀的第個基音頻率候選值躍遷到時刻語音幀的第個基音頻率候選值的總代價為三者之和:其中為限制的最大值,而表示各參數相關權重。
將總代價最小時選擇的峰值頻率作為基音頻率估計值,因此適應度函數為:
即小于5%的概率。
1.2.2 優(yōu)化算法?進化算法
(1) GA算法
本文采用二進制遺傳算法,其主要流程如下:
步驟1: 二進制編碼;
步驟2: 隨機產生二進制種群;
步驟3:計算其對應的適應度函數值
步驟4: 計算種群適應度之和
步驟5: 計算每個的選擇概率
步驟6: 計算每個的累加概率
步驟7: 競爭法進行選擇操作;
步驟8: 對新一代種群進行單點隨機交叉運算;
步驟9: 單點隨機變異操作;
步驟10: 第一代計算完畢,返回繼續(xù)計算步驟3,直到達到滿意的結果為止。
(2) PSO算法
本文采用粒子群算法的主要流程如下:
步E1:根據優(yōu)化因子的維度與取值范圍確定粒子群的參數;
步驟2:初始化粒子群,其中粒子的信息可用兩個維向量表示,第個粒子的位置(即優(yōu)化因子)可表示為:
,
其中與為每一維的取值上下限,速度可表示為其中與均為取值范圍在0~1之間的隨機數;
步驟3:計算每個粒子的適應度;
步驟4:根據進化方程更新及粒子位置速度:
步驟5:是否滿足終止條件,否則返回繼續(xù)計算步驟3,直到達到滿意的結果為止。
2 實驗結果與分析
2.1 實驗條件
2.1.1 數據說明
本文采用TIMIT標準數據庫測試算法性能。訓練集包含20男20女,每人3句話。噪聲訓練集為NOISE?92,包含white,babble,car三種噪聲。純凈語音與噪聲相混合,信噪比SNR分為9個不同的等級:-20 dB,-15 dB,
-10 dB,-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB。測試集包含10男10女,每人3句話。標準基音頻率使用Praat工具從純凈語音中提取。
以兩種標準方式測試估計結果:基音頻率識別率(DR)。DR是針對濁音而言,計算誤差不超過5%的概率,為濁音幀數,為其中計算誤差不超過5%的幀數,計算式如下:
2.1.2 參數設置
優(yōu)化因子的維度為10,每一維的取值范圍均在0.5~1.5之間。當使用GA算法時,基因總數為100,搜索下限為0.5,上限為1.5,交叉概率為0.8,變異概率為0.1,迭代次數為30;當使用PSO算法時,種群大小為20,粒子初始速度為0.01,最大速度為1,粒子群維度為10,取值范圍在0.5~1.5,認知加速度為2,社會加速度為2,慣性權重為1,退化因子為1,迭代次數為60。
2.2 兩種進化算法的效果對比
圖3為不同迭代次數下,兩種進化算法的檢測效果。兩種算法共同的規(guī)律是隨著信噪比的提高,收斂速度會加快。隨著迭代次數的增加,檢測率變化越來越緩慢或者根本不發(fā)生變化。這說明信噪比越低優(yōu)化的空間越大,因此信噪比越低,特征波形的結構受噪聲影響越大。再對比GA與PSO算法,GA算法僅在信噪比為-20 dB下的識別率有較為明顯的變化,其他信噪比下幾乎沒有變化。從最終的識別率來看,相同信噪比下PSO的識別率要高于GA,因此說明PSO算法在搜索最佳優(yōu)化因子上更加有效。因此,后續(xù)實驗中,主要采用基于PSO的基音檢測算法進行效果對比。為了便于說明,基于GA的基音檢測算法記為LSNR_PFD_GA,基于PSO的基音檢測算法記為LSNR_PFD_PSO。
2.3 不同類型噪聲環(huán)境下的檢測效果對比
圖4為三種類型的噪聲環(huán)境下,本文LSNR_PFD_ PSO算法與三種主流算法J&W,YIN,RAPT的識別效果對比。
由圖4可見,對于不同類型的噪聲(白噪聲,babble噪聲,car噪聲),本文算法均優(yōu)于其他算法。此外,信噪比越低,本文算法的改進效果越明顯。例如,-5 dB以下,本文算法的識別率提高了10%~20%,而在-20 dB時,其提升程度可以達到20%~50%。這說明本文算法非常適合低信噪比環(huán)境下的基音頻率檢測。
2.4 DP對基音頻率檢測的影響分析
圖5為本文算法與PEFAC算法針對采用DP與否進行的效果對比。比較采用DP與不采用DP計算的三種噪聲(白噪聲,babble噪聲,car噪聲)在不同信噪比下的平均識別率,采用DP算法并用PSO優(yōu)化后的識別率是最好的,不采用DP而使用PSO優(yōu)化的識別率并不如使用了DP的PEFAC效果好,但比未采用DP和PSO優(yōu)化的效果好很多。這說明DP對基音頻率檢測算法具有明顯的正面作用,本文算法也不例外。為了最大限度地發(fā)揮本文算法效率,建議采用DP。
圖4 基音頻率識別率比較
2.5 進化算法參數影響分析
圖6為基于不同參數設置,在不同信噪比下(白噪聲,babble噪聲,car噪聲) LSNR_PFD_PSO算法的平均識別率。圖6(a)為種群規(guī)模設置不同帶來的影響。圖6(b)為粒子飛行初始速度設置不同帶來的影響。
由圖6(a)可見,隨著種群規(guī)模的增大,識別率有所增加但不明顯,當種群規(guī)模由20增加至200,-5 dB以下識別率平均提升了2%左右。鑒于種群規(guī)模與計算復雜度的關系,因此需要結合具體情況,通過統計實驗設定合適的種群規(guī)模。此外,還發(fā)現種群規(guī)模對識別率的正面作用在低信噪比下更明顯。由圖6(a)可見,在信噪比為-20 dB,200的種群規(guī)模較20的種群規(guī)模提高效果為25%左右。由圖6(b)可見,粒子初始速度與識別率為負相關關系,當其較大時,識別率會變差。具體來說,當粒子速度由0.01增至0.05時,-5 dB以下識別率平均下降3%。這個結果的可能原因是初始速度太大將影響搜索的精細程度,較容易錯過最優(yōu)解。由于初始速度過小將增加計算代價,因此也需要結合具體情況,通過統計實驗來設定合適的初始速度。
2.6 相關算法的時間代價對比
表1為不同算法基于同一運算平臺的平均時間代價。計算機平臺為Intel CPU 2.6 GHz,算法分別為PSO,GA,PEFAC,RAPT,YIN,“算法時間代價”是指當前算法在裝有Matlab軟件的計算機平臺上處理1 s語音數據運行的平均時間代價。
由表1可見,LSNR_PFD_PSO,LSNR_PFD_GA和PEFAC算法的時間代價一致,均為0.175 s。這個時間代價并不包含進化算法的訓練時間,這是由于一旦訓練完成后,幾種算法的實時檢測過程所需時間代價幾乎無差別。本文算法與YIN算法的時間代價也相當,比PART算法明顯降低。根據多次實測表明,本文算法工作所需時間代價完全滿足實時性要求,現實可行。
3 結 論
極低噪聲環(huán)境下的基音頻率檢測是一個非常有用但具有較大難度的科研問題,迄今為止,一直沒有得到很好的解決。針對目前新提出的抗噪性能較好的基音檢測算法的不足,本文引入最佳優(yōu)化因子來消除噪聲帶來的畸變影響。通過把最佳優(yōu)化因子取值問題轉化為最優(yōu)化問題,引入進化算法加以求解,顯著提升了低信噪比環(huán)境下基音頻率檢測性能。實驗結果表明,面對不同類型不同信噪比的噪聲環(huán)境,本文算法均取得了較為顯著的改進效果,且信噪比越低,改進效果越明顯。針對下一步工作,本文擬考慮進行更大噪聲環(huán)境的實驗及對進化算法的改進以提高最佳優(yōu)化因子的搜索效率和基音頻率檢測的泛化性能。
參考文獻
[1] RAMAKRISHNAN A G, ABHIRAM B, PRASANNA S R M. Voice source characterization using pitch synchronous discrete cosine transform for speaker identification [J]. Journal of the acoustical society of America, 2015, 137(6): 469?475.
[2] WOHLMAYR M, PERNKOPF F. Model?based multiple pitch tracking using factorial HMMs: model adaptation and inference [J]. IEEE transactions on audio, speech and language processing, 2013, 21(8): 1742?1754.
[3] HAN K, WANG D L. A classification based approach to speech segregation [J]. Journal of the acoustical society America, 2012, 132(5): 3475?3483.
[4] RAO K S, MAITY S, REDDY V R. Pitch synchronous and glottal closure based speech analysis for language recognition [J]. International journal of speech technology, 2013, 16(4): 413?430.
[5] SHARMA D, NAYLOR P A. Evaluation of pitch estimation in noisy speech for application in non?intrusive speech quality assessment [C]// Proceedings of 2009 European Signal Processing Conference. Glasgow: IEEE, 2009: 2514?2518.
[6] SHIMAMURA T, KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech [J]. IEEE transactions on speech and audio processing, 2001, 9(7): 727?730.
[7] SHAHNAZ C, ZHU W P, AHMAD M O. Robust pitch estimation at very low SNR exploiting time and frequency domain cues [C]// Proceedings of 2005 IEEE International Conference on Acoustics, Speech, Signal Processing. Philadelphia: IEEE, 2005: 389?392.
[8] SHAHNAZ C, ZHU W P, AHMAD M O. A robust pitch estimation algorithm in noise [C]// Proceedings of 2007 IEEE International Conference on Acoustics, Speech, and Signal Proces?sing. Honolulu: IEEE, 2007: 1073?1076.
[9] WU M, WANG D L, BROWN G J. A multipitch tracking algorithm for noisy speech [J]. IEEE transactions on speech and audio processing, 2003, 11(3): 229?241.
[10] HAN Kun, WANG Deliang. Neural network based pitch tracking in very noisy speech [J]. IEEE transactions on audio, speech and language processing, 2014, 22(12): 2158?2168.
[11] GOSAIN A, SHARMA G. A survey of dynamic program analysis techniques and tools [J]. Advances in intelligent systems and computing, 2014, 327: 113?122.
[12] JIN Z, WANG D L. HMM?based multipitch tracing for noisy and reverberant speech [J]. IEEE/ACM transactions on audio, speech and language processing, 2011, 19(5): 1091?1102.
[13] GONZALEZ S, BROOKES M. PEFAC: a pitch estimation algorithm robust to high levels of noise [J]. IEEE/ACM transactions on audio, speech and language processing, 2014, 22(2): 518?530.
[14] MCLACHLAN G, PEEL D. Finite mixture models [M]. New York: Wiley?Blackwell, 2000.
[15] TALKIN D. A robust algorithm for pitch tracking (RAPT) [R]. Amsterdam: Elsevier, 1995: 495?518.
[16] DE CHEVEGNE A, KAWAHARA H. YIN, a fundamental frequency estimator for speech and music [J]. Journal of the acoustical society America, 2002, 111(4): 1917?1930.
[17] SHAHNAZ C, ZHU W P, AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time?domain matching scheme [J]. IEEE transactions on audio, speech and language processing, 2012, 20(1): 322?335.
[18] FENG Huang, TAN Lee. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique [J]. IEEE transactions on audio, speech and language processing, 2013, 21(1): 99?109.
【關鍵詞】 遙感 城市擴張 城市范圍 分類
1 引言
隨著我國經濟持續(xù)快速的增長,我國進入城市數量和體量快速增長的階段。城市的發(fā)展與擴張,引起了諸多學者的關注,然而城市范圍的界定往往是研究城市擴張的前提,而利用遙感進行城市范圍提取正趨于成熟。
遙感是指不與探測目標相接觸,從遠處把目標的電磁波特性記錄下來,通過分析揭示出物體的特征性質及其變化的綜合性探測技術[1]。由于遙感具有大面積同步觀測、時效性、綜合性、經濟性等特點,因而在城市范圍提取中被廣泛使用,如阿里木江?卡斯木[2]等在研究塔什干市城市擴張時同時使用了TM、ETM+、ALOS-AVNIR2三種影像數據。在眾多關于城市擴張的研究中,對城市范圍的提取方法種類繁多,本文基于各方法特點,將如今主要的基于遙感影像的城市范圍提取方法歸納總結為基于人工解譯方法,基于圖像分類方法,基于光譜指數和指數模型方法,基于相關因素提取方法這四種方法。
2 方法研究
2.1 基于人工解譯方法
人工解譯方法主要是指目視解譯,它憑借解譯人員的經驗知識,將遙感圖像轉換成可以被非專業(yè)人士理解的現實中的實物。作為傳統的判別方法,人工解譯的方法一般精度較高,但工作量大。王茜[3]等在對南京市城市擴展的研究中將預處理和幾何糾正的圖形直接進行人機交互目視解譯的方法,對南京市市區(qū)成片的區(qū)域在計算機中勾畫,由此獲得南京市城市范圍。
人工目視解譯作為遙感研究人員必備的一項技能,但在如今遙感技術智能化,高效化的發(fā)展過程中,其作為城市范圍提取方法的核心作用越來越小,更多的只能作為一種輔助判別方法或是對成果進行檢驗的手段。人工目視解譯本身也受到解譯標志、圖像質量、解譯人員的經驗等因素的影響[4],所以在解譯的過程中應該在這些方面引起足夠重視以保證解譯的質量。
2.2 基于圖像分類方法
遙感圖像分類分為非監(jiān)督分類與監(jiān)督分類,其為獲取遙感圖像信息最常見的處理方法。非監(jiān)督分類是指人們事先對分類過程不加入任何先驗知識,而僅憑遙感圖像中地物光譜特征進行分類,分類結果不能確定類別屬性,相對的監(jiān)督分類則是引入已知類別象元作為訓練區(qū)再對圖像進行分類[5]。
在遙感影像的城市范圍提取中首先會對圖像進行預處理與增強,增大城市與非城市像元DN值的差別,再對影像進行分類,從而區(qū)分出城市與非城市區(qū)域。圖像處理方法的選擇對城市區(qū)域分類結果有很大的影響。如楊恒喜[6]等在提取昆明市圖像中,先對圖像做了直方圖均衡化處理,將DN值域增大使其呈正太分布,增強了圖像上地物與地物之間的反差,再利用非監(jiān)督分類的方法提取了城市建成區(qū)域,得到城市面積大小。余新朝[7]利用植被差值歸一化指數閾值的設定,經過波段運算處理后,單獨對圖像進行監(jiān)督或非監(jiān)督分類都不能取得良好效果,而在結合了多次監(jiān)督與非監(jiān)督分類的方法后才較為準確地生成了城市建成區(qū)范圍圖。
基于圖像分類的城市范圍提取方法在很大程度上減輕了研究人員解譯的工作強度,并能得到較為準確的結果。分類前的圖像處理方法多樣,且多內置于影像處理軟件中,操作簡單,效果顯著;另一方面,分類算法中如最大似然分類、馬氏距離分類等逐漸完善,人工神經網絡等更智能的分類算法的出現,使圖像分類結果更加準確,也使該方法在提取城市范圍中得到更廣泛的認可。
2.3 基于光譜指數和指數模型方法
由于地物對太陽光的反射和吸收存在差異,導致不同波段中的地物反射信息存在差異,研究人員利用這種差異將衛(wèi)星不同波段探測數據進行組合運算,得到反映研究所需特定信息的指數,稱之為光譜指數,而提取這種指數的特定方法則稱為指數模型。
基于此方法的城市范圍提取也隨著相關的光譜指數和指數模型如歸一化差異建筑指數(Normalized Difference Built-up Index, NDBI)[8]、圖像卷積運算模型[9]等的發(fā)展而得到大量應用。NDBI相對來說使用最廣泛,它是在對歸一化植被指數NDVI經過深入研究后的拓展,最早由楊山[10]對提取無錫市城鄉(xiāng)聚落空間信息而提出,稱之為仿植被歸一化指數。Y.ZHA[8]等基于TM數據的TM4與TM5波段特性,得到表達式
NDBI=(band5-band4)/(band5+band4)
運算后城鎮(zhèn)區(qū)域的亮度值增大,其他區(qū)域的亮度值都減小,其中NDBI>0的部分為城市,NDBI≤0的部分為非城市區(qū),從而提取出城市范圍。NDBI在分類中也存在不足,鄧文勝等[11]就曾證明其在大面積復雜區(qū)域的應用效果不是很好。基于此光譜指數的城市范圍方法也在不斷的改進,徐涵秋[12]就放棄了單純使用NDBI,同時利用了NDBI、土壤調節(jié)指數SAVI、修正歸一化差異調節(jié)指數MNDWI將ETM+數據的六個波段壓縮為呈不相關的三個波段,并用譜間信息的相關性邏輯運算,提取出城市建成區(qū)域,且抽樣驗證精度達到 91.3%。
基于光譜指數和指數模型方法充分利用了圖像波段間的光譜信息差異,城市范圍確定精度通常高于基于圖像分類方法的結果。由于此方法充分挖掘了城市地物與非城市地物間光譜信息異同,所以光譜指數和指數模型方法的可重用性更加強,適用范圍也更加廣泛。
2.4 基于相關因素提取方法
城市作為一個綜合體,其包容的元素多樣,所表現的性質從不同的角度觀察也有不同的結果,因此,除了如上常用的一些方法外,還有一些利用相關因素間接提取出城市范圍的方法。
基于不透水面的確定來提取城市范圍的方法。廣義的不透水面(Impervious Surface Area,ISA)是指天然或人為建造,能夠隔離地表水滲透到土壤,進而改變洪水徑流的流動、物質沉淀和污染剖面的任何物質[13]。目前研究的人工不透水面多指停車場,道路,屋頂,廣場等地物,然而這些地物也是城市的組成部分,再加上如今城市的建設都離不開人工修建的不透水面,所以對城市不透水面范圍的確定,在一定程度上可以看作是對城市范圍的確定。白楊[14]等人已經完成了在不透水面的基礎上,用面向對象的方法,對城市建成區(qū)域的提取,得到的城市范圍基本與實際吻合。
基于地表溫度的確定來提取城市范圍的方法。地表溫度主要受地表覆蓋物影響,由于城市建設,城市地表主要被水泥等人工化合物取代,導致與農田、林地、水體等自然覆蓋物的地表溫度有明顯差異。李昕瑜[15]等人就已經通過反演地表亮溫發(fā)現,地表溫度與歸一化不透水面指數NDISI、NDBI呈正相關。王躍[16]等更是利用Landsat的熱紅外波段,將反演的亮溫以296K為界,提取出了蘇州市城市范圍。
基于這些相關因素提取來提取城市范圍的方法突破了以往比較固定的思維,為城市區(qū)域研究提供了一種新的思路。但此方法的不足在于難以驗證這些相關因素和城市范圍之間的聯系緊密度,因而有時會對準確提取城市范圍造成較大影響。
3 結論與討論
城市范圍的提取在對城市擴張、城市總體規(guī)劃、城市生態(tài)環(huán)境等研究中都具有基礎性的作用。隨著對城市的研究增多,出現了多種多樣的城市范圍提取方法,經過對大量研究的對比總結,基于對各種方法的主體思想或關鍵步驟的分析,本文將眾多城市范圍提取的方法歸納為人工解譯方法、圖像分類方法、光譜指數與光譜模型方法以及相關因素提取方法。
經過分類后的對比還發(fā)現,人工解譯方法提取的相對精度較高,但進度慢,耗時多;圖像分類方法較人工解譯方法更加便捷,但結果相對較差,同時分類前的影像處理和分類方法的選擇對分類的結果有較大的影響;光譜指數與光譜模型方法在指數和模型建立之前需要進行大量的分析,但其方法適應范圍廣,同時對城市范圍的提取結果又有充分的物理依據;相關因素提取方法通過對城市特有的相關信息的提取來確定城市范圍,此方法思路新穎,發(fā)展前景廣,但相關因素與城市相關性的確定將是其研究的重點與難點。各種方法雖有不同之處,但在研究中往往又相互聯系,相互補充,使城市范圍的提取朝著更加精確的方向發(fā)展。
隨著中國經濟的發(fā)展,城市的擴張還將持續(xù),由此給我們帶來的影響,將會引起越來越多學者的關注。筆者認為,隨著遙感信息提取技術的發(fā)展,多源數據的應用,以及土地信息數據庫的完善,基于遙感的城市范圍研究也必然會有新的突破。
參考文獻:
[1]梅安新等編著.遙感導論.北京市:高等教育出版社,2001.
[2]阿里木江?卡斯木,阿斯耶姆?圖爾迪.基于遙感數據的塔什干市城市擴展時空特征分析[J].新疆師范大學學報(自然科學版),2012,(第2期).
[3]王茜,張增祥,易玲,譚文彬,王長友.南京城市擴展的遙感研究[J].長江流域資源與環(huán)境,2007,(第5期).
[4]姜放,張國勇.遙感圖像目視解譯值得注意的幾個問題[J].長春工程學院學報(自然科學版),2002,(第3期).
[5]湯國安等編著.遙感數字圖像處理.北京市:科學出版社,2004.
[6]楊恒喜,史正濤,陳可偉.基于遙感影像的1992-2002年昆明市城區(qū)擴張及驅動力分析[J].環(huán)境科學與管理,2010,(第6期).
[7]余新朝.基于多時相遙感影像的城市演變分析[J].城市勘測,2013,(第6期).
[8]Zha, Y. Y., Gao, J. J., & Ni, S. S. (2003). Use of normalized difference built-up index in automatically mapping urban areas from TM imagery. International Journal Of Remote Sensing, 24(3), 583.
[9]MUXiaodong,LIUHuiping,WANGHongbin.Application of image convolution to extract the urban extent[J].遙感學報,2011,(第6期).
[10]楊山.發(fā)達地區(qū)城鄉(xiāng)聚落形態(tài)的信息提取與分形研究:以無錫市為例[J].地理學報,2000,(第6期).
[11]鄧文勝,關澤群,王昌佐.從TM影像中提取城鎮(zhèn)建筑覆蓋區(qū)專題信息的改進方法[J].遙感信息,2004,(第4期).
[12]徐涵秋.基于譜間特征和歸一化指數分析的城市建筑用地信息提取[J].地理研究,2005,(第2期).
[13]SloneckerET,JenningsD,GarofaloD. RemoteSensingof ImperviousSurfaces: AReview[J]. Remote Sensing Reviews,2001,20(3):227-255.
[14]白楊,寧曉剛,張繼賢.基于不透水面和引力模型的城市建成區(qū)提取與分析[J].測繪科學,2014,(第1期).