公務員期刊網(wǎng) 論文中心 正文

卷積神經(jīng)網(wǎng)絡下電子音樂辨識模型探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了卷積神經(jīng)網(wǎng)絡下電子音樂辨識模型探析范文,希望能給你帶來靈感和參考,敬請閱讀。

卷積神經(jīng)網(wǎng)絡下電子音樂辨識模型探析

摘要:現(xiàn)有音頻辨識變模型無法分辨電子音樂類型,辨識精度較低,為此,設計基于卷積神經(jīng)網(wǎng)絡電子音樂辨識模型。通過重建電子音樂信號頻譜內(nèi)諧波信息,對電子音樂信號進行預處理,去除電子音樂信號頻譜內(nèi)的噪聲,并將去除噪聲后的電子音樂文件制作成波形圖。將電子音樂頻譜波形圖作為輸入,利用多層特征融合的混合和采樣方式提取輸入圖像內(nèi)的特性,利用反向傳播算法訓練卷積神經(jīng)網(wǎng)絡,通過SoftMax分類器試點電子音樂分類辨識。實驗結(jié)果顯示,所設計模型能夠有效去除電子音樂內(nèi)的噪聲含量,在迭代次數(shù)達到100次時即可將模型擬合誤差降至下限值,且辨識率均值達到98.5%左右。

關鍵詞:卷積神經(jīng)網(wǎng)絡;電子音樂;辨識模型;諧波信息;混合采樣

0引言

網(wǎng)絡技術的快速發(fā)展令互聯(lián)網(wǎng)中產(chǎn)生大量視頻與音頻等多媒體數(shù)據(jù)[1],電子音樂為網(wǎng)絡上最為普遍的多媒體音頻。電子音樂辨識作為音樂信號處理的核心問題之一,在歌曲識別、音頻匹配與推薦等方面均具有關鍵作用。針對網(wǎng)絡數(shù)據(jù)的海量性特性,研究一種可在海量音頻中準確快速地獲取感興趣的電子音樂是當前音頻識別領域中的熱點研究問題。文獻[2]提出一種雙向卷積神經(jīng)網(wǎng)絡的音樂識別模型。該模型構建雙向卷積神經(jīng)網(wǎng)絡結(jié)構,提取音樂細節(jié)特征,將細節(jié)特征合并成一維特征向量。但該模型無法去除電子音樂內(nèi)的噪聲含量。文獻[3]提出一種直接利用視音頻特征進行識別的算法,該算法融合BoW、GIST、顏色矩特征、顏色直方圖和音頻特征進行識別,但該方法無法分辨電子音樂類型,辨識精度較低。針對當前普遍使用的音頻辨識變模型無法分辨電子音樂類型,辨識精度較低等難題,設計基于卷積神經(jīng)網(wǎng)絡的電子音樂辨識模型,并通過實驗驗證該模型的實際應用性能。

1基于卷積神經(jīng)網(wǎng)絡的電子音樂辨識模型

1.1電子音樂信號預處理

由于電子音樂在演奏過程中容易產(chǎn)生音符掩蔽與音符缺失的問題[4],這些問題將對最終的音樂識別與錄制產(chǎn)生顯著影響。因此在構建電子音樂辨識模型前需通過重建電子音樂信號頻譜內(nèi)諧波信息的方式對電子音樂信號進行預處理,去除電子音樂信號頻譜內(nèi)的噪聲。設定采樣率為10080Hz,以此對電子音樂片段實施采樣處理,獲取一個音頻信號x(n),設該音頻信號長度為I。利用窗函數(shù)W(n)對音頻信號x(n)實施預處理[5],設定窗函數(shù)中窗寬度為窗長度的2倍,由此獲取加窗后待處理的電子音樂信號矩陣MN×K,其中K=2IN。用N×N的方陣表示傅里葉變換矩陣Ω,將電子音樂信號矩陣MN×K與傅里葉變換矩陣Ω相乘,由此獲取電子音樂分幀信號的頻譜矩陣S=Ω×M。依照信號理論能夠得到[6],電子音樂信號的諧波成分在諧波矩陣A上僅分布在分散的數(shù)個頻率成分上,同時在時間尺度上電子音樂存在顯著的重復性,由此得到矩陣A存在內(nèi)在的低秩特征,也就是電子音樂和弦波信息分布在低維子空間內(nèi)[7]。電子音樂非諧波成分E矩陣內(nèi)聚集各種不同類型噪聲,由于不同類型造成變化的頻繁性存在一定稀疏特性[8],基于此可利用秩函數(shù)構建諧波成分模型,利用零范數(shù)構建稀疏噪聲模型。由此可將灰度低秩矩陣定義為一個雙目標優(yōu)化問題,描述為式(1)。minA,E(rank(A),E0)s.t.S=A+E(1)式中,rank(A)和零范數(shù)·0分別表示矩陣A的秩函數(shù)和矩陣內(nèi)非零元素的數(shù)量;同時·0也可表示矩陣的稀疏程度。在式(1)內(nèi)引入大于零的折中因子λ,由此以單目標優(yōu)化問題替代式(1)所示的雙目標優(yōu)化問題,如式(2)。minA,Erank(A)+λE0s.t.S=A+E(2)式中,多描述的優(yōu)化問題實質(zhì)上是1種多項式復雜程度的非確定性問題,基于此,需確定合適的可取代秩函數(shù)與零范數(shù)的函數(shù)。以確保優(yōu)化問題整體具有全局最優(yōu)解為目的[9],要求確定取代函數(shù)為原函數(shù)凸包絡。而矩陣的核范數(shù)表示矩陣內(nèi)全部奇異值相加的結(jié)果,可理解為是矩陣秩函數(shù)的凸包絡,矩陣內(nèi)非零元素相加的結(jié)果可利用矩陣的1范數(shù)表示,一般情況下可經(jīng)其作為矩陣的稀疏算子,即0范數(shù)的凸包?;诖丝蓪⑹剑?)所示的單目標優(yōu)化問題轉(zhuǎn)化為式(3)所示的凸優(yōu)化問題。minA,EA+λE1s.t.S=A+E(3)式(3)所示的凸優(yōu)化問題可通過增廣拉格朗日乘子法解決,由此能夠獲取最優(yōu)解電子音樂諧波信息矩陣A,其為電子音樂原始信號頻譜重建后的諧波頻譜。重建后的諧波頻譜內(nèi)可分離稀疏噪聲,并重建了頻譜的低秩信息,由此可知,頻譜矩陣A內(nèi)具有一定魯棒性。將去除噪聲后的電子音樂文件制作成波形圖,利用卷積神經(jīng)網(wǎng)絡實現(xiàn)電子音樂辨識。

1.2基于卷積神經(jīng)網(wǎng)絡的辨識模型構建

1.2.1典型卷積神經(jīng)網(wǎng)絡。輸入層、卷積層、下采樣層、全連接層標和輸出層共同組成標準卷積神經(jīng)網(wǎng)絡[10]。卷積層與下采樣層結(jié)合是卷積神經(jīng)網(wǎng)絡提取目標特征的主要結(jié)構[11],將去除噪聲后的電子音樂頻譜波形圖作為輸入層輸入信息,可用T表示。以Xi表示卷積神經(jīng)網(wǎng)絡第i層的特征(X0=T)。在Xi為卷積層的條件下,描述為式(4)。Xi=f(Xi-1*Ki+bi)(4)式中,Ki和bi分別表示可訓練的卷積核和偏置量;*和f(x)分別表示卷積運算和激活函數(shù)。使用較為普遍的激活函數(shù)有sigmoid函數(shù)、tanb函數(shù)以及ReLu函數(shù)等[12]。綜合考慮不同激活函數(shù)性能,選取Re-Lu函數(shù)作為卷積層激活函數(shù),描述為式(5)。f(x)=max(0,x)(5)ReLu函數(shù)的主要優(yōu)勢主要體現(xiàn)在其可令卷積神經(jīng)網(wǎng)絡部分神經(jīng)元輸出為0,由此令卷積神經(jīng)網(wǎng)絡產(chǎn)生稀疏選性,降低計算過程的復雜性;同時ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡過擬合問題;ReLu函數(shù)的導數(shù)僅為1或0,可改善卷積神經(jīng)網(wǎng)絡誤差反向傳播過程中的梯度消失問題。下采樣層對卷積層獲取的各特征圖內(nèi)n×n區(qū)域的像素實施采樣處理,降低特征圖尺寸。普遍使用的采樣處理過程可分為上限值采樣與均值采樣[13]。在Xi表示下采樣層的條件下,上限值采樣與均值采樣表示為式(6)、式(7)。Xi=f(WiPmax(Xi-1)+bi)(6)Xi=f(WiPmean(Xi-1)+bi)(7)式中,Pmax(x)和Pmean(x)分別表示上限值采樣操作和均值采樣操作;Wi和bi分別表示取值與偏置值。下采樣層的主要功能是以保留原始特征信息為基礎,進行特征圖降維處理,防止出現(xiàn)維數(shù)災難,提升變形魯棒性;同時利用下采樣層還可壓縮特征圖,令計算過程難度下降。通常情況下,全連接層處于卷積層、下采樣層同輸出層之間,可將其定義為一個同淺層神經(jīng)網(wǎng)絡功能相似的多層感知機,其主要功能是將分布式特征表示映射至樣本標記空間內(nèi),并在卷積神經(jīng)網(wǎng)絡模型表示能力遷移過程中發(fā)揮防火墻功能[14]。輸出層為一個解決多分類問題的分類器,采用由Logis-tic回歸模型在多分類問題方面演化處的SoftMax分類器??紤]Logistic函數(shù)僅可實現(xiàn)二分類功能,因此SoftMax分類器在繼承Logistic函數(shù)回歸的基礎上,通過多項Logistic回歸完成多分類任務。用y表示Logistic回歸內(nèi)的多分類標簽,其取值范圍為不小于2,訓練樣本集合為k個被標簽的樣本,描述為式(8)。T={(x1,y1),(x2,y2),…,(xk,yk)}(8)式中,yi∈{1,2,…,k}和xi分別表示分類標簽與樣本集合。j表示不同電子音樂類型,判斷j的概率值,表示單個電子音樂頻譜波形圖歸為第k類標簽概率的表達式為式(9)。P(y=j|x)(j=1,2,…,k)(9)式中,能夠表示回歸樣本集合轉(zhuǎn)換為k維度的概率向量,概率向量的函數(shù)為式(10)。Max分類器的學習參數(shù)和歸一化處理概率并令概率總和為1的的數(shù)值。經(jīng)由樣本集訓練與學習,SoftMax分類器利用迭代優(yōu)化過程擬合數(shù)據(jù)曲線,并優(yōu)化參數(shù)θ以降低損失函數(shù)值,其損失函數(shù)描述如式(11)。式中,1{yi=j}表示若yi=j,則兩者均為1,相反兩者均為0。損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù)[15-16],提升參數(shù)準確定,實現(xiàn)不同電子音樂頻譜波形圖樣本的準確辨識。1.2.2卷積神經(jīng)網(wǎng)絡優(yōu)化標準卷積神經(jīng)網(wǎng)絡對圖像進行一層層的映射,直至最后只將輸出層作為特征提取結(jié)果[17-18],這一過程中在中間層丟失大量關鍵圖像特征,降低辨識精度。針對這一問題,結(jié)合層間特征融合思想,在輸出層輸出特征提取結(jié)果過程中輸出輸入圖像在卷積神經(jīng)網(wǎng)絡內(nèi)每一層的映射結(jié)果,選取主成分分析法對提取的全體輸出特征實施降維處理,將其融合為多層深度特征。同時,在下采樣過程中將上限值采樣與均值采樣相結(jié)合,即利用混合采樣的方式充實采樣層的多樣性。利用混合采樣模式能夠同時得到上限值采樣與均值采樣獲取的特征值[19-20],得到更為豐富的圖像,提升卷積神經(jīng)網(wǎng)絡辨識的穩(wěn)定性,混合采樣模式的表達式為式(12)、式(13)。Ti=12(Pmean(Xi-1)+Pmax(Xi-1))(12)Xi=f(WiTi+bi)(13)基于特征提取方式的優(yōu)化能夠改善標準卷積神經(jīng)網(wǎng)絡中單一輸出層與采樣層特征提取不全面的問題,可充分提取電子音樂頻譜波形圖的特征并實現(xiàn)特征融合,提升卷積神經(jīng)網(wǎng)絡辨識性能。利用反向傳播算法進行卷積神經(jīng)網(wǎng)絡訓練,卷積神經(jīng)網(wǎng)絡經(jīng)由正向計算與反向傳播過程,持續(xù)優(yōu)化權值與閾值,令自身均方誤差函數(shù)持續(xù)下降,以滿足卷積神經(jīng)網(wǎng)絡訓練需求。

2實驗結(jié)果與分析

實驗為測試本文設計的基于卷積神經(jīng)網(wǎng)絡的電子音樂辨識模型對于電子音樂辨識的性能,選取國際音頻檢測賽事中所有數(shù)據(jù)的音頻數(shù)據(jù)集為實驗對象,其中包含220首電子音樂(采樣率與比特率分別為10080Hz和16bits)。將實驗對象內(nèi)全部電子音樂手動標記的標簽文件作為實際標簽文件,將這些標簽文件作為測試數(shù)據(jù)的生成依據(jù)以及本文模型電子音樂辨識結(jié)果的對比依據(jù)。

2.1電子音樂預處理效果測試

利用本文模型對實驗對象內(nèi)的電子音樂進行預處理,研究對象中編號為22號的電子音樂預處理結(jié)果如圖1所示。分析圖1得到,采用本文模型對研究對象進行預處理后,研究對象頻譜波動更為平滑,這是由于本文模型中重建研究對象信號頻譜內(nèi)諧波信息,去除研究對象信號頻譜內(nèi)的噪聲,對去噪后的研究對象進行辨識,可提升本文模型辨識結(jié)果。

2.2模型訓練過程測試

將研究對象內(nèi)全部220首電子音樂分為兩部分,分別定義為訓練樣本集和測試樣本集,各樣本集內(nèi)電子音樂數(shù)量分別為160首和60首。在本文模型中輸入訓練樣本集進行訓練,本文模型訓練過程如圖2所示。分析圖2得到采用本文模型辨識研究對像過程中,卷積神經(jīng)網(wǎng)絡初次迭代時,本文模型擬合誤差為0.067。隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài)。本文模型迭代次數(shù)提升至30次時,本文模型的擬合誤差下降至0.01。在本文模型迭代次數(shù)上升至100次時,本文模型的擬合誤差下降至0.008。隨著本文模型迭代次數(shù)持續(xù)上升,本文模型的擬合誤差保持在0.008,由此說明本文模型具有較快的訓練效率,即本文模型具有較快的辨識效率。同時由圖2可知,隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài),擬合誤差越小,表明擬合精度越高。這是因為利用SoftMax分類器優(yōu)化迭代過程,使得損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù),進一步提升參數(shù)準確率。且ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡過擬合問題,迭代次數(shù)的提升可進一步提升擬合精度。

2.3不同方法下識別結(jié)果

為驗證本文模型的有效性,將文獻[2]模型和文獻[3]模型作為對比對象,不同方法辨識結(jié)果如圖3所示。分析圖3得到,相比文獻[2]模型和文獻[3]模型,本文模型對測試樣本集內(nèi)各測試樣本進行辨識,所得辨識率均高于98.5%,由此說明本文模型能夠準確辨識測試樣本,具有較高的辨識率。

2.4模型采樣方式對辨識率的影響

為研究模型下采樣層不同采樣方式對模型辨識率的影響,在本文模型其他條件完全一致的條件下,對比下采樣層采用上限值采樣、均值采樣和混合采樣時本文模型的辨識率如圖4所示。分析圖4,本文模型采用上限值采樣方法、均值采樣方式和混合采樣方式進行研究對象辨識的運行時間差距較小,低于2s。說明不同采樣方式對本文模型的辨識效率的影響并不顯著。但本文模型采用混合采樣方式進行辨識的辨識率均值達到98.5%,顯著高于采用上限值采樣與均值采樣時的辨識率。由此說明混合采樣方式可提升本文模型辨識率。

3總結(jié)

本文設計基于卷積神經(jīng)網(wǎng)絡的電子音樂辨識模型,在電子音樂信息預處理后,利用優(yōu)化后的卷積神經(jīng)網(wǎng)絡辨識電子音樂。實驗結(jié)果顯示本文模型能夠準確辨識電子音樂,且具有較快的效率。在后續(xù)優(yōu)化過程中主要針對如何利用多尺度池化的理念進一步優(yōu)化卷積神經(jīng)網(wǎng)絡,令本文模型在保障辨識精度與效率的基礎上,能夠接受任意尺寸的輸入圖像。

作者:胡淑娟 單位:仙桃職業(yè)學院教育學院