网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

卷積神經(jīng)網(wǎng)絡(luò)下電子音樂(lè)辨識(shí)模型探析

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了卷積神經(jīng)網(wǎng)絡(luò)下電子音樂(lè)辨識(shí)模型探析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

卷積神經(jīng)網(wǎng)絡(luò)下電子音樂(lè)辨識(shí)模型探析

摘要:現(xiàn)有音頻辨識(shí)變模型無(wú)法分辨電子音樂(lè)類型,辨識(shí)精度較低,為此,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)電子音樂(lè)辨識(shí)模型。通過(guò)重建電子音樂(lè)信號(hào)頻譜內(nèi)諧波信息,對(duì)電子音樂(lè)信號(hào)進(jìn)行預(yù)處理,去除電子音樂(lè)信號(hào)頻譜內(nèi)的噪聲,并將去除噪聲后的電子音樂(lè)文件制作成波形圖。將電子音樂(lè)頻譜波形圖作為輸入,利用多層特征融合的混合和采樣方式提取輸入圖像內(nèi)的特性,利用反向傳播算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),通過(guò)SoftMax分類器試點(diǎn)電子音樂(lè)分類辨識(shí)。實(shí)驗(yàn)結(jié)果顯示,所設(shè)計(jì)模型能夠有效去除電子音樂(lè)內(nèi)的噪聲含量,在迭代次數(shù)達(dá)到100次時(shí)即可將模型擬合誤差降至下限值,且辨識(shí)率均值達(dá)到98.5%左右。

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);電子音樂(lè);辨識(shí)模型;諧波信息;混合采樣

0引言

網(wǎng)絡(luò)技術(shù)的快速發(fā)展令互聯(lián)網(wǎng)中產(chǎn)生大量視頻與音頻等多媒體數(shù)據(jù)[1],電子音樂(lè)為網(wǎng)絡(luò)上最為普遍的多媒體音頻。電子音樂(lè)辨識(shí)作為音樂(lè)信號(hào)處理的核心問(wèn)題之一,在歌曲識(shí)別、音頻匹配與推薦等方面均具有關(guān)鍵作用。針對(duì)網(wǎng)絡(luò)數(shù)據(jù)的海量性特性,研究一種可在海量音頻中準(zhǔn)確快速地獲取感興趣的電子音樂(lè)是當(dāng)前音頻識(shí)別領(lǐng)域中的熱點(diǎn)研究問(wèn)題。文獻(xiàn)[2]提出一種雙向卷積神經(jīng)網(wǎng)絡(luò)的音樂(lè)識(shí)別模型。該模型構(gòu)建雙向卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),提取音樂(lè)細(xì)節(jié)特征,將細(xì)節(jié)特征合并成一維特征向量。但該模型無(wú)法去除電子音樂(lè)內(nèi)的噪聲含量。文獻(xiàn)[3]提出一種直接利用視音頻特征進(jìn)行識(shí)別的算法,該算法融合BoW、GIST、顏色矩特征、顏色直方圖和音頻特征進(jìn)行識(shí)別,但該方法無(wú)法分辨電子音樂(lè)類型,辨識(shí)精度較低。針對(duì)當(dāng)前普遍使用的音頻辨識(shí)變模型無(wú)法分辨電子音樂(lè)類型,辨識(shí)精度較低等難題,設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型,并通過(guò)實(shí)驗(yàn)驗(yàn)證該模型的實(shí)際應(yīng)用性能。

1基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型

1.1電子音樂(lè)信號(hào)預(yù)處理

由于電子音樂(lè)在演奏過(guò)程中容易產(chǎn)生音符掩蔽與音符缺失的問(wèn)題[4],這些問(wèn)題將對(duì)最終的音樂(lè)識(shí)別與錄制產(chǎn)生顯著影響。因此在構(gòu)建電子音樂(lè)辨識(shí)模型前需通過(guò)重建電子音樂(lè)信號(hào)頻譜內(nèi)諧波信息的方式對(duì)電子音樂(lè)信號(hào)進(jìn)行預(yù)處理,去除電子音樂(lè)信號(hào)頻譜內(nèi)的噪聲。設(shè)定采樣率為10080Hz,以此對(duì)電子音樂(lè)片段實(shí)施采樣處理,獲取一個(gè)音頻信號(hào)x(n),設(shè)該音頻信號(hào)長(zhǎng)度為I。利用窗函數(shù)W(n)對(duì)音頻信號(hào)x(n)實(shí)施預(yù)處理[5],設(shè)定窗函數(shù)中窗寬度為窗長(zhǎng)度的2倍,由此獲取加窗后待處理的電子音樂(lè)信號(hào)矩陣MN×K,其中K=2IN。用N×N的方陣表示傅里葉變換矩陣Ω,將電子音樂(lè)信號(hào)矩陣MN×K與傅里葉變換矩陣Ω相乘,由此獲取電子音樂(lè)分幀信號(hào)的頻譜矩陣S=Ω×M。依照信號(hào)理論能夠得到[6],電子音樂(lè)信號(hào)的諧波成分在諧波矩陣A上僅分布在分散的數(shù)個(gè)頻率成分上,同時(shí)在時(shí)間尺度上電子音樂(lè)存在顯著的重復(fù)性,由此得到矩陣A存在內(nèi)在的低秩特征,也就是電子音樂(lè)和弦波信息分布在低維子空間內(nèi)[7]。電子音樂(lè)非諧波成分E矩陣內(nèi)聚集各種不同類型噪聲,由于不同類型造成變化的頻繁性存在一定稀疏特性[8],基于此可利用秩函數(shù)構(gòu)建諧波成分模型,利用零范數(shù)構(gòu)建稀疏噪聲模型。由此可將灰度低秩矩陣定義為一個(gè)雙目標(biāo)優(yōu)化問(wèn)題,描述為式(1)。minA,E(rank(A),E0)s.t.S=A+E(1)式中,rank(A)和零范數(shù)·0分別表示矩陣A的秩函數(shù)和矩陣內(nèi)非零元素的數(shù)量;同時(shí)·0也可表示矩陣的稀疏程度。在式(1)內(nèi)引入大于零的折中因子λ,由此以單目標(biāo)優(yōu)化問(wèn)題替代式(1)所示的雙目標(biāo)優(yōu)化問(wèn)題,如式(2)。minA,Erank(A)+λE0s.t.S=A+E(2)式中,多描述的優(yōu)化問(wèn)題實(shí)質(zhì)上是1種多項(xiàng)式復(fù)雜程度的非確定性問(wèn)題,基于此,需確定合適的可取代秩函數(shù)與零范數(shù)的函數(shù)。以確保優(yōu)化問(wèn)題整體具有全局最優(yōu)解為目的[9],要求確定取代函數(shù)為原函數(shù)凸包絡(luò)。而矩陣的核范數(shù)表示矩陣內(nèi)全部奇異值相加的結(jié)果,可理解為是矩陣秩函數(shù)的凸包絡(luò),矩陣內(nèi)非零元素相加的結(jié)果可利用矩陣的1范數(shù)表示,一般情況下可經(jīng)其作為矩陣的稀疏算子,即0范數(shù)的凸包?;诖丝蓪⑹剑?)所示的單目標(biāo)優(yōu)化問(wèn)題轉(zhuǎn)化為式(3)所示的凸優(yōu)化問(wèn)題。minA,EA+λE1s.t.S=A+E(3)式(3)所示的凸優(yōu)化問(wèn)題可通過(guò)增廣拉格朗日乘子法解決,由此能夠獲取最優(yōu)解電子音樂(lè)諧波信息矩陣A,其為電子音樂(lè)原始信號(hào)頻譜重建后的諧波頻譜。重建后的諧波頻譜內(nèi)可分離稀疏噪聲,并重建了頻譜的低秩信息,由此可知,頻譜矩陣A內(nèi)具有一定魯棒性。將去除噪聲后的電子音樂(lè)文件制作成波形圖,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)電子音樂(lè)辨識(shí)。

1.2基于卷積神經(jīng)網(wǎng)絡(luò)的辨識(shí)模型構(gòu)建

1.2.1典型卷積神經(jīng)網(wǎng)絡(luò)。輸入層、卷積層、下采樣層、全連接層標(biāo)和輸出層共同組成標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)[10]。卷積層與下采樣層結(jié)合是卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征的主要結(jié)構(gòu)[11],將去除噪聲后的電子音樂(lè)頻譜波形圖作為輸入層輸入信息,可用T表示。以Xi表示卷積神經(jīng)網(wǎng)絡(luò)第i層的特征(X0=T)。在Xi為卷積層的條件下,描述為式(4)。Xi=f(Xi-1*Ki+bi)(4)式中,Ki和bi分別表示可訓(xùn)練的卷積核和偏置量;*和f(x)分別表示卷積運(yùn)算和激活函數(shù)。使用較為普遍的激活函數(shù)有sigmoid函數(shù)、tanb函數(shù)以及ReLu函數(shù)等[12]。綜合考慮不同激活函數(shù)性能,選取Re-Lu函數(shù)作為卷積層激活函數(shù),描述為式(5)。f(x)=max(0,x)(5)ReLu函數(shù)的主要優(yōu)勢(shì)主要體現(xiàn)在其可令卷積神經(jīng)網(wǎng)絡(luò)部分神經(jīng)元輸出為0,由此令卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生稀疏選性,降低計(jì)算過(guò)程的復(fù)雜性;同時(shí)ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題;ReLu函數(shù)的導(dǎo)數(shù)僅為1或0,可改善卷積神經(jīng)網(wǎng)絡(luò)誤差反向傳播過(guò)程中的梯度消失問(wèn)題。下采樣層對(duì)卷積層獲取的各特征圖內(nèi)n×n區(qū)域的像素實(shí)施采樣處理,降低特征圖尺寸。普遍使用的采樣處理過(guò)程可分為上限值采樣與均值采樣[13]。在Xi表示下采樣層的條件下,上限值采樣與均值采樣表示為式(6)、式(7)。Xi=f(WiPmax(Xi-1)+bi)(6)Xi=f(WiPmean(Xi-1)+bi)(7)式中,Pmax(x)和Pmean(x)分別表示上限值采樣操作和均值采樣操作;Wi和bi分別表示取值與偏置值。下采樣層的主要功能是以保留原始特征信息為基礎(chǔ),進(jìn)行特征圖降維處理,防止出現(xiàn)維數(shù)災(zāi)難,提升變形魯棒性;同時(shí)利用下采樣層還可壓縮特征圖,令計(jì)算過(guò)程難度下降。通常情況下,全連接層處于卷積層、下采樣層同輸出層之間,可將其定義為一個(gè)同淺層神經(jīng)網(wǎng)絡(luò)功能相似的多層感知機(jī),其主要功能是將分布式特征表示映射至樣本標(biāo)記空間內(nèi),并在卷積神經(jīng)網(wǎng)絡(luò)模型表示能力遷移過(guò)程中發(fā)揮防火墻功能[14]。輸出層為一個(gè)解決多分類問(wèn)題的分類器,采用由Logis-tic回歸模型在多分類問(wèn)題方面演化處的SoftMax分類器??紤]Logistic函數(shù)僅可實(shí)現(xiàn)二分類功能,因此SoftMax分類器在繼承Logistic函數(shù)回歸的基礎(chǔ)上,通過(guò)多項(xiàng)Logistic回歸完成多分類任務(wù)。用y表示Logistic回歸內(nèi)的多分類標(biāo)簽,其取值范圍為不小于2,訓(xùn)練樣本集合為k個(gè)被標(biāo)簽的樣本,描述為式(8)。T={(x1,y1),(x2,y2),…,(xk,yk)}(8)式中,yi∈{1,2,…,k}和xi分別表示分類標(biāo)簽與樣本集合。j表示不同電子音樂(lè)類型,判斷j的概率值,表示單個(gè)電子音樂(lè)頻譜波形圖歸為第k類標(biāo)簽概率的表達(dá)式為式(9)。P(y=j(luò)|x)(j=1,2,…,k)(9)式中,能夠表示回歸樣本集合轉(zhuǎn)換為k維度的概率向量,概率向量的函數(shù)為式(10)。Max分類器的學(xué)習(xí)參數(shù)和歸一化處理概率并令概率總和為1的的數(shù)值。經(jīng)由樣本集訓(xùn)練與學(xué)習(xí),SoftMax分類器利用迭代優(yōu)化過(guò)程擬合數(shù)據(jù)曲線,并優(yōu)化參數(shù)θ以降低損失函數(shù)值,其損失函數(shù)描述如式(11)。式中,1{yi=j(luò)}表示若yi=j(luò),則兩者均為1,相反兩者均為0。損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù)[15-16],提升參數(shù)準(zhǔn)確定,實(shí)現(xiàn)不同電子音樂(lè)頻譜波形圖樣本的準(zhǔn)確辨識(shí)。1.2.2卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行一層層的映射,直至最后只將輸出層作為特征提取結(jié)果[17-18],這一過(guò)程中在中間層丟失大量關(guān)鍵圖像特征,降低辨識(shí)精度。針對(duì)這一問(wèn)題,結(jié)合層間特征融合思想,在輸出層輸出特征提取結(jié)果過(guò)程中輸出輸入圖像在卷積神經(jīng)網(wǎng)絡(luò)內(nèi)每一層的映射結(jié)果,選取主成分分析法對(duì)提取的全體輸出特征實(shí)施降維處理,將其融合為多層深度特征。同時(shí),在下采樣過(guò)程中將上限值采樣與均值采樣相結(jié)合,即利用混合采樣的方式充實(shí)采樣層的多樣性。利用混合采樣模式能夠同時(shí)得到上限值采樣與均值采樣獲取的特征值[19-20],得到更為豐富的圖像,提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)的穩(wěn)定性,混合采樣模式的表達(dá)式為式(12)、式(13)。Ti=12(Pmean(Xi-1)+Pmax(Xi-1))(12)Xi=f(WiTi+bi)(13)基于特征提取方式的優(yōu)化能夠改善標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中單一輸出層與采樣層特征提取不全面的問(wèn)題,可充分提取電子音樂(lè)頻譜波形圖的特征并實(shí)現(xiàn)特征融合,提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)性能。利用反向傳播算法進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)由正向計(jì)算與反向傳播過(guò)程,持續(xù)優(yōu)化權(quán)值與閾值,令自身均方誤差函數(shù)持續(xù)下降,以滿足卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練需求。

2實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)為測(cè)試本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型對(duì)于電子音樂(lè)辨識(shí)的性能,選取國(guó)際音頻檢測(cè)賽事中所有數(shù)據(jù)的音頻數(shù)據(jù)集為實(shí)驗(yàn)對(duì)象,其中包含220首電子音樂(lè)(采樣率與比特率分別為10080Hz和16bits)。將實(shí)驗(yàn)對(duì)象內(nèi)全部電子音樂(lè)手動(dòng)標(biāo)記的標(biāo)簽文件作為實(shí)際標(biāo)簽文件,將這些標(biāo)簽文件作為測(cè)試數(shù)據(jù)的生成依據(jù)以及本文模型電子音樂(lè)辨識(shí)結(jié)果的對(duì)比依據(jù)。

2.1電子音樂(lè)預(yù)處理效果測(cè)試

利用本文模型對(duì)實(shí)驗(yàn)對(duì)象內(nèi)的電子音樂(lè)進(jìn)行預(yù)處理,研究對(duì)象中編號(hào)為22號(hào)的電子音樂(lè)預(yù)處理結(jié)果如圖1所示。分析圖1得到,采用本文模型對(duì)研究對(duì)象進(jìn)行預(yù)處理后,研究對(duì)象頻譜波動(dòng)更為平滑,這是由于本文模型中重建研究對(duì)象信號(hào)頻譜內(nèi)諧波信息,去除研究對(duì)象信號(hào)頻譜內(nèi)的噪聲,對(duì)去噪后的研究對(duì)象進(jìn)行辨識(shí),可提升本文模型辨識(shí)結(jié)果。

2.2模型訓(xùn)練過(guò)程測(cè)試

將研究對(duì)象內(nèi)全部220首電子音樂(lè)分為兩部分,分別定義為訓(xùn)練樣本集和測(cè)試樣本集,各樣本集內(nèi)電子音樂(lè)數(shù)量分別為160首和60首。在本文模型中輸入訓(xùn)練樣本集進(jìn)行訓(xùn)練,本文模型訓(xùn)練過(guò)程如圖2所示。分析圖2得到采用本文模型辨識(shí)研究對(duì)像過(guò)程中,卷積神經(jīng)網(wǎng)絡(luò)初次迭代時(shí),本文模型擬合誤差為0.067。隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài)。本文模型迭代次數(shù)提升至30次時(shí),本文模型的擬合誤差下降至0.01。在本文模型迭代次數(shù)上升至100次時(shí),本文模型的擬合誤差下降至0.008。隨著本文模型迭代次數(shù)持續(xù)上升,本文模型的擬合誤差保持在0.008,由此說(shuō)明本文模型具有較快的訓(xùn)練效率,即本文模型具有較快的辨識(shí)效率。同時(shí)由圖2可知,隨著本文模型迭代次數(shù)逐漸上升,本文模型的擬合誤差呈逐漸下降狀態(tài),擬合誤差越小,表明擬合精度越高。這是因?yàn)槔肧oftMax分類器優(yōu)化迭代過(guò)程,使得損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù),進(jìn)一步提升參數(shù)準(zhǔn)確率。且ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力,降低參數(shù)間的依賴性,在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題,迭代次數(shù)的提升可進(jìn)一步提升擬合精度。

2.3不同方法下識(shí)別結(jié)果

為驗(yàn)證本文模型的有效性,將文獻(xiàn)[2]模型和文獻(xiàn)[3]模型作為對(duì)比對(duì)象,不同方法辨識(shí)結(jié)果如圖3所示。分析圖3得到,相比文獻(xiàn)[2]模型和文獻(xiàn)[3]模型,本文模型對(duì)測(cè)試樣本集內(nèi)各測(cè)試樣本進(jìn)行辨識(shí),所得辨識(shí)率均高于98.5%,由此說(shuō)明本文模型能夠準(zhǔn)確辨識(shí)測(cè)試樣本,具有較高的辨識(shí)率。

2.4模型采樣方式對(duì)辨識(shí)率的影響

為研究模型下采樣層不同采樣方式對(duì)模型辨識(shí)率的影響,在本文模型其他條件完全一致的條件下,對(duì)比下采樣層采用上限值采樣、均值采樣和混合采樣時(shí)本文模型的辨識(shí)率如圖4所示。分析圖4,本文模型采用上限值采樣方法、均值采樣方式和混合采樣方式進(jìn)行研究對(duì)象辨識(shí)的運(yùn)行時(shí)間差距較小,低于2s。說(shuō)明不同采樣方式對(duì)本文模型的辨識(shí)效率的影響并不顯著。但本文模型采用混合采樣方式進(jìn)行辨識(shí)的辨識(shí)率均值達(dá)到98.5%,顯著高于采用上限值采樣與均值采樣時(shí)的辨識(shí)率。由此說(shuō)明混合采樣方式可提升本文模型辨識(shí)率。

3總結(jié)

本文設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂(lè)辨識(shí)模型,在電子音樂(lè)信息預(yù)處理后,利用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)電子音樂(lè)。實(shí)驗(yàn)結(jié)果顯示本文模型能夠準(zhǔn)確辨識(shí)電子音樂(lè),且具有較快的效率。在后續(xù)優(yōu)化過(guò)程中主要針對(duì)如何利用多尺度池化的理念進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò),令本文模型在保障辨識(shí)精度與效率的基礎(chǔ)上,能夠接受任意尺寸的輸入圖像。

作者:胡淑娟 單位:仙桃職業(yè)學(xué)院教育學(xué)院

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表