前言:想要寫出一篇引人入勝的文章?我們特意為您整理了機(jī)器學(xué)習(xí)下的入侵檢測技術(shù)研究實現(xiàn)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:目前大多數(shù)入侵檢測系統(tǒng)都是基于一個特定的預(yù)定義模式(特征值)來匹配已知的攻擊功能?;谔卣髦档姆椒ǖ闹饕窒扌栽谟谒蛔R別新的攻擊,甚至不識別已知漏洞中的微小變化。該文基于機(jī)器學(xué)習(xí)技術(shù),采用k-means聚類算法和支持向量機(jī)分類算法,能夠自動構(gòu)造正常分組有效載荷的分布并檢測其偏差。實驗表明,機(jī)器學(xué)習(xí)算法比大多數(shù)使用的開源snort系統(tǒng)有更高的檢測精度。
關(guān)鍵詞:入侵檢測;機(jī)器學(xué)習(xí);分類算法;k-means聚類
1入侵檢測系統(tǒng)
入侵檢測系統(tǒng)(ids)用于檢測網(wǎng)絡(luò)攻擊者。圖1所示的入侵檢測系統(tǒng)(ids)結(jié)構(gòu)用于檢測主要通過網(wǎng)絡(luò)試圖闖入計算機(jī)系統(tǒng)的攻擊者。即使防火墻可以檢測到未經(jīng)授權(quán)的用戶訪問網(wǎng)絡(luò),但當(dāng)計算機(jī)用戶或網(wǎng)絡(luò)管理允許對系統(tǒng)(如web服務(wù)器)進(jìn)行開放式訪問時,它也無法防止入侵企圖。攻擊或黑客的企圖可能導(dǎo)致探測和拒絕服務(wù)(DoS)攻擊。在入侵檢測系統(tǒng)(ids)中,目標(biāo)是檢測網(wǎng)絡(luò)上某個特定的行為是否是異常行為。異常檢測需要標(biāo)記特征。在整個網(wǎng)絡(luò)入侵檢測工作領(lǐng)域中,異常檢測的不同階段所使用的術(shù)語存在著一定的差異。對網(wǎng)絡(luò)檢測系統(tǒng)的各個階段以及在各個階段中使用的術(shù)語的定義進(jìn)行了一些定義。觀察:單個數(shù)據(jù)單元。在網(wǎng)絡(luò)系統(tǒng)的入侵中,數(shù)據(jù)單元可以是網(wǎng)絡(luò)包、特定狀態(tài)服務(wù)器或特定時間的計算機(jī)。特征:特定類型的信息。觀測通常有許多特點(diǎn)。在網(wǎng)絡(luò)入侵檢測系統(tǒng)中,特征可以包括目標(biāo)IP地址、包長度和網(wǎng)絡(luò)的時間戳。數(shù)據(jù)集:觀察的集合,每個觀察都包含每個特征的值。通常,數(shù)據(jù)集用矩陣表示,其中行表示觀測值,列表示要素。預(yù)處理:異常檢測工具對數(shù)據(jù)集進(jìn)行的操作,假定預(yù)處理對實驗結(jié)果沒有影響。監(jiān)督方法:利用已標(biāo)識的數(shù)據(jù)訓(xùn)練系統(tǒng),使其能夠識別新數(shù)據(jù)的方法。標(biāo)記的訓(xùn)練示例可以是以前系統(tǒng)過程的系統(tǒng)輸出,也可以是手動添加標(biāo)記。無監(jiān)督方法:不需要使用已經(jīng)識別的數(shù)據(jù)來訓(xùn)練系統(tǒng),它可以識別新的數(shù)據(jù)。聚類:基于相似性的群體觀察。通常,無監(jiān)督群集:在生成組后選擇組標(biāo)簽。根據(jù)相似性將觀察結(jié)果分組。大多數(shù)入侵檢測系統(tǒng)的研究論文都提出了不同的入侵檢測算法,如自適應(yīng)共振理論、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計概率分布和盲分類等。大多數(shù)算法使用kdd99作為數(shù)據(jù)集來驗證其入侵檢測性能。kdd99數(shù)據(jù)集是一個已有20年歷史的數(shù)據(jù)集,具有41個復(fù)雜的特征。本文研究的是當(dāng)前在真實環(huán)境中獲取的在線數(shù)據(jù)集。對收集到的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,得到只有13個特征(bit19數(shù)據(jù)集)。bit19數(shù)據(jù)集的特征數(shù)小于kdd99數(shù)據(jù)集。將正常的網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)攻擊分為dos和probe兩類,以減少計算處理時間,分析網(wǎng)絡(luò)數(shù)據(jù),保護(hù)網(wǎng)絡(luò)安全。此外,在實驗中,使用已知攻擊和未知攻擊來測試我們的ids。
2機(jī)器學(xué)習(xí)算法
2.1k-均值聚類算法
k-means聚類的目的是利用最小二乘法對數(shù)據(jù)進(jìn)行分類。目的是將n個觀測值分成k個簇,每個簇都屬于類別最近的群。即,k-means聚類是一種基于屬性/特征將對象分類或分組為k個組的算法。k是正整數(shù)。聚類主要是計算每個數(shù)據(jù)到每個組中心距離的平方值,找出最小距離是最近的組。
2.2支持向量機(jī)分類算法
支持向量機(jī)(SVM)分類算法是一套相關(guān)的有監(jiān)督學(xué)習(xí)方法,主要用于數(shù)據(jù)分析和模式識別等常用的分類和回歸分析方法。該方法根據(jù)分類器的結(jié)構(gòu)和特性而變化。最常見的支持向量機(jī)是使用線性分類器來預(yù)測兩個可能類別之間每個輸入的成員類。更準(zhǔn)確的定義是支持向量機(jī)構(gòu)造一個超平面或超平面集,將所有輸入分類到高空間甚至無限空間。最接近分類邊界的值稱為支持向量。支持向量機(jī)的目標(biāo)是最大化超平面與支持向量之間的邊界。
2.3評價標(biāo)準(zhǔn)
在本文中,ids的檢測性能基于以下值:ids的總檢測率(drt):指ids能夠正確檢測dos攻擊、prob攻擊和正常網(wǎng)絡(luò)數(shù)據(jù)的百分比。ids的正常網(wǎng)絡(luò)數(shù)據(jù)檢測率(drn):ids能夠正確檢測正常網(wǎng)絡(luò)數(shù)據(jù)的百分比。ids的dos攻擊檢測率(drd):ids能夠正確檢測dos攻擊數(shù)據(jù)的百分比。入侵檢測系統(tǒng)的prob攻擊檢測率(drp):指入侵檢測系統(tǒng)能夠正確檢測prob攻擊網(wǎng)絡(luò)數(shù)據(jù)的百分比。
3實驗結(jié)果
在實驗中,將bit19數(shù)據(jù)集分成三組,即訓(xùn)練數(shù)據(jù)集和兩個測試數(shù)據(jù)集。在已知攻擊類型的第一次實驗中,訓(xùn)練數(shù)據(jù)有7100條記錄,包括2700條dos記錄、2700條探測記錄和2700條正常記錄。另一方面,測試數(shù)據(jù)器有5100條記錄,包括1700條DOS記錄、1700條探針記錄和1700條正常記錄。在第二個未知攻擊類型的實驗中,使用與第一個實驗相同的訓(xùn)練數(shù)據(jù)集,但是測試數(shù)據(jù)集不同。它有三種未知攻擊類型,每種攻擊類型有1500個攻擊記錄,共有4500個記錄。3.1已知攻擊的實驗結(jié)果利用BIT19訓(xùn)練集進(jìn)行訓(xùn)練后,第一次實驗結(jié)果見表1。k-mean聚類算法和支持向量機(jī)分類算法也提供了類似的非常好的結(jié)果。示圖尺寸一般為(寬*高):75mm*50mm.黑白繪圖,請確保圖表中文字清晰。
4結(jié)論
本文在bit19數(shù)據(jù)集的基礎(chǔ)上,研究了兩種不同的機(jī)器學(xué)習(xí)技術(shù):k均值聚類算法和支持向量機(jī)分類算法。從第一次對已知攻擊類型的實驗來看,兩種技術(shù)的檢測率都高于98%。在對未知攻擊類型進(jìn)行實驗時,支持向量機(jī)技術(shù)的檢測率與第一次實驗相同,總檢測率為97%,而k均值聚類的檢測率平均下降到80%左右。該框架的主要優(yōu)點(diǎn)是利用無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)檢測網(wǎng)絡(luò)流量中的未知攻擊。我們提出的框架是基于(a)將來自網(wǎng)絡(luò)包的字節(jié)流嵌入到由一些預(yù)定義語言引起的高維向量空間中,(b)使用字節(jié)序列之間的相似性度量來構(gòu)造一個正?;顒拥哪P汀J褂迷摻ㄗh框架的主要優(yōu)點(diǎn)是能夠可靠地檢測以前不可見的漏洞,而無須對系統(tǒng)進(jìn)行培訓(xùn)——這是由于當(dāng)前漏洞相對于傳統(tǒng)的基于簽名的網(wǎng)絡(luò)入侵檢測系統(tǒng)的可變性造成的。由于近年來變異性的增加,框架變得非常重要。
作者:張海燕 李根源 辜建銳 林開榮 單位:北京理工大學(xué)珠海學(xué)院