前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計(jì)算機(jī)安全審核中大數(shù)據(jù)技術(shù)的應(yīng)用范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:筆者以計(jì)算機(jī)信息安全為研究對(duì)象,分析大數(shù)據(jù)技術(shù)在信息安全系統(tǒng)中的具體應(yīng)用,并嘗試將系統(tǒng)優(yōu)化,結(jié)合Apriori算法的應(yīng)用理念,通過算法的應(yīng)用流程展現(xiàn)大數(shù)據(jù)技術(shù)在計(jì)算機(jī)中的具體應(yīng)用,分析大數(shù)據(jù)技術(shù)維護(hù)信息安全的能力,實(shí)現(xiàn)網(wǎng)絡(luò)安全的目標(biāo)。
關(guān)鍵詞:Apriori算法;遺傳算法;信息安全
引言
在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)信息安全問題來自多重因素,具體包括網(wǎng)絡(luò)環(huán)境的開放性、人為操作的失誤問題、黑客入侵、垃圾信息干擾等。為保障網(wǎng)絡(luò)信息安全,可以采取的防護(hù)措施包括:增強(qiáng)計(jì)算機(jī)應(yīng)用人員的安全防護(hù)意識(shí)、搭建防火墻、提升黑客的防護(hù)能力等。在防護(hù)措施中,以大數(shù)據(jù)技術(shù)為主導(dǎo),具有良好的應(yīng)用效果。
1計(jì)算機(jī)安全審核系統(tǒng)搭建
安全審核系統(tǒng)中包括多個(gè)模塊,如圖1所示,筆者分別從主機(jī)網(wǎng)絡(luò)、集中式與分布式、智能3個(gè)方面建設(shè)安全審核系統(tǒng)。由圖1可知,主機(jī)網(wǎng)絡(luò)安全審核包括基于主機(jī)的安全審核和基于網(wǎng)絡(luò)的安全審核。集中式安全審核系統(tǒng)和分布式審核系統(tǒng),包括集中式安全審核和分布式安全審核?;谥悄?a href="http://saumg.com/lunwen/jsjaqlw/151238.html" target="_blank">技術(shù)的分布式安全審核系統(tǒng)包括AAFID系統(tǒng)結(jié)構(gòu)和AAFID的過濾器。主機(jī)視角開展的信息安全審核:依據(jù)系統(tǒng)日志識(shí)別入侵信息,針對(duì)入侵類型開展系統(tǒng)修復(fù)。網(wǎng)絡(luò)安全審核:分析網(wǎng)絡(luò)傳輸數(shù)據(jù)信息,保障數(shù)據(jù)安全。集中式與分布式開展的安全審核:將多個(gè)系統(tǒng)中的數(shù)據(jù),實(shí)行數(shù)據(jù)采集與整合方式,加以數(shù)據(jù)分析,此方式極易引起網(wǎng)絡(luò)傳輸容量不足、計(jì)算能力不佳等問題;在分布式信息審核系統(tǒng)中,借助網(wǎng)絡(luò)檢測(cè)器,融合于系統(tǒng)環(huán)節(jié)中,實(shí)現(xiàn)了采集數(shù)據(jù)完整傳輸至主機(jī)的技術(shù)目標(biāo),良好解決了集中計(jì)算產(chǎn)生的并發(fā)性能不足、傳輸效率不佳等問題,提升了安全審核的效率。分布式信息審核運(yùn)行劣勢(shì)為:引起中心系統(tǒng)單點(diǎn)失效問題、系統(tǒng)擴(kuò)展能力不佳。由此發(fā)現(xiàn),安全審核功能,在一定程度上保障了數(shù)據(jù)信息的完整性與安全性,能夠?yàn)橄到y(tǒng)運(yùn)行提供數(shù)據(jù)保障。
2大數(shù)據(jù)技術(shù)的應(yīng)用
2.1系統(tǒng)優(yōu)化
大數(shù)據(jù)應(yīng)用系統(tǒng)的模塊包括數(shù)據(jù)收集(采集)、數(shù)據(jù)保存(存儲(chǔ))、數(shù)據(jù)分析(挖掘)和數(shù)據(jù)應(yīng)用(展示)。安全審核系統(tǒng)如圖2所示。由圖2可知,大數(shù)據(jù)計(jì)算支持的安全審核系統(tǒng)中,數(shù)據(jù)收集模塊由日志、用戶行為等8個(gè)部分組成,以此保障數(shù)據(jù)收集來源,有效獲取多種結(jié)構(gòu)的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)、非結(jié)構(gòu)3種,并且從系統(tǒng)各模塊中獲取相關(guān)數(shù)據(jù),包括流量類、行為類、檢測(cè)類數(shù)據(jù)信息。當(dāng)數(shù)據(jù)收集完成時(shí),應(yīng)將數(shù)據(jù)完整保存在分布式層級(jí)中。存儲(chǔ)數(shù)據(jù)選擇的技術(shù)有多種,具體包括MySQL、HDFS等,此類數(shù)據(jù)庫(kù)能夠有效保存數(shù)據(jù)。在數(shù)據(jù)分析模塊中,采用的大數(shù)據(jù)技術(shù)為Mahout、遺傳算法等計(jì)算方式,針對(duì)數(shù)據(jù)異常事件加以分析。
2.2Apriori算法
2.2.1算法理念A(yù)priori算法屬于應(yīng)用較為廣泛的數(shù)據(jù)分析計(jì)算方式,此算法理念為:假定數(shù)據(jù)庫(kù)中含有n項(xiàng)數(shù)據(jù),并用數(shù)據(jù)集符號(hào)S加以表示,即S={S1,S2,...,Sn}。與其相關(guān)聯(lián)的數(shù)據(jù)T,作為數(shù)據(jù)庫(kù)事務(wù)中的數(shù)據(jù)集合。為此,數(shù)據(jù)庫(kù)中任意事務(wù)F,均作為數(shù)據(jù)集S的分項(xiàng)子集,存在T∈S的關(guān)系式。其中X、Y存在關(guān)聯(lián)關(guān)系,并且滿足X被包含于I、Y,包含于Y、X與Y的交集結(jié)果為空集[1]。在總事務(wù)占比中,以D作為符號(hào),X與Y之間的關(guān)聯(lián)支持度數(shù)值為P(X合并Y),在X占比置信度的計(jì)算中,X與Y關(guān)聯(lián)關(guān)系的置信度數(shù)值為P(X|Y)。集合處理期間,針對(duì)數(shù)據(jù)集的多重性,有效集成數(shù)據(jù),使之形成項(xiàng)集。如果數(shù)據(jù)集基數(shù)為m個(gè),即稱為m項(xiàng)集。如果數(shù)據(jù)集中存在支持度較高的一項(xiàng),并且其設(shè)定的支持度最小閾值以min為表示方式,將此數(shù)據(jù)集作為頻率較高的項(xiàng)集,即將序列全部的高頻項(xiàng)集有序整合,形成新的項(xiàng)集,并以Lm為表示方式。Apriori算法開展的數(shù)據(jù)分析流程為:①以迭代方式,查詢數(shù)據(jù)庫(kù)中現(xiàn)存的高頻數(shù)據(jù)集,此程序中計(jì)算數(shù)值的支持度>設(shè)定閾值;②依據(jù)用戶日志中提取的置信度的最小值分析數(shù)據(jù)價(jià)值。
2.2.2算法流程由數(shù)據(jù)分析可知:在Apriori算法的運(yùn)行理念中,將每層搜索的數(shù)據(jù),配合迭代的計(jì)算方式,有效獲取了高頻數(shù)據(jù)集,以數(shù)據(jù)分析技術(shù)為基礎(chǔ),獲取高頻數(shù)據(jù)集,以此確定數(shù)據(jù)集之間存在的關(guān)聯(lián)關(guān)系。如圖3所示,為Apriori算法的信息核算流程。Apriori算法的圖解流程:①初始化操作,在數(shù)據(jù)庫(kù)中搜索全部數(shù)據(jù),并確定高頻項(xiàng)集合S1;②將Sn-2(其中n不小于2)以自連接方式獲取n階數(shù)據(jù),設(shè)定候選項(xiàng)目集合為Cn;③在備選高頻項(xiàng)目中,將任意子集作為剔除對(duì)象,如果n階備選項(xiàng)目中存在關(guān)系式為Cn-1∈Cn,并且Cn-1∉Sn-1,此種關(guān)系說明備選數(shù)據(jù)中不包含項(xiàng)頻數(shù),可將其剔除;④在②、③中執(zhí)行流程,對(duì)于尚未發(fā)現(xiàn)高階層次的項(xiàng)目數(shù)據(jù),獲取數(shù)據(jù)分析序列。Apriori算法的應(yīng)用實(shí)例如下,獲取了6組數(shù)據(jù)。序列1的數(shù)據(jù)集為:1、2、3、4、5、6、7。序列2的數(shù)據(jù)集為:2、5、6、9。序列3的數(shù)據(jù)集為:2、4、5。序列4的數(shù)據(jù)集為:1、3、7。序列5的數(shù)據(jù)集為:1、2、6。序列6的數(shù)據(jù)集為:2、3、6、7。結(jié)合實(shí)例的Apriori算法流程:遍歷數(shù)據(jù)集,獲取1階項(xiàng)目數(shù)據(jù)集,即S1={1=3,2=5,……,9=1},S2={12,13,14,15,……,46,47,49},令S2自主連接,獲取C3項(xiàng)目數(shù)據(jù)集[2]。
2.2.3遺傳算法遺傳算法的組成元素包括基因、染色體、適應(yīng)度等,此類元素通過交叉與變異,逐漸形成算法元素。(1)基因。在遺傳學(xué)論述中,基因指DN段,基因含有基數(shù)較大的遺傳信息,基因作為遺傳算法中的基礎(chǔ)性計(jì)算單位。在遺傳算法中開展基因計(jì)算流程,可選擇二進(jìn)制與整數(shù)的計(jì)算方式。(2)染色體。染色體包含多組基因,作為信息承載的介質(zhì)。染色體編碼形式包括浮點(diǎn)數(shù)與二進(jìn)制兩種方式。浮點(diǎn)數(shù)編碼形式指:假設(shè)種群基數(shù)為m,符號(hào)表示為xii,表示數(shù)據(jù)更迭期間,i個(gè)數(shù)據(jù)個(gè)體,基因長(zhǎng)度設(shè)為n,則個(gè)體表示為xii屬于Rn,以xii作為n維行向量的表示方式,即可表示為xii={xii1,xii2,...,xii3}。在更迭期間,數(shù)據(jù)種群xii表示方式矩陣為主,即n×m。在種群中的矩陣以X0為表示方式,則有X0={x01,x02,...,x0n},在矩陣中尚未發(fā)現(xiàn)兩行相同的數(shù)據(jù),表示種群存在互異性。在二進(jìn)制程序中,如若種群基數(shù)為m,表示方式為xii,代表數(shù)據(jù)更迭期間存在第i個(gè)數(shù)據(jù)個(gè)體,并且每個(gè)數(shù)據(jù)個(gè)體位數(shù)表示方式為1。其中,基因基數(shù)的計(jì)算可表示為L(zhǎng)=ml。數(shù)據(jù)個(gè)體xii以ml作為表示方式,獲取其行向量數(shù)值,即xii={xii1,xii2,...,xii3},最終以二進(jìn)制編碼為計(jì)算方式,將編程轉(zhuǎn)化為實(shí)際,應(yīng)采取的計(jì)算流程為:11/212)tjljfxiikmkmkvkx−=(,)=+(−)(−)(∑×(1)(3)種群。進(jìn)化論中的種群概念指多組物種通過排列方式形成的群體結(jié)構(gòu)。此概念融合于遺傳算法流程中,以此可知,遺傳算法種群表示的是某代染色體數(shù)量總和。在計(jì)算過程中,設(shè)定種群初始數(shù)值不小于100[3]。
2.2.4算法改良在進(jìn)行全局?jǐn)?shù)據(jù)搜索時(shí),遺傳算法性能良好,得到廣泛應(yīng)用。Apriori算法的應(yīng)用優(yōu)勢(shì)在于計(jì)算流程實(shí)現(xiàn)過程較為簡(jiǎn)單,不足在于數(shù)據(jù)量基數(shù)較大時(shí),數(shù)據(jù)處理能力不佳。為改善Apriori算法的應(yīng)用性能,采取以遺傳算法與Apriori算法相結(jié)合的方式。數(shù)據(jù)中的有限數(shù)據(jù)集以D為表示方式,即D={d1,d2,...,dn},此類數(shù)據(jù)集在系統(tǒng)中獲取了良好運(yùn)行,依據(jù)Apriori算法的運(yùn)行理念,開展強(qiáng)項(xiàng)集合的計(jì)算分析。在強(qiáng)項(xiàng)結(jié)合求解期間,借助遺傳算法理念,解決算法讀取數(shù)據(jù)問題,有效增強(qiáng)了算法性能。算法設(shè)計(jì)應(yīng)遵循改良思想開展,采取二進(jìn)制編碼思想,將安全關(guān)聯(lián)的相關(guān)信息,以二進(jìn)制行為表示,并關(guān)聯(lián)信息連接。同時(shí),依據(jù)計(jì)算機(jī)安全審核所具有的關(guān)聯(lián)能力,定義染色體的排列狀態(tài),采取二進(jìn)制編碼形式測(cè)定網(wǎng)絡(luò)的數(shù)據(jù)流量。在完成編碼的基礎(chǔ)上,開展適應(yīng)度關(guān)系式設(shè)定。在遺傳算法中,針對(duì)Apriori算法對(duì)數(shù)據(jù)庫(kù)讀取過程存在效率不足、運(yùn)行緩慢等問題,應(yīng)在算法改良期間,予以解決。為此,在適應(yīng)度關(guān)系式中,應(yīng)包括兩個(gè)變量,即支持度、置信度。關(guān)系式為:f(x)=aS(x)+bB(x)。其中,ab表示常用數(shù)值,S(x)代表支持度數(shù)值,B(x)指置信度數(shù)值。
2.2.5性能分析在試驗(yàn)過程中,運(yùn)行系統(tǒng)為Windows7,內(nèi)存為16GB,仿真系統(tǒng)為Python3.7。在試運(yùn)行期間,數(shù)據(jù)來源為近階段安全審核系統(tǒng)中現(xiàn)存的數(shù)據(jù)。安全審核系統(tǒng)所具有的數(shù)據(jù)保存容量為500MB。其中,種群基數(shù)設(shè)定為150,變異率設(shè)定為0.13,交叉率設(shè)定為0.9。性能分析方式如下。第一,劃分次數(shù)對(duì)分析數(shù)據(jù)效率產(chǎn)生的影響。經(jīng)試運(yùn)行發(fā)現(xiàn),改進(jìn)算法與經(jīng)典算法對(duì)比時(shí),在劃分次數(shù)累加時(shí),改進(jìn)算法所用的運(yùn)算時(shí)間較短,劃分次數(shù)對(duì)數(shù)據(jù)分析結(jié)果產(chǎn)生的影響較小。第二,數(shù)據(jù)分析基數(shù)對(duì)分析數(shù)據(jù)效率產(chǎn)生的影響。經(jīng)試運(yùn)行發(fā)現(xiàn),在數(shù)據(jù)分析時(shí)間增加時(shí),數(shù)據(jù)分析基數(shù)提升,改進(jìn)算法數(shù)據(jù)分析所需的時(shí)間相對(duì)較少,由此說明,在調(diào)整數(shù)據(jù)分析基數(shù)中,其運(yùn)算效率不變,尚未對(duì)其產(chǎn)生不良影響。
3結(jié)語(yǔ)
在物聯(lián)網(wǎng)背景下,安全技術(shù)逐漸成為信息領(lǐng)域的關(guān)鍵性技術(shù)。本文以安全審核技術(shù)為基礎(chǔ),搭建具有信息安全防護(hù)與審核能力的應(yīng)用型平臺(tái),以此完善大數(shù)據(jù)技術(shù)的審核系統(tǒng),分別從數(shù)據(jù)收集、數(shù)據(jù)有效保存、數(shù)據(jù)信息分析、數(shù)據(jù)應(yīng)用4個(gè)角度開展審核系統(tǒng)設(shè)計(jì),并且借助Apriori算法提升系統(tǒng)安全審核能力,保障信息安全。
參考文獻(xiàn)
[1]趙培琨.大數(shù)據(jù)時(shí)代計(jì)算機(jī)網(wǎng)絡(luò)信息安全及防護(hù)策略[J].計(jì)算機(jī)產(chǎn)品與流通,2020(5):36,52.
[2]董偉.大數(shù)據(jù)技術(shù)在計(jì)算機(jī)安全審核中應(yīng)用研究[J].現(xiàn)代計(jì)算機(jī),2020(10):23-29.
[3]侯毅.大數(shù)據(jù)環(huán)境下計(jì)算機(jī)信息安全技術(shù)探討[J].中國(guó)新通信,2020,22(6):135.
作者:古力米熱·阿吾旦 單位:新疆財(cái)經(jīng)大學(xué)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):--