前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)挖掘體系架構(gòu)研究范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:為了解決現(xiàn)代數(shù)據(jù)挖掘過程中面臨的數(shù)據(jù)復(fù)雜程度較高及數(shù)據(jù)訪問量較大的問題,文章設(shè)計(jì)了基于云計(jì)算環(huán)境下的大數(shù)據(jù)挖掘體系架構(gòu)。與傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)相比,具有較高的可擴(kuò)展性、面向服務(wù)、大量數(shù)據(jù)處理能力及成本較低的優(yōu)點(diǎn),還能夠支持大范圍的分布式數(shù)據(jù)挖掘,降低企業(yè)和運(yùn)營商在數(shù)據(jù)挖掘技術(shù)中的投入,減短研發(fā)周期,有效提高產(chǎn)品的效率。此架構(gòu)能夠幫助企業(yè)實(shí)現(xiàn)數(shù)據(jù)分析和動(dòng)態(tài)資源池的配置,有效滿足企業(yè)的需求。
關(guān)鍵詞:云計(jì)算;挖掘服務(wù);大數(shù)據(jù);挖掘體系架構(gòu)
在互聯(lián)網(wǎng)及物聯(lián)網(wǎng)不斷發(fā)展的過程中,我國已經(jīng)處于信息及數(shù)據(jù)超量的信息時(shí)代中。如何對(duì)此產(chǎn)品產(chǎn)生的大量數(shù)據(jù)進(jìn)行挖掘,是現(xiàn)代運(yùn)營商需要解決的問題。自從云計(jì)算技術(shù)的出現(xiàn),為數(shù)據(jù)挖掘技術(shù)提供了更好的發(fā)展方向。云計(jì)算可以實(shí)現(xiàn)資源動(dòng)態(tài)分析、虛擬化功能,可以為應(yīng)用程序高性能開發(fā)提供幫助。本文所設(shè)計(jì)的平臺(tái)能夠降低企業(yè)和運(yùn)營商在數(shù)據(jù)挖掘方面的投入,還能夠促進(jìn)挖掘業(yè)務(wù)的推出,有效提高產(chǎn)品的收益。
1基于云計(jì)算的數(shù)據(jù)挖掘策略
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)就是利用識(shí)別技術(shù)、統(tǒng)計(jì)學(xué)、學(xué)習(xí)機(jī)器、人工智能等技術(shù),采取聚類、分析預(yù)測、特征化、關(guān)聯(lián)性數(shù)據(jù)等分類方法,從大量、隨機(jī)、不完整、模糊、噪聲數(shù)據(jù)中找出有價(jià)值的數(shù)據(jù)和信息[1]。
1.2云計(jì)算
云計(jì)算是商業(yè)計(jì)算中使用比較多的技術(shù),它就是將各種數(shù)據(jù)儲(chǔ)存在計(jì)算機(jī)資源結(jié)構(gòu)池中,這樣才能滿足系統(tǒng)自行建立信息儲(chǔ)存空間和計(jì)算、服務(wù)空間等。一般云計(jì)算包括軟件即服務(wù)(SoftwareasaService,SaaS)、基礎(chǔ)設(shè)備服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)服務(wù)(PlatformasaService,PaaS)等模塊功能。
1.3數(shù)據(jù)挖掘云化
云計(jì)算的利用提高了數(shù)據(jù)挖掘技術(shù)的效率,同時(shí)也給數(shù)據(jù)挖掘技術(shù)帶來了新挑戰(zhàn)。很多行業(yè)的發(fā)展也開始利用云計(jì)算進(jìn)行數(shù)據(jù)挖掘,傳統(tǒng)的數(shù)據(jù)挖掘平臺(tái)需要進(jìn)一步完善[2]。
2基于云計(jì)算和挖掘服務(wù)的大數(shù)據(jù)挖掘體系結(jié)構(gòu)
傳統(tǒng)的數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較少,而且都是從數(shù)據(jù)倉庫中挖掘,數(shù)據(jù)類型較為單一。數(shù)據(jù)云化模型具有高速、高精度、大量數(shù)據(jù)處理功能,它能夠利用數(shù)據(jù)挖掘算法,進(jìn)行范圍的數(shù)據(jù)挖掘分析,數(shù)據(jù)挖掘算法可以進(jìn)行數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,從而擴(kuò)大數(shù)據(jù)挖掘的范圍[3]。
2.1云計(jì)算平臺(tái)
云計(jì)算服務(wù)平臺(tái)包括SaaS,IaaS,Paas等3個(gè)模塊服務(wù),主要是負(fù)責(zé)處理數(shù)據(jù),同時(shí)能夠?qū)崿F(xiàn)儲(chǔ)存和處理數(shù)據(jù)的功能。該平臺(tái)可以和CPU、網(wǎng)絡(luò)支持、儲(chǔ)存等云服務(wù)硬件設(shè)備結(jié)合,利用分布式數(shù)據(jù)挖掘技術(shù)進(jìn)行大量數(shù)據(jù)的處理和計(jì)算。
2.2開放接口的設(shè)計(jì)
云計(jì)算平臺(tái)具有數(shù)據(jù)接口開放服務(wù),它的優(yōu)勢就是具有無態(tài)型功能,用戶可以通過開放接口尋找自己需要的數(shù)據(jù)。在某個(gè)局域網(wǎng)中,可以重復(fù)進(jìn)行緩沖裝置的調(diào)用,從而保證服務(wù)器快速的吞吐量,進(jìn)而減少服務(wù)器工作的負(fù)擔(dān)[4]。
2.3數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)泳哂卸喾N封裝結(jié)構(gòu)形式,包括HTTP,XML,Restful等形式,而且可以實(shí)現(xiàn)結(jié)構(gòu)化語言查詢,通過引擎實(shí)現(xiàn)自動(dòng)解析可以調(diào)動(dòng)云服務(wù)。每個(gè)構(gòu)建行業(yè)的系統(tǒng)都是根據(jù)需求進(jìn)行自身業(yè)務(wù)數(shù)據(jù)調(diào)用,之后整合。數(shù)據(jù)挖掘第三方算法技術(shù)也可以利用工具,比如:Weka分布式和Mathout等算法庫[5]。
2.4分布式系統(tǒng)架構(gòu)
分布式架構(gòu)系統(tǒng)(Hadhoop)是一種軟件框架,可以在更大的平臺(tái)中進(jìn)行分布式數(shù)據(jù)處理,同時(shí)能夠數(shù)據(jù)提供引擎功能處理。下方HDFS文件框架結(jié)構(gòu)是一種分布式系統(tǒng),自身對(duì)外具有接口,能夠促進(jìn)程序自動(dòng)向離數(shù)據(jù)最近的位置進(jìn)行移動(dòng),分布式儲(chǔ)存系統(tǒng)架構(gòu)移動(dòng)計(jì)算數(shù)據(jù)節(jié)點(diǎn)可以有效減少投入成本[6]。上方HDFS能夠促進(jìn)屬于稀疏數(shù)據(jù)的有效解決,從而減少數(shù)據(jù)實(shí)際體量需求,達(dá)到節(jié)省效果成本。上方HBase是一種MapReduse引擎,它具有兩種引擎方式,包括Trackers和Task,該功能的使用改變了傳統(tǒng)執(zhí)行任務(wù)單一的方式,而且能夠?qū)崿F(xiàn)多個(gè)任務(wù)進(jìn)行拆分的功能,之后實(shí)現(xiàn)節(jié)點(diǎn)數(shù)據(jù)挖掘的有效分配,以此建立大量Reduse的任務(wù),在數(shù)據(jù)庫中進(jìn)行但數(shù)據(jù)集加載,從而實(shí)現(xiàn)云計(jì)算數(shù)據(jù)挖掘和高效的大數(shù)據(jù)服務(wù)功能。但是該平臺(tái)是一種流處理和批處理模式,無法進(jìn)行數(shù)據(jù)復(fù)雜、小延遲處理數(shù)據(jù),只能在較低的更新率大量數(shù)據(jù)靜態(tài)中使用,不能有效地實(shí)現(xiàn)計(jì)算內(nèi)存[7]。針對(duì)這種問題可以通過圖片數(shù)據(jù)庫處理工具來解決,同時(shí)結(jié)合分布式儲(chǔ)存和計(jì)算機(jī)技術(shù),實(shí)現(xiàn)快速的數(shù)據(jù)處理和查詢,之后進(jìn)行半結(jié)構(gòu)和非結(jié)構(gòu)化的圖形數(shù)據(jù)和內(nèi)存計(jì)算,從而提高處理復(fù)雜數(shù)據(jù)的效率[8]。
3基于云計(jì)算數(shù)據(jù)挖掘機(jī)構(gòu)的實(shí)現(xiàn)
分布式架構(gòu)系統(tǒng)可以實(shí)現(xiàn)訪問日志、超級(jí)DNS、計(jì)算CDN云和數(shù)據(jù)動(dòng)態(tài)分布功能,具體內(nèi)容包括以下方面。
3.1云計(jì)算
CDN化CDN的運(yùn)行原理是規(guī)避有效網(wǎng)絡(luò)環(huán)境給數(shù)據(jù)穩(wěn)定性和傳輸?shù)挠绊?,在?jié)點(diǎn)通暢網(wǎng)絡(luò)下進(jìn)行數(shù)據(jù)傳輸,從而使用戶獲得相應(yīng)信息,來提高數(shù)據(jù)儲(chǔ)存的效率和穩(wěn)定性,同時(shí)能夠快速保證高效的網(wǎng)站反應(yīng)[9]。可以有效解決靜態(tài)傳輸數(shù)據(jù)中擴(kuò)展問題,云計(jì)算平臺(tái)可以在短時(shí)間內(nèi)解決網(wǎng)絡(luò)靜態(tài)數(shù)據(jù)儲(chǔ)存和擴(kuò)展動(dòng)態(tài)內(nèi)容的問題[10]。
3.2DNS超級(jí)
DNS是一種域名系統(tǒng),可以通過云計(jì)算平臺(tái)進(jìn)行數(shù)據(jù)的融合和擴(kuò)展,從而實(shí)現(xiàn)客戶和企業(yè)進(jìn)行Laas和Paas全面服務(wù)。通過切換智能DNS,在云計(jì)算平臺(tái)中進(jìn)行網(wǎng)站大量IP地址的,通過服務(wù)器/客戶端結(jié)構(gòu)功能,進(jìn)行云計(jì)算平臺(tái)應(yīng)用功能的優(yōu)化。
3.3動(dòng)態(tài)數(shù)據(jù)分布
CDN可以以較低的成本在網(wǎng)站中全面進(jìn)行鋪設(shè)。在結(jié)構(gòu)設(shè)計(jì)中,入股出現(xiàn)節(jié)點(diǎn)問題可以實(shí)現(xiàn)網(wǎng)站的訪問,普通網(wǎng)站用戶服務(wù)都是聚集在特定的區(qū)域中,具有一定的地域性特點(diǎn),通過地域性用戶差異建立網(wǎng)站,在互聯(lián)網(wǎng)環(huán)境下實(shí)現(xiàn)云計(jì)算的創(chuàng)建和部署,在最近用戶位置進(jìn)行平臺(tái)訪問,從而減少網(wǎng)站訪問時(shí)間[11]。
3.4訪問日志
用戶進(jìn)行數(shù)據(jù)通過網(wǎng)絡(luò)的瀏覽時(shí),實(shí)現(xiàn)網(wǎng)站可以日志的記錄訪問。在網(wǎng)絡(luò)環(huán)境下實(shí)現(xiàn)日志信息訪問,之后將數(shù)據(jù)保存在數(shù)據(jù)倉庫中,然后實(shí)現(xiàn)數(shù)據(jù)信息的深度挖掘,通過整合的數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)服務(wù)端的部署。然后根據(jù)訪問用戶網(wǎng)站進(jìn)行的信息,建立反饋意見功能,為云計(jì)算的應(yīng)用平臺(tái)提供幫助[12]。
3.5智能調(diào)度系統(tǒng)
該系統(tǒng)可以有效解決知識(shí)組合問題,實(shí)現(xiàn)快速調(diào)度。通過超級(jí)DNS實(shí)現(xiàn)用戶訪問行為的索引,從而對(duì)用戶數(shù)據(jù)進(jìn)行深度挖掘,實(shí)現(xiàn)快速網(wǎng)站分發(fā)和智能系統(tǒng)調(diào)度創(chuàng)建,從而提高用戶網(wǎng)站訪問效率,提高網(wǎng)站的承載力,減少用戶訪問時(shí)間[13]。
4結(jié)語
本文分析的技術(shù)系統(tǒng)還存在一定的問題有待以后解決,比如:大數(shù)據(jù)在云設(shè)備中傳輸、程序結(jié)構(gòu)的設(shè)計(jì)等問題需要加深研究。
[參考文獻(xiàn)]
[1]馮麗慧.云計(jì)算和挖掘服務(wù)融合下的大數(shù)據(jù)挖掘體系架構(gòu)設(shè)計(jì)及應(yīng)用[J].電腦編程技巧與維護(hù),2017(24):49-51.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015(7):103-108.
[3]劉文學(xué).基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].工程技術(shù)(全文版),2013(8):279.
[4]李娜,余省威.云計(jì)算環(huán)境下多服務(wù)器多分區(qū)數(shù)據(jù)的高效挖掘方法設(shè)計(jì)[J].現(xiàn)代電子技術(shù),2017(10):43-45.
作者:華英 單位:蘇州市職業(yè)大學(xué)
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫