前言:想要寫出一篇引人入勝的文章?我們特意為您整理了云計算環(huán)境下數(shù)據(jù)挖掘技術(shù)分析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著經(jīng)濟社會不斷發(fā)展與進步,科技信息技術(shù)為了適應(yīng)社會發(fā)展的需求,也在不斷地提高。云計算作為互聯(lián)網(wǎng)發(fā)展中的一項新興技術(shù),漸漸成為了人們生活中不可或缺的一部分,并被廣泛運用于軍事領(lǐng)域、醫(yī)療領(lǐng)域與金融領(lǐng)域等。隨著計算機的不斷發(fā)展,基于云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù)已經(jīng)成為一項非常高效與實用的技術(shù),它可以有效的解決傳統(tǒng)數(shù)據(jù)挖掘方式不適合解決海量數(shù)據(jù)的問題。本文通過對云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù)的分析與探討,期望可以加深同行業(yè)工作者對數(shù)據(jù)挖掘技術(shù)的了解,為將來電子商務(wù)發(fā)展效率的提高,打下結(jié)實的基礎(chǔ)。
關(guān)鍵詞:數(shù)據(jù)挖掘,云計算,技術(shù)
隨著移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的迅速發(fā)展,如今的社會正處于大數(shù)據(jù)時代。數(shù)據(jù)的海量增加,對數(shù)據(jù)挖掘系統(tǒng)帶來了極大的挑戰(zhàn)。而云計算的出現(xiàn)便能有效解決這一難題,它可以使分布在不同計算機的數(shù)據(jù)集中在統(tǒng)一的云端,這樣便有利于我們對數(shù)據(jù)的獲取與挖掘。云計算中可彈性變化的計算能力和海量存儲能力,更是為解決海量數(shù)據(jù)挖掘提供了有效的解決途徑。
一、數(shù)據(jù)挖掘的內(nèi)涵
數(shù)據(jù)挖掘是我們通過大量數(shù)據(jù)集進行分類以識別趨勢和模式并建立關(guān)系的自動化過程。因為當(dāng)今是一個大數(shù)據(jù)時代,我們需要從海量數(shù)據(jù)中提取和挖掘?qū)ξ覀冇欣男畔?,從而來更好地為各種應(yīng)用系統(tǒng)服務(wù),如物聯(lián)網(wǎng)、社交媒體等。而數(shù)據(jù)挖掘,就能從海量數(shù)據(jù)的挖掘到所需的信息,從而為你提供比沒有使用這些工具的競爭對手更大的優(yōu)勢。
二、基于云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù)分析
數(shù)據(jù)挖掘具有數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)挖掘?qū)嵤┻^程、模式評估與知識表示等8個步驟。這8個步驟,能幫我們更好地從海量數(shù)據(jù)中提取我們所需的有價值的信息。而在數(shù)據(jù)挖掘中,最重要的是數(shù)據(jù)收集處理與數(shù)據(jù)存儲工作。第一,數(shù)據(jù)收集處理。我們在進行數(shù)據(jù)收集與處理時,可以先用決策樹來判別是用戶訪問數(shù)據(jù)還是Web機器人訪問數(shù)據(jù)。然后再將海量數(shù)據(jù)進行過濾、轉(zhuǎn)換、清洗、整合,將其變成半結(jié)構(gòu)化的XML文件進行保存。雖然現(xiàn)在流行用Map-Reduce模式來進行數(shù)據(jù)收集,但其開發(fā)工具還不夠完善[1]。在今后的數(shù)據(jù)挖掘技術(shù)發(fā)展與完善的過程中,我們可以將結(jié)合分形維數(shù)和其他技術(shù)的方法作為新的發(fā)展方向。不斷地強化數(shù)據(jù)收集處理功能,使其能更好地為各種應(yīng)用系統(tǒng)服務(wù)。第二,數(shù)據(jù)的存儲工作。云計算系統(tǒng)中的分布式存儲策略,是運用最廣泛的數(shù)據(jù)存儲方式。它可以將同一個數(shù)據(jù)存儲為多個副本,這在一定程度上保證了數(shù)據(jù)的可靠性,而且還不是冗余復(fù)制。而且系統(tǒng)中,還存在心跳檢測、錯誤隔離等措施。雖然通過數(shù)據(jù)副本的存儲方式能夠有效的提高數(shù)據(jù)存儲安全性,但是數(shù)據(jù)的計算速度和移動速度都比較慢,且實際的工作效率也并不理想。因此,我們在進行數(shù)據(jù)遷移的時候,可以利用MASTER系統(tǒng)來完成計算數(shù)據(jù)遷移工作。我們可以通過尋找數(shù)據(jù)副本進行抵制,既可以進行遷移又可以完成既定工作,這樣不但使工作效果更加理想,而且實際工作效率也大幅度的提高。
三、云計算環(huán)境下數(shù)據(jù)挖掘技術(shù)的優(yōu)勢
利用云計算進行數(shù)據(jù)挖掘,具有以下的優(yōu)點:第一,云計算環(huán)境下的數(shù)據(jù)挖掘可以隱蔽底層,這樣使得我們的數(shù)據(jù)開發(fā)工作更加便利。用戶不用考慮計算分配、計算調(diào)度任務(wù)與數(shù)據(jù)劃分等問題,既能有效地提高工作效率,還便于我們操作;第二,云計算提高了大規(guī)模數(shù)據(jù)的處理能力和處理速度;第三,使得數(shù)據(jù)處理的成本降低,不再需要購買高性能的機器,從而有效提高了收益;第四,基于云計算的數(shù)據(jù)挖掘技術(shù),可以使我們有效地從海量數(shù)據(jù)中挖掘出我們需要的信息,創(chuàng)造了良好的開發(fā)環(huán)境和應(yīng)用環(huán)境,讓挖掘任務(wù)變得更加簡單。
四、云計算環(huán)境下數(shù)據(jù)挖掘技術(shù)面臨的問題與挑戰(zhàn)
目前,云計算還處于初級階段,發(fā)展還不夠成熟,也存在著一些問題與挑戰(zhàn),主要包括以下幾個方面:第一,軟件與服務(wù)的可信度不高。云計算要重視隱私安全問題,不斷提升云計算的隱私安全保護能力,才能讓用戶放心使用云計算;第二,存在太多的不確定性。如數(shù)據(jù)挖掘的方法及結(jié)果、挖掘結(jié)果的評價和數(shù)據(jù)挖掘任務(wù)的描述等;第三,算法的選擇問題。不同的問題要用合適的算法和策略來進行數(shù)據(jù)的處理,云計算數(shù)據(jù)挖掘技術(shù)在這一方面還有待加強。大數(shù)據(jù)挖掘技術(shù)應(yīng)用的過程中,驗證技術(shù)的局限性也非常突出。在技術(shù)應(yīng)用過程中,我們是通過特定分析方法及邏輯形式來發(fā)現(xiàn)知識[2]。在這一過程中,如果系統(tǒng)沒有能力交互證實已發(fā)現(xiàn)的知識,就容易造成發(fā)現(xiàn)的知識不具有普遍實用性。而那些事待挖掘的數(shù)據(jù)自身可能就是錯誤的,這樣便使得數(shù)據(jù)挖掘在有效性這方面受到一定的沖擊。而我們從海量數(shù)據(jù)中挖掘到的信息,它們所構(gòu)成的預(yù)言模型并不會告訴我們:一個人為什么會做某一件事及采取某個行動。為了保障數(shù)據(jù)挖掘結(jié)構(gòu)的價值,用戶就要對自身的數(shù)據(jù)進行一定的了解,這樣才能提高數(shù)據(jù)挖掘輸出結(jié)果的質(zhì)量,才能更好地將挖掘到的數(shù)據(jù)為我們服務(wù)。綜上所述,本文通過對云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù)的分析與探討,期望可以加深同行業(yè)工作者對數(shù)據(jù)挖掘技術(shù)的了解,為將來電子商務(wù)發(fā)展效率的提高,打下結(jié)實的基礎(chǔ)。隨著我國新興產(chǎn)業(yè)戰(zhàn)略地位不斷提升,云計算成為了國家新興產(chǎn)業(yè)發(fā)展的一項重點工程。我們需要不斷探索與發(fā)展云計算數(shù)據(jù)挖掘技術(shù),才能更好的滿足用戶的需求。據(jù)相關(guān)研究表明,云計算技術(shù)下的數(shù)據(jù)挖掘平臺,相比于傳統(tǒng)的數(shù)據(jù)挖掘方式,其數(shù)據(jù)挖掘效率高于20%。由此可見,基于云計算環(huán)境下的數(shù)據(jù)挖掘技術(shù),不僅能滿足用戶規(guī)模擴大、應(yīng)用目標(biāo)多樣等環(huán)境下的數(shù)據(jù)挖掘的應(yīng)用需求,還能滿足當(dāng)前系統(tǒng)的設(shè)計需求,有利于提高數(shù)據(jù)挖掘的效率,具有更加實用價值。
參考文獻:
[1]曾志華,李聰.云計算環(huán)境下頻繁出現(xiàn)異常數(shù)據(jù)挖掘方法研究[J].計算機仿真,2016,56(3):339-342.
[2]黃潮.云計算環(huán)境下的海量光纖通信故障數(shù)據(jù)挖掘算法研究[J].激光雜志,2017,38(1):96-100.
作者:李慧