公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)研究范文

數(shù)據(jù)挖掘技術(shù)研究精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)研究主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術(shù)研究

第1篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵詞:人工智能;數(shù)據(jù)挖掘;發(fā)展前景

當(dāng)今社會已經(jīng)進(jìn)入了人工智能時代,人工智能的應(yīng)用,大大改善了我們的生活。大數(shù)據(jù)時代已經(jīng)來臨,不論是從數(shù)據(jù)的使用,挖掘,處理等方面,都為人工智能的應(yīng)用起到了基礎(chǔ)和保障。

1人工智能

1.1人工智能的定義。人工智能(ArtificialIntelligence),簡稱AI。屬于計算機(jī)學(xué)科下的分支,顧名思義,它是一門專門研究類人化的智能機(jī)器學(xué)科,即利用現(xiàn)階段科學(xué)的研究方法和技術(shù),研制出具有模仿、延伸和擴(kuò)展人類智能的機(jī)器或智能系統(tǒng),從而實現(xiàn)利用機(jī)器模仿人類智能的一切行為。1.2人工智能的研究背景。在1956年的達(dá)特矛斯會議上,“人工智能”這一術(shù)語正式由麥卡錫提議并采用了,隨后人工智能的研究取得了許多引人注目的成就。在這之后,科研人員進(jìn)行了許多的研究和開發(fā),人工智能這個話題也取得了飛速的發(fā)展。人工智能是一門極具挑戰(zhàn)性的科學(xué),從事這項工作的人必須了解計算機(jī)知識、心理學(xué)和哲學(xué)理念。人工智能的研究包涵廣泛的科學(xué)知識,以及其他領(lǐng)域的知識,如機(jī)器學(xué)習(xí)、計算機(jī)視覺等。一般來說,人工智能研究的主要目標(biāo)是使機(jī)器能夠做一些通常需要人工智能完成復(fù)雜工作的機(jī)器。1.3人工智能的研發(fā)歷程。早期研究領(lǐng)域:人工智能專家系統(tǒng),機(jī)器學(xué)習(xí),模式識別,自然語言理解,自動定理證明,自動編程,機(jī)器人,游戲,人工神經(jīng)網(wǎng)絡(luò)等,現(xiàn)在涉及以下研究領(lǐng)域:數(shù)據(jù)挖掘,智能決策系統(tǒng),知識工程,分布式人工智能等。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到廣泛的發(fā)展。以下簡要介紹其中的幾個重要部分:(1)專家系統(tǒng)。所謂專家系統(tǒng)就是控制計算的智能化程序系統(tǒng),通過研發(fā)人員總結(jié)歸納了專業(yè)學(xué)科知識和日常經(jīng)驗,能夠知道計算機(jī)完成某個領(lǐng)域內(nèi)的專業(yè)性活動或者解決某些專業(yè)級別的問題。人工智能技術(shù)可以合理利用已知的經(jīng)驗體系在復(fù)雜環(huán)境中,解決和處理復(fù)雜問題。(2)機(jī)器系統(tǒng)。機(jī)器系統(tǒng)簡單說就是機(jī)器人通過人造神經(jīng)系統(tǒng),借助于網(wǎng)絡(luò)或者存儲系統(tǒng)汲取系統(tǒng)的知識進(jìn)行開發(fā)研究。(3)感知仿生。感知仿生系統(tǒng)通過模擬人類的感官,感知生物學(xué)特征,通過人工智能機(jī)器的感部件對外界外部環(huán)境進(jìn)行感知,識別,判斷,分析的能力。能夠更好的適應(yīng)環(huán)境,做出判斷。(4)數(shù)據(jù)重組和發(fā)掘。是指通過人工智能系統(tǒng),結(jié)合當(dāng)前先進(jìn)的理念,對大數(shù)據(jù)的總結(jié)歸納,識別存儲,調(diào)取等應(yīng)用。通過數(shù)據(jù)的加工處理,能夠主動做出判斷和分析。(5)人工智能模式。分布式人工智能是模式之一,該系統(tǒng)利用系統(tǒng)有效的規(guī)避和克服系統(tǒng)資源在某段時間內(nèi)的局限性,并能有效地改善因資源造成的時間和空間不均衡問題。它具備,模式自動轉(zhuǎn)換,并行處理,開放啟發(fā)方式,冗余且容錯糾錯的能力。

2數(shù)據(jù)挖掘

2.1數(shù)據(jù)挖掘的定義。數(shù)據(jù)挖掘(DataMining,DM)是揭示數(shù)據(jù)中存在的模式和數(shù)據(jù)關(guān)系的學(xué)科,強(qiáng)調(diào)處理大型可觀察數(shù)據(jù)庫。數(shù)據(jù)挖掘的出現(xiàn)使得人工智能的研究在應(yīng)用領(lǐng)域得到了廣泛的發(fā)展。這里包括數(shù)據(jù)挖掘和智能信息提取過程,前者從大量復(fù)雜的現(xiàn)實世界數(shù)據(jù)中挖掘出未知和有價值的模式或規(guī)則,后者是知識的比較,選擇和總結(jié)出來的原則和規(guī)則,形成一個智能系統(tǒng)。2.2數(shù)據(jù)挖掘的研究現(xiàn)狀。當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物、天體、化工、醫(yī)藥等方面。看似廣泛,實際應(yīng)用還遠(yuǎn)沒有普及。而據(jù)Gartner的報告也指出,數(shù)據(jù)挖掘會成為未來10年內(nèi)重要的技術(shù)之一。而數(shù)據(jù)挖掘,也已經(jīng)開始成為一門獨立的專業(yè)學(xué)科。2.3數(shù)據(jù)挖掘的研究發(fā)展。具體發(fā)展趨勢和應(yīng)用方向主要有:性能方面:數(shù)據(jù)挖掘設(shè)計的數(shù)據(jù)量會更大,處理的效率會更高,結(jié)果也會更精確。工具方面:挖掘工具越來越強(qiáng)大,算法收斂越來越多,預(yù)測算法將吸收新穎性算法(支持向量機(jī)(SVM),粗糙集,云模型,遺傳算法等),并實現(xiàn)自動化的實現(xiàn)算法,選擇和自動調(diào)諧參數(shù)。應(yīng)用:數(shù)據(jù)挖掘的應(yīng)用除了應(yīng)用于大型專門問題外,還將走向嵌入式,更加智能化。例如進(jìn)一步研究知識發(fā)現(xiàn)方法,對貝葉斯定理和Boosting方法的研究和改進(jìn),以及對商業(yè)工具軟件不斷的生成和改進(jìn),著重建立整體系統(tǒng)來解決問題,如Weka等軟件。在先進(jìn)理論的指導(dǎo)下,按照國內(nèi)形態(tài)發(fā)展,至少需要20年的時間,才能改進(jìn)數(shù)據(jù)挖掘的發(fā)展。

3數(shù)據(jù)挖掘與人工智能技術(shù)的聯(lián)系

數(shù)據(jù)挖掘?qū)儆谌斯ぶ悄苤歇毩⑾到y(tǒng)。它于人工智能的存在關(guān)系屬于,并存聯(lián)系,且獨立運(yùn)行,互不從屬。此設(shè)計體系一方面可以有效促進(jìn)人工智能提升學(xué)習(xí)能力,增進(jìn)分析能力,另一方面還對分析,統(tǒng)計,OLSP,以及決策支持系統(tǒng)模塊等起到推動作用。在收挖掘應(yīng)用領(lǐng)域,處理可以對WEB挖掘,還能夠有效進(jìn)行文本,數(shù)據(jù)庫,知識庫,不同領(lǐng)域不同學(xué)科的信息進(jìn)行序列矩陣模式挖掘?;跀?shù)據(jù)本身的分類,辨識,關(guān)聯(lián)規(guī)則,聚類算法更加博大精深。因此,獨立于人工智能的數(shù)據(jù)挖掘,更加便于科研團(tuán)體或者領(lǐng)域?qū)?shù)據(jù)的使用和分析。數(shù)據(jù)挖掘是人工智能領(lǐng)域的一部分。首先,高智能是數(shù)據(jù)挖掘和人工智能的最終目標(biāo),正是由于這個目標(biāo),人工智能和數(shù)據(jù)挖掘有很多關(guān)聯(lián)。其次,數(shù)據(jù)挖掘和人工智能是各種技術(shù)的整合。數(shù)據(jù)挖掘和人工智能是許多學(xué)科的跨學(xué)科學(xué)科。最后,數(shù)據(jù)挖掘的出現(xiàn)逐漸發(fā)展壯大,加強(qiáng)了人工智能,因此可以說,它們兩者是不可分割的。

4人工智能和數(shù)據(jù)挖掘技術(shù)的發(fā)展前景

在當(dāng)前環(huán)境下,人工智能和數(shù)據(jù)挖掘技術(shù)具有以下發(fā)展前景:(1)在大數(shù)據(jù)互聯(lián)網(wǎng)中的應(yīng)用。將人工智能的技術(shù)應(yīng)用于互聯(lián)網(wǎng)中將會使網(wǎng)絡(luò)技術(shù)帶上智能的特性,可以為人們的生活提供智能化的幫助,給人們的生活帶來便利。還可以提高網(wǎng)絡(luò)運(yùn)行效率、增加網(wǎng)絡(luò)安全性等。(2)智能化服務(wù)的研究。人工智能和數(shù)據(jù)挖掘都很注重對智能化服務(wù)的研究,例如很多智能機(jī)器人便應(yīng)運(yùn)而生,它們已經(jīng)能勝任許多簡單的工作,可以為人們提供人性化的服務(wù)。高度的智能化是數(shù)據(jù)挖掘和人工智能研究最終追求的目標(biāo),也是二者最終合而為一的標(biāo)志。(3)使知識產(chǎn)生經(jīng)濟(jì)化。在現(xiàn)階段的知識經(jīng)濟(jì)時代,人工智能和數(shù)據(jù)挖掘勢必受到經(jīng)濟(jì)的影響,這決定了人工智能和數(shù)據(jù)挖掘?qū)⒕哂薪?jīng)濟(jì)特征。人工智能和數(shù)據(jù)挖掘技術(shù)作為無形資產(chǎn)可以直接帶來經(jīng)濟(jì)效益,通過交流,教育,生產(chǎn)和創(chuàng)新的無形資產(chǎn)將成為知識經(jīng)濟(jì)時代的主要資本??梢灶A(yù)期未來的人工智能和數(shù)據(jù)挖掘技術(shù)將更加經(jīng)濟(jì)實用。(4)交叉學(xué)科的技術(shù)融合。各行各業(yè)的理論和方法都已經(jīng)開始融入了人工智能和數(shù)據(jù)挖掘之中。未來的人工智能和數(shù)據(jù)挖掘技術(shù)必將是一個融合眾多領(lǐng)的復(fù)合學(xué)科。當(dāng)今,我們已經(jīng)在逐漸使用人工智能與數(shù)據(jù)挖掘技術(shù),去攻克更多難題,解決更多問題,造福人類,改善生活,近在眼前。

作者:喻正夫 單位:漢江師范學(xué)院

參考文獻(xiàn):

[1]萬璞,王麗莎.數(shù)據(jù)挖掘與人工智能技術(shù)研究[J].無線互聯(lián)科技,2016(10):113-114.

[2]王翔.試論如何利用大數(shù)據(jù)挖掘技術(shù)推動人工智能繼續(xù)發(fā)展[J/OL].科技創(chuàng)新報,2017,14(01).

[3]秦益文.微博數(shù)據(jù)挖掘中人工智能推理引擎的應(yīng)用[J].中小企業(yè)管理與科技(中旬刊),2017(02).

[4]蒲東齊.數(shù)據(jù)挖掘在人工智能上的應(yīng)用[J].信息與電腦(理論版),2016(19).

[5]李丹丹.數(shù)據(jù)挖掘技術(shù)及其發(fā)展趨勢[J].電腦應(yīng)用技術(shù),2007(02):38-40.

第2篇:數(shù)據(jù)挖掘技術(shù)研究范文

1.1對克隆代碼的數(shù)據(jù)挖掘在軟件工程領(lǐng)域中,對克隆代碼的檢查與測試是最為原始的數(shù)據(jù)挖掘需求之一,直到目前已經(jīng)逐漸演變出了很多的方式,其主要可以分為以下幾種:

1.1.1將文本對比作為基礎(chǔ)的方式采用計算機(jī)軟件系統(tǒng)中的對比程序代碼中所包含的語句行展開進(jìn)一步的判斷過程,這種方法在進(jìn)行后期的改進(jìn)過程中針對的是對字符串的匹配效率進(jìn)行提升,提升的辦法有很多,最為主要的就是通過Hash函數(shù)技術(shù)進(jìn)行匹配效率優(yōu)化,在這個過程中最為常用的工具為Duploc。

1.1.2將標(biāo)識符對比作為基礎(chǔ)的方式將標(biāo)識符對比作為基礎(chǔ)的方式,最具代表性的方式是對由分詞所組成的標(biāo)識符序列構(gòu)造前綴樹,并將其作為依據(jù)然后進(jìn)行對比,將標(biāo)識符對比作為基礎(chǔ)的方式的工具主要有CCFinder、Dup等[3]。

1.2計算機(jī)軟件數(shù)據(jù)檢索挖掘數(shù)據(jù)檢索挖掘與克隆代碼一樣,同樣是計算機(jī)軟件工程中最為原始的數(shù)據(jù)挖掘需求之一,對于計算機(jī)軟件數(shù)據(jù)檢索挖掘來說其主要分為以下三步:第一步,為數(shù)據(jù)信息的錄入。所謂的數(shù)據(jù)信息錄入實際上指的是對于要檢索的信息進(jìn)行錄入的過程,針對使用者的需求將使用者所需要的數(shù)據(jù)信息輸入到檢索信息錄入框中進(jìn)行數(shù)據(jù)的查找。第二步,為數(shù)據(jù)信息的查找過程。當(dāng)客戶所需要的信息進(jìn)入到數(shù)據(jù)檢索錄入框中時,進(jìn)行確認(rèn)后數(shù)據(jù)挖掘系統(tǒng)將會根據(jù)數(shù)據(jù)信息中所涵蓋的數(shù)據(jù)信息內(nèi)容進(jìn)行數(shù)據(jù)庫中的查找,并且根據(jù)不同的分類,對查找信息的數(shù)據(jù)信息資料進(jìn)行羅列[4]。第三步,為數(shù)據(jù)信息資料內(nèi)容的導(dǎo)出和查看,在查找到相關(guān)的客戶需要數(shù)據(jù)內(nèi)容時,客戶可以根據(jù)自己本身的實際需要,進(jìn)行數(shù)據(jù)信息的導(dǎo)出或者是在線查看,在數(shù)據(jù)信息資料導(dǎo)出后,需要應(yīng)用相關(guān)的數(shù)據(jù)信息查看軟件進(jìn)行查看。并且客戶在導(dǎo)出數(shù)據(jù)信息時,會在中形成一定的歷史記錄,對客戶及時查找的數(shù)據(jù)信息進(jìn)行記錄與保存,當(dāng)客戶想要再次進(jìn)行查找時能夠更為方便與快捷的找到其所需要的數(shù)據(jù)信息內(nèi)容。

二、結(jié)語

第3篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵詞:XML;半結(jié)構(gòu)化數(shù)據(jù)挖掘

中圖分類號:TP311.13

隨著因特網(wǎng)的發(fā)展,數(shù)據(jù)信息來源種類逐漸增多,相應(yīng)的信息復(fù)雜性也在增加,傳統(tǒng)的數(shù)據(jù)存儲和處理方式已經(jīng)不能很好的滿足實際使用與研究的需求,XML作為一種半結(jié)構(gòu)化數(shù)據(jù)標(biāo)準(zhǔn),已經(jīng)開始被越來越廣泛的應(yīng)用,而對于此類結(jié)構(gòu)化數(shù)據(jù)的挖掘也為我們的日常研究提供了一個方向。

對于半結(jié)構(gòu)化數(shù)據(jù)源的挖掘不同于傳統(tǒng)的數(shù)據(jù)挖掘。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)類型工整,數(shù)據(jù)結(jié)構(gòu)性很強(qiáng),為完全的結(jié)構(gòu)化數(shù)據(jù),因此對于此類數(shù)據(jù)處理較為簡單,只需要按照其規(guī)律進(jìn)行分析即可。而對于半結(jié)構(gòu)化的數(shù)據(jù)則因其表現(xiàn)形式的多樣性,所以對其挖掘要比對于單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜。

1半結(jié)構(gòu)化數(shù)據(jù)

半結(jié)構(gòu)化數(shù)據(jù)有兩種,一種是指該數(shù)據(jù)在物理層面上缺少結(jié)構(gòu),另外一種是指該數(shù)據(jù)在邏輯層上缺少結(jié)構(gòu)。在現(xiàn)有的Web環(huán)境中,有一些結(jié)構(gòu)化的數(shù)據(jù),為了用于網(wǎng)頁頁面顯示而采用了與HTML語言標(biāo)記符號嵌套的方式,因此就構(gòu)成了第一種物理上的半結(jié)構(gòu)化數(shù)據(jù)。另外網(wǎng)絡(luò)中有眾多的Web頁面,頁面上有著豐富的數(shù)據(jù)內(nèi)容,這些數(shù)據(jù)大多都以HTML文件的方式存在,并沒有嚴(yán)格的結(jié)構(gòu)和類型定義,這樣的數(shù)據(jù)都屬于第二類的邏輯層的半結(jié)構(gòu)化數(shù)據(jù)。網(wǎng)絡(luò)頁面上的數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)庫中存儲的數(shù)據(jù)不同,傳統(tǒng)數(shù)據(jù)庫內(nèi)的數(shù)據(jù)都有一定的數(shù)據(jù)模型,每個特定的數(shù)據(jù)都可以根據(jù)模型來進(jìn)行描述,而網(wǎng)絡(luò)頁面上的數(shù)據(jù)很復(fù)雜,并且不能按照特定的模型進(jìn)行描述,每一個站點的數(shù)據(jù)都遵循其獨立的設(shè)計規(guī)則,并且它的數(shù)據(jù)本身具有自我描述的特性和動態(tài)的可變性。因此網(wǎng)絡(luò)頁面上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但是其因為具有自述層次的存在,因此屬于一種非完全結(jié)構(gòu)化的數(shù)據(jù),也稱為半結(jié)構(gòu)化數(shù)據(jù)。

2半結(jié)構(gòu)化數(shù)據(jù)的來源

(1)在Internet上因為對所存儲的數(shù)據(jù)沒有嚴(yán)格模式的限制而產(chǎn)生的半機(jī)構(gòu)化數(shù)據(jù),常見的有HTML、XML、SGML等類型的文件。

(2)在電子郵件、電子商務(wù)文件、文獻(xiàn)資料等文件中,由于沒有嚴(yán)格的格式要求,所以存在著大量結(jié)構(gòu)與內(nèi)容不固定的半結(jié)構(gòu)化數(shù)據(jù)。

(3)在包含有異構(gòu)信息源集成的情況下,由于信息源集成范圍廣泛,對于信息源的存取范圍包括各類數(shù)據(jù)庫、電子圖書館、知識庫和文件系統(tǒng)等,因此也會產(chǎn)生半結(jié)構(gòu)化數(shù)據(jù)。

3半結(jié)構(gòu)化數(shù)據(jù)的幾個特點

(1)包含有隱藏的模式信息。雖然說半結(jié)構(gòu)化數(shù)據(jù)具有一定的結(jié)構(gòu),但是由于數(shù)據(jù)和結(jié)構(gòu)混合在一起,所以并沒有明顯的模式定義。

(2)結(jié)構(gòu)不規(guī)則。半結(jié)構(gòu)化數(shù)據(jù)的一個數(shù)據(jù)集合可以由不同結(jié)構(gòu)的元素組成,或者在某些情況下使用不同類型的數(shù)據(jù)來表示相同的信息。

(3)類型約束不嚴(yán)格。半結(jié)構(gòu)化數(shù)據(jù)由于沒有預(yù)先確定的表達(dá)模式,并且數(shù)據(jù)在結(jié)構(gòu)上沒有遵循相同的規(guī)則,因此會導(dǎo)致其缺乏對于數(shù)據(jù)的嚴(yán)格約束。

基于以上幾個半結(jié)構(gòu)化數(shù)據(jù)模型的特點可以看出半結(jié)構(gòu)化數(shù)據(jù)缺乏嚴(yán)格、完整的數(shù)據(jù)結(jié)構(gòu),但是這類數(shù)據(jù)并非沒有結(jié)構(gòu),但是它們的結(jié)構(gòu)可能是隱藏的、并不完整的,并且可能是需要不斷進(jìn)行修改的。

半結(jié)構(gòu)化數(shù)據(jù)的模式與以往的關(guān)系數(shù)據(jù)模式或者面向?qū)ο蟮臄?shù)據(jù)模式最大的區(qū)別在于半結(jié)構(gòu)化數(shù)據(jù)是現(xiàn)有數(shù)據(jù)然后再有模式。不對數(shù)據(jù)的結(jié)構(gòu)進(jìn)行強(qiáng)制性的約束,只需要描述出數(shù)據(jù)的結(jié)構(gòu)信息,并且它只描述數(shù)據(jù)部分結(jié)構(gòu)的非精確模式,在應(yīng)用中隨著數(shù)據(jù)對象的不斷更新而動態(tài)修改其描述,據(jù)此分析半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)特點和它所產(chǎn)生的原因,半結(jié)構(gòu)化數(shù)據(jù)源的挖掘是能夠?qū)崿F(xiàn)的。

半結(jié)構(gòu)化數(shù)據(jù)源挖掘技術(shù)首先要解決的是數(shù)據(jù)遠(yuǎn)模型及其查詢與集成的問題。要解決網(wǎng)頁頁面上的異構(gòu)數(shù)據(jù)的集成與查詢,就必須要有一個適當(dāng)?shù)哪P蛠韺@些數(shù)據(jù)進(jìn)行清晰的描述,因此如何創(chuàng)建這個半結(jié)構(gòu)化的數(shù)據(jù)模型就成為了解決問題的關(guān)鍵所在。首先我們需要定義一個半結(jié)構(gòu)化數(shù)據(jù)模型,其次我們還需要一種適用于此模型的半結(jié)構(gòu)化模型挖掘技術(shù)用來的從現(xiàn)有的數(shù)據(jù)中自動挖掘半結(jié)構(gòu)化模型。對于網(wǎng)頁頁面數(shù)據(jù)的挖掘就必須以此半結(jié)構(gòu)化數(shù)據(jù)模型和半結(jié)構(gòu)化數(shù)據(jù)模型挖掘技術(shù)為手段來建立相應(yīng)的數(shù)據(jù)庫。

在針對多數(shù)據(jù)源的數(shù)據(jù)庫進(jìn)行半結(jié)構(gòu)化數(shù)據(jù)提取、表示和查詢的處理一般采用包裝的方式來進(jìn)行。首先把信息源的數(shù)據(jù)通過包裝轉(zhuǎn)換成為目標(biāo)數(shù)據(jù)庫所使用的格式和類型。同時處理過程中負(fù)責(zé)監(jiān)視的部分將自動監(jiān)測信息中的數(shù)據(jù)變化,如果發(fā)現(xiàn)數(shù)據(jù)有變化則將這些變化上報,這些變化經(jīng)過分析發(fā)現(xiàn)有新的數(shù)據(jù)源連接倉庫系統(tǒng)或者信息源發(fā)生變化時,那么系統(tǒng)就會把這些有變化的數(shù)據(jù)進(jìn)行過濾、匯總,并把這些信息源進(jìn)行匯總處理,并將收集到數(shù)據(jù)庫中。

此系統(tǒng)對半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理的過程中所面臨的主要問題就是如何將其轉(zhuǎn)化為更易于處理的結(jié)構(gòu)化信息。但是對這些半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行轉(zhuǎn)換的目標(biāo)是龐大的網(wǎng)頁頁面數(shù)據(jù)源,如果依靠人工手段針對每個數(shù)據(jù)源編寫相應(yīng)的轉(zhuǎn)換方式的話工作量非常代價。因此,我們需要一種能夠快速建造并且直至自動維護(hù)的轉(zhuǎn)換工具。目前這類工具還不是很多,并且使用上并不十分完善。但是,隨著近年來XML及其應(yīng)用技術(shù)的發(fā)展為處理半結(jié)構(gòu)化數(shù)據(jù)提供了很好的工具和方法。

4XML有如下幾個特點

(1)XML語法具有嚴(yán)格的標(biāo)記規(guī)定;

(2)XML對于各元素之間的順序有著嚴(yán)格的先后順序,是按照相應(yīng)的解釋模式來排列的;

(3)XML中的元素可以包含有多個屬性值?;谝陨蠋讉€特點,如今XML已經(jīng)成為正式規(guī)范,開發(fā)人員已經(jīng)開始使用XML格式的標(biāo)記和交換數(shù)據(jù)。XML在網(wǎng)頁數(shù)據(jù)挖掘中可以用于建立信息源層的數(shù)據(jù)集成,即構(gòu)建數(shù)據(jù)倉庫),也可以用于將信息處理結(jié)果以XML的形勢發(fā)往數(shù)據(jù)倉庫,也可以基于數(shù)據(jù)倉庫將數(shù)據(jù)進(jìn)行挖掘和分析處理,還可以將半結(jié)構(gòu)化數(shù)據(jù)挖掘處理的結(jié)果送往應(yīng)用層。

基于XML的網(wǎng)頁頁面信息提取一般包括頁面捕獲、頁面預(yù)處理和半結(jié)構(gòu)化數(shù)據(jù)提取等方面。其中頁面捕獲有多種方法,一種是直接利用OCX控件,根據(jù)提供的入口參數(shù)URL來獲取頁面超文本內(nèi)容;另外一種是利用開發(fā)工具所提供的支持網(wǎng)頁文本獲取的功能接口來獲取。

XML為基于Web的應(yīng)用提供了強(qiáng)大的功能和廣泛的靈活性,它能為開發(fā)者帶來更多的好處,例如Web數(shù)據(jù)可以按照XML的格式進(jìn)行唯一性的表示,因此可以進(jìn)行更有意義的搜索。有了XML之后,搜索軟件可以不必了解每個數(shù)據(jù)庫都是如何構(gòu)建的。在使用XML之前由于每個數(shù)據(jù)庫描述數(shù)據(jù)的格式幾乎都不相同并且數(shù)據(jù)來源廣泛,所以針對不同來源數(shù)據(jù)進(jìn)行搜索幾乎是不可能的。但是XML語言能夠?qū)⒉煌瑏碓吹陌虢Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行結(jié)合,相關(guān)應(yīng)用集成上可以使用中間層服務(wù)器對采集上來的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,然后將處理后的數(shù)據(jù)發(fā)送到最終用戶或者其他服務(wù)器做進(jìn)一步的處理。

XML的豐富擴(kuò)展性和靈活性使它能夠描述不同類型應(yīng)用中的數(shù)據(jù),并且XML文檔因為是對象模式,因此它允許使用腳本或者其它程語言進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)計算不需要返回到服務(wù)器就可以操作。在Web中XML可以被用來分離使用者瀏覽的數(shù)據(jù)頁面,可以用簡單靈活和開放的格式為Web創(chuàng)建功能強(qiáng)大的云應(yīng)用,通過創(chuàng)建高效的云計算平臺來為用戶服務(wù),而以前此類軟件只能依靠高端數(shù)據(jù)庫來構(gòu)建。

5結(jié)束語

XML作為一種結(jié)構(gòu)化數(shù)據(jù)的工作也標(biāo)準(zhǔn),為廣大組織、開發(fā)者、網(wǎng)站和終端使用者提供了有利的條件,隨著XML作為WEB上進(jìn)行數(shù)據(jù)交換的一種標(biāo)準(zhǔn)方式的逐步發(fā)展,基于XML的半結(jié)構(gòu)化數(shù)據(jù)挖掘?qū)兊迷絹碓捷p松。

參考文獻(xiàn):

[1]李效東,顧毓清.基于DOM的Web信息提取[J].計算機(jī)學(xué)報,2002(5):526-533.

[2]宋中山,曾廣平.基于XML的Web數(shù)據(jù)挖掘技術(shù)[J].中南民族大學(xué)學(xué)報,2005(1):64-67.

第4篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵字:數(shù)據(jù)挖掘技術(shù);計算機(jī);網(wǎng)絡(luò);病毒防御技術(shù)

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)02-0001-02

Abstract: In the computer network virus prevention technology, with respect to the application of data mining technology can quickly within its geographical scope of the data collected classification, so as to provide a reference for computer virus-related information determination. In this paper, the analysis of data mining techniques in computer network virus defense techniques.

Key words: data mining technology; computers; networks; virus defense technology

隨著社會的進(jìn)步,計算機(jī)技術(shù)迅速發(fā)展革新,人們已經(jīng)進(jìn)入暫新的網(wǎng)絡(luò)時代,但與此同時,伴隨著計算機(jī)技術(shù)的發(fā)展,與計算機(jī)網(wǎng)絡(luò)一直都存在密切關(guān)系的計算機(jī)網(wǎng)絡(luò)病毒技術(shù)也保持著同步發(fā)展,甚至推進(jìn)到更高水平,給計算機(jī)網(wǎng)絡(luò)系統(tǒng)安全造成極大的威脅,同時給廣大計算機(jī)網(wǎng)絡(luò)用戶帶來很大損失,因此,計算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)一直是人們比較關(guān)注的問題。數(shù)據(jù)挖掘技術(shù)是一種新型計算機(jī)技術(shù),用于計算機(jī)網(wǎng)絡(luò)病毒的防御系統(tǒng)中可以有效的解決目前發(fā)展猖獗的蠕蟲病毒,進(jìn)一步保障計算機(jī)網(wǎng)絡(luò)系統(tǒng)的安全。

1 計算機(jī)網(wǎng)絡(luò)病毒特點

第一,計算機(jī)網(wǎng)絡(luò)病毒種類的多樣性。計算機(jī)網(wǎng)絡(luò)病毒的設(shè)計和開發(fā)沒有太大難度,簡單的幾個程序編寫指令就可以開發(fā)設(shè)計出各種各樣的網(wǎng)絡(luò)病毒,尤其是對于一些技術(shù)水平比較高的程序編寫員來講,很容易就可以完成計算機(jī)網(wǎng)絡(luò)病毒程序的編寫和修改,而且網(wǎng)絡(luò)病毒的種類增長和繁殖速度特別快[1]。

第二,計算機(jī)網(wǎng)絡(luò)病毒傳播形式的多樣性。計算機(jī)網(wǎng)絡(luò)系統(tǒng)的傳播形式有很多種,網(wǎng)絡(luò)病毒在網(wǎng)絡(luò)系統(tǒng)漏洞中的傳播就是常見的一種病毒傳播方式,計算機(jī)網(wǎng)絡(luò)病毒程序通過對Internet 遠(yuǎn)程主機(jī)系統(tǒng)的搜索和掃描,利用系統(tǒng)漏洞到達(dá)控制對方計算機(jī)的控制。同時也有一種病毒通過對文件夾的搜索掃描,進(jìn)行病毒復(fù)制,以到達(dá)入侵網(wǎng)絡(luò)系統(tǒng)的目的。

第三,計算機(jī)網(wǎng)絡(luò)病毒的針對性。在計算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展初期,計算機(jī)網(wǎng)絡(luò)病毒主要目標(biāo)就是干擾網(wǎng)絡(luò)技術(shù)人員的程序編寫,隨著計算機(jī)技術(shù)的快速發(fā)展,計算機(jī)網(wǎng)絡(luò)病毒的開發(fā)技術(shù)和功能作用也發(fā)生了很多變化,如今,計算機(jī)網(wǎng)絡(luò)病毒的設(shè)計和開發(fā)已經(jīng)開始商業(yè)化,針對性的對計算機(jī)網(wǎng)絡(luò)系統(tǒng)實施破壞,如通過盜用網(wǎng)銀賬號和密碼等方式已到達(dá)非法獲取利益的目的。

2 數(shù)據(jù)挖掘技術(shù)的基本認(rèn)識

數(shù)據(jù)挖掘技術(shù)是通過對所處一定范圍之內(nèi)的所有數(shù)據(jù)進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)分類以及數(shù)據(jù)歸類,進(jìn)而來判斷是否存在某種潛在的關(guān)系和數(shù)據(jù)規(guī)律,主要環(huán)節(jié)有3個:第一個是準(zhǔn)備數(shù)據(jù);第二個是尋找數(shù)據(jù)存在的規(guī)律;第三個是表現(xiàn)數(shù)據(jù)規(guī)律。數(shù)據(jù)挖掘技術(shù)的基本應(yīng)用結(jié)構(gòu)如下圖所示:

數(shù)據(jù)挖掘模式設(shè)置好之后,技術(shù)系統(tǒng)中的挖掘引擎就會以數(shù)據(jù)庫中的要求為依據(jù),對準(zhǔn)備好的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)歸類,找出各個數(shù)據(jù)之間存在的關(guān)系和相應(yīng)的數(shù)據(jù)規(guī)律,以便成為之后數(shù)據(jù)分析的有利依據(jù),數(shù)據(jù)挖掘步技術(shù)是比較全面的挖掘技術(shù)和數(shù)據(jù)應(yīng)用技術(shù),工作過程比較繁雜,工作操作步驟較多,其中存在很大部分的準(zhǔn)備環(huán)節(jié)和規(guī)劃工作,數(shù)據(jù)挖掘技術(shù)的重點工作是對數(shù)據(jù)的預(yù)處理階段,對數(shù)據(jù)的預(yù)處理階段是數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),是后期的進(jìn)行數(shù)據(jù)分析的必要條件[2]。

3 數(shù)據(jù)挖掘技術(shù)下的計算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)

3.1 數(shù)據(jù)挖掘技術(shù)的構(gòu)成分析

在計算機(jī)網(wǎng)絡(luò)病毒進(jìn)行傳播的時候,為了給數(shù)據(jù)挖掘技術(shù)提供相應(yīng)的數(shù)據(jù)依據(jù),需要對有關(guān)數(shù)據(jù)進(jìn)行掃描,可以對網(wǎng)絡(luò)用戶方面數(shù)據(jù)進(jìn)行掃描,也可以對系統(tǒng)數(shù)據(jù)進(jìn)行掃描。數(shù)據(jù)挖掘技術(shù)在計算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用過程比較復(fù)雜,步驟繁多,為了便于日常操作應(yīng)用,掌握每個環(huán)節(jié)的基本特征,可以對預(yù)處理模塊、決策模塊、數(shù)據(jù)收集模塊、數(shù)據(jù)挖掘模塊以及規(guī)則庫模塊進(jìn)行分模塊分析研究?;跀?shù)據(jù)挖掘技術(shù)的計算機(jī)網(wǎng)絡(luò)病毒防御流程如下圖所示:

3.1.1 數(shù)據(jù)預(yù)處理模塊分析

簡化數(shù)據(jù)挖掘技術(shù)中數(shù)據(jù)挖掘和數(shù)據(jù)分析之間的處理操作可以通過數(shù)據(jù)預(yù)處理模塊來實現(xiàn),利用數(shù)據(jù)預(yù)處理模塊可以整體上提高數(shù)據(jù)挖掘效果,提高數(shù)據(jù)辨識度和準(zhǔn)確度。在完成數(shù)據(jù)收集后需要把數(shù)據(jù)導(dǎo)入到預(yù)處理模塊,實現(xiàn)數(shù)據(jù)的分析歸類和數(shù)據(jù)變換,通過這樣額方式把數(shù)據(jù)轉(zhuǎn)換成可以被系統(tǒng)識別和處理的數(shù)據(jù)內(nèi)容。以目標(biāo) IP地址、源 IP地址、端口信息等這些據(jù)數(shù)據(jù)包當(dāng)中所包括的信息內(nèi)容為依據(jù),實施數(shù)據(jù)集合、數(shù)據(jù)歸納、數(shù)據(jù)處理等流程等[3]。

3.1.2 決策模塊分析

在數(shù)據(jù)挖掘技術(shù)中的決策功能模塊中,通過對數(shù)據(jù)的挖掘?qū)?shù)據(jù)庫進(jìn)行構(gòu)建,然后對數(shù)據(jù)進(jìn)行匹配,同時數(shù)據(jù)庫還要和規(guī)則庫密切聯(lián)系起來。如果數(shù)據(jù)庫有與規(guī)則庫存在高度聯(lián)系的信息出現(xiàn),證明在決策模塊里有病毒特征存在,很可能會感染到計算機(jī)病毒。如果是結(jié)果數(shù)據(jù)庫的數(shù)據(jù)信息和規(guī)則庫的數(shù)據(jù)不能相互匹配,那也就是說該數(shù)據(jù)包中存在有帶有新型特征病的毒帶,也就是出現(xiàn)了新型的規(guī)則類,這樣的情況下就需要把該帶有新型特征的病毒導(dǎo)入到系統(tǒng)的規(guī)則庫當(dāng)中,規(guī)則庫的一種較新型的規(guī)則類別也就形成了。

3.1.3 數(shù)據(jù)收集模塊分析

實現(xiàn)數(shù)據(jù)挖掘的基本要求是提供充分的數(shù)據(jù)信息,只有通過數(shù)據(jù)收集才能實現(xiàn)數(shù)據(jù)收集模塊的功能。數(shù)據(jù)收集模塊通過對計算機(jī)網(wǎng)絡(luò)中數(shù)據(jù)包的抓取和收集來實現(xiàn)數(shù)據(jù)信息,數(shù)據(jù)信息被收集后就會具有一定的數(shù)據(jù)結(jié)構(gòu)和比較重要的功能信息。

3.1.4 數(shù)據(jù)挖掘模塊分析

數(shù)據(jù)挖掘技術(shù)的一個最關(guān)鍵部分就是數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘模塊中的事件庫和數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘模塊的關(guān)鍵部分。數(shù)據(jù)挖掘?qū)ο嚓P(guān)數(shù)據(jù)的收集構(gòu)成了事件庫,通過對事件庫中數(shù)據(jù)的分類和數(shù)據(jù)整理,進(jìn)而可以獲取較為準(zhǔn)確的數(shù)據(jù)結(jié)構(gòu)。

3.2 以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)病毒防御系統(tǒng)

3.2.1 數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則分析

數(shù)據(jù)挖掘技術(shù)的關(guān)聯(lián)規(guī)則就是指在同一類別的數(shù)據(jù)中有可以被發(fā)現(xiàn)的知識存在,通過對兩個或者超過兩個的變量進(jìn)行取值,如果發(fā)現(xiàn)數(shù)據(jù)具體一定規(guī)律的話說明這些數(shù)據(jù)和數(shù)據(jù)之間存在著某種關(guān)聯(lián)性。因果關(guān)聯(lián)、及時序關(guān)聯(lián)以及簡單關(guān)聯(lián)是存在數(shù)據(jù)挖掘技術(shù)中的幾種主要關(guān)聯(lián)關(guān)系。要找到數(shù)據(jù)庫中的關(guān)聯(lián)網(wǎng),就需要進(jìn)行關(guān)聯(lián)分析,然后結(jié)合數(shù)據(jù)和數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行數(shù)據(jù)挖掘,進(jìn)而得到數(shù)據(jù)和數(shù)據(jù)存在的關(guān)聯(lián)規(guī)則。

3.2.2 數(shù)據(jù)挖掘技術(shù)中的聚類分析

根據(jù)數(shù)據(jù)的不同特點和類別,對所獲取的數(shù)據(jù)進(jìn)行分解,把它們分成多個不同的組別,各組數(shù)據(jù)之間在特征上都存在不同程度的相似之處,而且每組數(shù)據(jù)同時又存在著各種不同特征。系統(tǒng)對所有數(shù)據(jù)進(jìn)行聚類之后,就可以發(fā)現(xiàn)并識別出整個系統(tǒng)數(shù)據(jù)分布的疏密情況,這樣不僅可以呈現(xiàn)出組與組之間數(shù)據(jù)存在的聯(lián)系,同時也可以對全局的分布模式有所體現(xiàn)。

3.2.3 數(shù)據(jù)挖掘技術(shù)中的分類分析

對個體進(jìn)行分類并歸類到預(yù)先設(shè)定的類別當(dāng)中就是分類分析。分類的目的就是通過對各種各樣的機(jī)器學(xué)習(xí)方法和各種統(tǒng)計方法的利用,建立數(shù)據(jù)的分類模型,進(jìn)而把數(shù)據(jù)庫中存在的所有數(shù)據(jù)按照一定的規(guī)律劃分成各個類別,然后依據(jù)這個分類規(guī)則結(jié)果實現(xiàn)對其他數(shù)據(jù)的分析和歸類。

4 結(jié)束語

計算機(jī)網(wǎng)絡(luò)已經(jīng)很大程度上滲透入人們的生活和工作當(dāng)中,徹底改變了人們的生活和工作方式,同時也促進(jìn)了計算機(jī)網(wǎng)絡(luò)技術(shù)的進(jìn)一步發(fā)展,但面對無法徹底避免的計算機(jī)網(wǎng)絡(luò)病毒,大家一定要提高網(wǎng)絡(luò)系統(tǒng)安全意識,把這場抵制計算機(jī)網(wǎng)絡(luò)病毒入侵的持久戰(zhàn)堅持下去。

參考文獻(xiàn):

[1] 李智勇. 數(shù)據(jù)挖掘在計算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用探究[J]. 電子測試, 2014 (12): 46-48.

第5篇:數(shù)據(jù)挖掘技術(shù)研究范文

【關(guān)鍵詞】WEB數(shù)據(jù)挖掘技術(shù) 網(wǎng)絡(luò)營銷 應(yīng)用

網(wǎng)絡(luò)營銷是在電子商務(wù)發(fā)展下孕育而生的一種集市場營銷和現(xiàn)代信息技術(shù)為一體的新型市場營銷模式。網(wǎng)絡(luò)營銷主要是依托互聯(lián)網(wǎng)和計算機(jī)信息技術(shù),將營銷者與客戶之間的交易、交流行為實現(xiàn)信息化,而這其中則會產(chǎn)生大量的頻繁數(shù)據(jù)交換,再加之這些數(shù)據(jù)的種類較為分散,如何能夠有效的管理與應(yīng)用這些數(shù)據(jù)便成為網(wǎng)絡(luò)營銷者必須關(guān)注的問題。在本文研究中,筆者首先闡述看關(guān)于網(wǎng)絡(luò)營銷及WEB挖掘的基本理論知識以及技術(shù)原理,并就網(wǎng)絡(luò)營銷中的Web挖掘應(yīng)用技術(shù)及具體應(yīng)用方法進(jìn)行全面的探討分析。

一、網(wǎng)絡(luò)營銷和WEB數(shù)據(jù)挖掘技術(shù)的概念及類型

(一)網(wǎng)絡(luò)營銷概述

網(wǎng)絡(luò)營銷是近幾年來產(chǎn)生的一個新興名詞,其是指企業(yè)在市場營銷過程中利用計算機(jī)技術(shù)和互聯(lián)網(wǎng)實現(xiàn)有效信息的獲取、處理與利用,在此基礎(chǔ)上制定有效的市場營銷策略,從而實現(xiàn)市場營銷工作。

通過網(wǎng)絡(luò)實施營銷可讓企業(yè)降低運(yùn)營成本,提升企業(yè)的市場占有率,降低了市場壁壘,尤其對與中小企業(yè)而言可以利用低成本營銷而平等的進(jìn)入國內(nèi)、國際市場。對于企業(yè)惡言,網(wǎng)絡(luò)營銷增加了企業(yè)與客戶之間的雙向互動交流頻率,而對于消費者而言,通過互聯(lián)網(wǎng)平臺不僅擴(kuò)大了商品選擇的空間個獲得更加低廉的價格,而且滿足了更加便捷的購物需求。

(二)WEB挖掘概述

WEB挖掘?qū)儆谑抢脭?shù)據(jù)挖掘技術(shù)在獲取WEB活動文檔中的隱藏信息或者具有應(yīng)用價值的潛在應(yīng)用模式。WEB挖掘技術(shù)主要通過WWW資源、頁面的超鏈接結(jié)構(gòu)、Web頁面內(nèi)容以及用戶訪問信息等數(shù)據(jù)信息,利用歸納學(xué)習(xí)與統(tǒng)計分析方法獲取數(shù)據(jù)對象間的內(nèi)在特征。利用WEB挖掘可以發(fā)現(xiàn)更多的潛在的有趣應(yīng)用模式或者其他隱藏信息資源,并在信息過濾技術(shù)的輔助下讓客戶獲得更高層次的規(guī)律與知識。

根據(jù)相關(guān)技術(shù)原理,現(xiàn)將WEB挖掘技術(shù)分為以下三大類:

1.WEB結(jié)構(gòu)挖掘。WEB挖掘中的結(jié)構(gòu)挖掘是指利用Web組織結(jié)構(gòu)之間的鏈接關(guān)系而計算出網(wǎng)頁結(jié)構(gòu)中的有用模式。在大量的Web超鏈接信息中為Web頁面提供了相關(guān)聯(lián)的結(jié)構(gòu)與質(zhì)量方面信息資源,其能夠集中反映出文檔之間的引用、從屬及包含關(guān)系,另外通過分析Web文檔之間的超鏈接結(jié)構(gòu),還可發(fā)現(xiàn)網(wǎng)頁結(jié)構(gòu)中的有用模式,從而有利于找到權(quán)威頁面。在WEB結(jié)構(gòu)挖掘領(lǐng)域,應(yīng)用最多的算法是Page Rank和HITS算法,兩者都是通過使用一定的計算方法而獲得Web頁面之間超鏈接的質(zhì)量,例如:Google搜索引擎便是應(yīng)用此類計算方法[1]。

2.WEB使用挖掘。WEB挖掘中的使用挖掘是對網(wǎng)頁中的相應(yīng)站點數(shù)據(jù)和日志文件實施挖掘,以此來追尋相應(yīng)站點的訪問者的行為模式。由于在網(wǎng)頁資源中擁有大量的復(fù)雜、異質(zhì)信息,而每一個信息資源在服務(wù)器上都存在一個結(jié)構(gòu)化的Web訪問日志,當(dāng)網(wǎng)頁資源訪問者提出請求之后服務(wù)器將自動將行動數(shù)據(jù)記錄在訪問日志上。因此,分析不同的Web站點的訪問日志,則有利人們掌握WEB結(jié)構(gòu)以及客戶的行為動態(tài),這樣有助于提升網(wǎng)站的工作效率。

3.WEB內(nèi)容挖掘。WEB挖掘中的內(nèi)容挖掘主要是收集有用的Web信息資源(如:數(shù)據(jù)、內(nèi)容、文檔等)。Web中含有不同在種類的信息資源,目前網(wǎng)絡(luò)信息資源的來源基本上都是來自于WWW 信息資源之中,這其中除了部分人們可以直接搜索、抓取以及實現(xiàn)服務(wù)的資源以外,還有部分資源是無法被索引的隱藏數(shù)據(jù),因此便需要應(yīng)用WEB挖掘技術(shù)將其挖掘出來。

二、網(wǎng)絡(luò)營銷中的WEB挖掘技術(shù)分析

(一)路徑分析技術(shù)

實施Web數(shù)據(jù)挖掘,其所需要的路徑分析技術(shù)主要是通過對Web服務(wù)器的日志文件中訪問頻繁的路徑等其他相關(guān)路徑信息進(jìn)行判定,利用這些信息再對網(wǎng)站及頁面的設(shè)計結(jié)構(gòu)進(jìn)行不斷的完善和改進(jìn)。利用路徑分析技術(shù)實現(xiàn)數(shù)據(jù)挖掘必須經(jīng)過三個基本步驟[2],即:首先通過瀏覽過程中產(chǎn)生的站點所形成的序列來構(gòu)成原始路徑;其次是獲取最大引用序列;最后是確定最大引用序列。

(二)聚類技術(shù)

對于Web數(shù)據(jù)挖掘中的聚類技術(shù),其是將Web訪問信息數(shù)據(jù)中一些具有相似特征的數(shù)據(jù)項、訪問者信息等進(jìn)行集合,然后運(yùn)用隱式或顯式等方式來對不同的類別資源進(jìn)行描述。在實踐操作中,聚類分析在對數(shù)據(jù)分布分析時可單獨作為一個相對獨立的工具來集中觀察、分析每一個類型的特點,具體來說就是幫助企業(yè)通過分析客戶數(shù)據(jù)庫而發(fā)現(xiàn)一些不同的客戶群,并通過運(yùn)用消費模式來描述出這些不同客戶群的基本特征,從而幫助企業(yè)能夠更好的了解客戶,保障自己的服務(wù)能夠最大限度的滿足客戶需求。

(三)分類分析技術(shù)

在數(shù)據(jù)挖掘中利用分類分析技術(shù)可通過詳細(xì)分析示例數(shù)據(jù)并準(zhǔn)確描述不同類別或者建立分析模型,然后在利用這個分析模型對其他數(shù)據(jù)進(jìn)行細(xì)化分類。分類分析技術(shù)在網(wǎng)絡(luò)營銷中是使用較多的應(yīng)用技術(shù)之一,其能夠利用分類自動推導(dǎo)而對相關(guān)數(shù)據(jù)進(jìn)行相關(guān)的推廣描述,以此來預(yù)測未來的數(shù)據(jù)發(fā)展趨勢。

(四)關(guān)聯(lián)規(guī)則挖掘技術(shù)

WEB挖掘技術(shù)中的關(guān)聯(lián)分析主要是利用同一個事件中出現(xiàn)的不同項的相關(guān)性來挖掘其中所隱藏在數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則。在網(wǎng)絡(luò)營銷活動中,關(guān)聯(lián)分析主要是用于找尋客戶對網(wǎng)站中各種文件之間訪問現(xiàn)象的相互聯(lián)系,從而總結(jié)分析出客戶購買行為的關(guān)聯(lián)因素[3]。通過在Web上實施數(shù)據(jù)挖掘,以此來構(gòu)建一個關(guān)聯(lián)模型,這樣我們便可以更換的優(yōu)化組織站點,降低客戶過濾信息頻率,并根據(jù)客戶的購買行為而為客戶提供一定的推薦服務(wù)。

三、WEB數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)營銷中的具體應(yīng)用

(一)有利于確定網(wǎng)絡(luò)營銷目標(biāo)

實施有效的市場營銷活動前首要的工作是確定市場營銷目標(biāo),而這需要經(jīng)過三個既定步驟——細(xì)化目標(biāo)市場、選定目標(biāo)市場、定位目標(biāo)市場。在網(wǎng)絡(luò)營銷活動中,企業(yè)確定目標(biāo)市場前必須對于商品目標(biāo)的應(yīng)用、銷售市場進(jìn)行細(xì)分,也就是考察商品的市場吸引力、企業(yè)自身的商品營銷經(jīng)驗及未來發(fā)展目標(biāo)等等,通過上述細(xì)分之后確定商品目標(biāo)市場,最后在此基礎(chǔ)上定位目標(biāo)市場。如果企業(yè)在網(wǎng)絡(luò)營銷中應(yīng)用Web 挖掘技術(shù)確定市場營銷目標(biāo),其可以迅速對客戶數(shù)據(jù)進(jìn)行綜合分析,并自動對各個層次的市場實施細(xì)分,形成一個詳細(xì)的目標(biāo)市場分類數(shù)據(jù)資料庫,從而為企業(yè)定位目標(biāo)市場提供真實、有效的數(shù)據(jù)依據(jù)。

(二)構(gòu)建市場營銷情報系統(tǒng)

為了降低市場營銷活動的風(fēng)險,在此之前一般都需要收集大量的市場營銷信息來對目標(biāo)市場進(jìn)行細(xì)致分析。網(wǎng)絡(luò)營銷主要是通過Internet來獲取大量的相關(guān)聯(lián)信息資源,利用WEB數(shù)據(jù)挖掘技術(shù)可收集大量有效的市場營銷情報,例如:對企業(yè)營銷中所需要的政策法規(guī)、行業(yè)技術(shù)、市場環(huán)境、競爭對手、國際行情等動態(tài)信息進(jìn)行全面收集整理,并建立全面的營銷情況系統(tǒng),這樣有助于企業(yè)及時掌握市場、行業(yè)等發(fā)展新情況,制定并執(zhí)行具有針對性的營銷策略,保證企業(yè)在市場營銷中擁有絕對的主動權(quán)[4]。

(三)數(shù)據(jù)挖掘在客戶關(guān)系管理中的應(yīng)用

1.延長客戶駐留時間。通過網(wǎng)絡(luò)平臺實施營銷活動,消除了銷售企業(yè)與客戶之間存在的空間距離,在Internet平臺上所有銷售企業(yè)相對于客戶而言都是一樣的。商家為了能夠讓訪問者盡量對在自己網(wǎng)站上駐留,都需要通過技術(shù)手段分析訪問者的瀏覽行為,也就是掌握訪問者的愛好或者需求,這樣有助于商家及時根據(jù)訪問者的行為動態(tài)調(diào)整頁面設(shè)計和推薦商品信息,更新部分訪問者敢興趣的商品信息,一方面能夠滿足訪問者的需求,更重要的是能夠最大限度的延長訪問者的駐留時間。

2.挖掘潛在客戶。企業(yè)通過對Web日志記錄中的訪問規(guī)律進(jìn)行分析,根據(jù)訪問者的相關(guān)信息資源進(jìn)行科學(xué)分類,并確定訪問者分類的關(guān)鍵屬性及相互之間的關(guān)聯(lián)。如果有新的訪問者,則可在Web分類中識別出與已分類訪問者之間存在的一些公共描述,然后再對這些新訪問者進(jìn)行正確分類,最后從新訪問者的分類判斷中決定是否將其作為潛在客戶來對待[5]。如果將其作為潛在客戶對象,則可給予該客戶提供一些個性化的特殊頁面內(nèi)容,從而吸引客戶的注意力,激發(fā)客戶的消費欲望。

(四)促進(jìn)優(yōu)化站點設(shè)計

在超市中我們經(jīng)常會發(fā)現(xiàn)他們將有關(guān)聯(lián)的物品放在一起,這樣有助于提升商品的銷售業(yè)績,而在網(wǎng)絡(luò)營銷中的Web站點結(jié)構(gòu)也是類似的,在瀏覽模式的設(shè)計過程中需要依據(jù)大部分訪問者的瀏覽習(xí)慣來安排、鏈接頁面內(nèi)容;若部分頁面訪問頻率較大時則可適當(dāng)增加頁面鏈接,這樣方便訪問者順暢瀏覽頁面;在訪問較為頻繁的頁面上放置重要商品信息,吸引客戶的注意力及商品的影響力,從而提升營銷業(yè)績。

四、結(jié)語

網(wǎng)絡(luò)營銷模式屬于是現(xiàn)代市場營銷進(jìn)入數(shù)字化時代最有力的證明,隨著電子商務(wù)體系不斷成熟,網(wǎng)絡(luò)營銷必將成為未來社會營銷領(lǐng)域中一種新的發(fā)展潮流與趨勢。在網(wǎng)絡(luò)營銷活動中,Web數(shù)據(jù)挖掘技術(shù)有助于企業(yè)預(yù)測市場發(fā)展趨勢、客戶消費動態(tài),進(jìn)一步挖掘有價值的潛在商業(yè)信息資源,從而幫助企業(yè)制定具有前瞻性的營銷策略,保障企業(yè)能夠在激烈的競爭環(huán)境中把握有利發(fā)展機(jī)遇。目前,國內(nèi)外學(xué)術(shù)界對Web挖掘技術(shù)展開了深入的研究,雖然尚未形成一個成熟的理論與應(yīng)用體系,但是隨著電子商務(wù)的不斷發(fā)展,Web挖掘技術(shù)必將擁有廣闊的發(fā)展空間。

參考文獻(xiàn)

[1]李巖.基于Web挖掘的專題性智能信息搜索工具關(guān)鍵技術(shù)研究[D].北京:北京科技大學(xué)信息工程學(xué)院,2003.

[2]石磊,王偉華等.Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用[A].信息時代—科技情報研究學(xué)術(shù)論文集(第三輯)[C];2008.

[3]朱凌云,趙韓,高先圣.Web挖掘在網(wǎng)絡(luò)營銷中的應(yīng)用研究[J].情報雜志,2006.1.

[4]藺莉,潘浩.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].電腦知識與技術(shù),2010,(4):816-818.

[5]付泉.電子商務(wù)中數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用探討[J].科技廣場,2007(3):114-116.

第6篇:數(shù)據(jù)挖掘技術(shù)研究范文

關(guān)鍵詞:工業(yè)大數(shù)據(jù);關(guān)聯(lián)規(guī)則;設(shè)備維護(hù);BP神經(jīng)網(wǎng)絡(luò)

1 概述

目前工業(yè)設(shè)計、生產(chǎn)制造等環(huán)節(jié)中引入了自動化系統(tǒng),系統(tǒng)運(yùn)行積累了海量的數(shù)據(jù)資源,如何從海量數(shù)據(jù)中挖掘有價值、有用的信息,幫助工業(yè)生產(chǎn)作出正確的決策,已經(jīng)成為許多學(xué)者研究的熱點[1]。大數(shù)據(jù)挖掘分析可以從海量的、帶有噪聲數(shù)據(jù)的、不完全的數(shù)據(jù)記錄中發(fā)現(xiàn)隱含的模式,可以為工業(yè)數(shù)據(jù)挖掘提供契機(jī)。大數(shù)據(jù)挖掘可以使用相關(guān)的算法尋找隱藏的數(shù)據(jù)知識,其功能主要包括關(guān)聯(lián)分析、聚類分析、分類預(yù)測、偏差檢測等[2]。

(1)關(guān)聯(lián)分析。工業(yè)系統(tǒng)運(yùn)行產(chǎn)生的大數(shù)據(jù)來源于設(shè)計、制造和生產(chǎn)等環(huán)節(jié),涉及各類型軟硬件設(shè)備,這些數(shù)據(jù)信息資源存在極大的關(guān)聯(lián)關(guān)系,比如簡單關(guān)聯(lián)關(guān)系、時序關(guān)聯(lián)關(guān)系、設(shè)備-軟件關(guān)聯(lián)關(guān)系、日志操作關(guān)聯(lián)關(guān)系等。

(2)分類預(yù)測。應(yīng)用工業(yè)大數(shù)據(jù)的過程中,許多信息數(shù)據(jù)保存得較為繁亂,比如設(shè)備種類和數(shù)量多,設(shè)備購置、維修、更換等運(yùn)行記錄保存日期、位置、版本較多,容易產(chǎn)生不一致。因此,分類預(yù)測可以根據(jù)工業(yè)企業(yè)管理人員的需求,引入貝葉斯理論等構(gòu)件一個分類算法,挖掘數(shù)據(jù)中相同類別的信息,這些類別可以是維修記錄、購置記錄,也可以是時間內(nèi)容等,并且可以利用預(yù)測管理功能,預(yù)測設(shè)備運(yùn)行趨勢。

(3)聚類分析。工業(yè)大數(shù)據(jù)多是設(shè)備運(yùn)行自動產(chǎn)生的數(shù)據(jù),相關(guān)子數(shù)據(jù)集缺乏詳細(xì)的描述信息,此時可以采用聚類分析方法,將數(shù)據(jù)劃分為多個簇,簇內(nèi)保持高度的相似性、同構(gòu)性,簇間保持較大的差別性,這就可以把相同類別的數(shù)據(jù)劃分到一組,不同類別的數(shù)據(jù)劃分到多個簇。

(4)偏差檢測。數(shù)據(jù)挖掘發(fā)現(xiàn)數(shù)據(jù)集中的離群點或異常數(shù)據(jù)是一個重要的功能,比如工業(yè)生產(chǎn)網(wǎng)絡(luò)安全監(jiān)測,該功能被稱為偏差檢測。偏差檢測主要包括分類中的反常實例、例外模式、觀測結(jié)果對期望值存在的偏離以及量值可以隨時間的變化而變化。偏差檢測包括尋找觀察結(jié)果、參照之間的有意義差別,偏差分析的一個非常重要的特征是可以有效地過濾掉大量不感興趣的信息。

2 工業(yè)大數(shù)據(jù)挖掘分析技術(shù)及模式

工業(yè)生產(chǎn)引入自動化系統(tǒng)始于第二次工業(yè)革命,隨著傳感器、移動通信等技術(shù)的快速改進(jìn),工業(yè)生產(chǎn)正在向著密度更高、效率更高的綜合信息化運(yùn)行模式發(fā)展,引入了許多先進(jìn)的計算機(jī)系統(tǒng),這些系統(tǒng)運(yùn)行產(chǎn)生了海量的數(shù)據(jù)信息資源,導(dǎo)致了人們不能夠繼續(xù)使用傳統(tǒng)的生產(chǎn)模式,必須從多個方面和切入點進(jìn)行有效研究和發(fā)展,引入大數(shù)據(jù)挖掘分析技術(shù),一般實現(xiàn)工業(yè)生產(chǎn)科學(xué)管理,有效地控制生產(chǎn)設(shè)備,形成一個全過程生產(chǎn)模式[3]。目前,工業(yè)大數(shù)據(jù)挖掘分析技術(shù)包括多種技術(shù),最常用的包括K均值、BP神經(jīng)網(wǎng)絡(luò)、遺傳算法和貝葉斯理論等,可以從海量的流量數(shù)據(jù)中發(fā)掘潛在的有價值的信息,利用這些信息可以指導(dǎo)、創(chuàng)新工業(yè)生產(chǎn)管理模式,構(gòu)建一個大數(shù)據(jù)挖掘系統(tǒng)[4]。

(1)基于K均值算法構(gòu)建聚類分析模式。K均值是常用的主流聚類分析算法,使用工業(yè)數(shù)據(jù)之前,許多用戶不知道期望的目標(biāo),并且無法獲取更多的數(shù)據(jù)應(yīng)用背景知識,因此可以利用K均值算法構(gòu)建一個自動聚類分析的大數(shù)據(jù)模式,比如可以自動將工業(yè)設(shè)計數(shù)據(jù)劃分為高中低等檔次,可以把高檔設(shè)計案例推薦給企業(yè),提高企業(yè)工業(yè)設(shè)計能力。

(2)基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建分類預(yù)測模型。BP神經(jīng)網(wǎng)絡(luò)是一種數(shù)據(jù)挖掘方法,其可以通過學(xué)習(xí)獲取相關(guān)的風(fēng)險關(guān)鍵特征,然后將待評估的工業(yè)設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)輸入到系統(tǒng)中,自動分析設(shè)備維護(hù)次數(shù)、更新次數(shù)、使用周期,這種工業(yè)設(shè)備運(yùn)行管理模型速度快,評估結(jié)果具有較高的準(zhǔn)確度。工業(yè)大數(shù)據(jù)分類預(yù)測可以采用BP神經(jīng)網(wǎng)絡(luò)算法構(gòu)建一個分類預(yù)測系統(tǒng),這樣就可以準(zhǔn)確地判斷大數(shù)據(jù)的運(yùn)行維護(hù)記錄,判斷設(shè)備日常運(yùn)行趨勢,能夠提高工業(yè)設(shè)備的運(yùn)行維護(hù)效率。

3 工業(yè)大數(shù)據(jù)挖掘作用及前景

隨著自動化控制、多媒體通信等技術(shù)的快速發(fā)展,大數(shù)據(jù)挖掘技術(shù)可以在船舶設(shè)計制造、工業(yè)生產(chǎn)安全監(jiān)測等領(lǐng)域得到應(yīng)用,實現(xiàn)自動化制造和工業(yè)安全生產(chǎn)管理等,進(jìn)一步實現(xiàn)工業(yè)生產(chǎn)過程的智能化。

3.1 智能制造

目前,隨著工業(yè)4.0、互聯(lián)網(wǎng)+等深入發(fā)展和應(yīng)用,大數(shù)據(jù)挖掘技術(shù)可以有效地提升智能制造的相關(guān)產(chǎn)品設(shè)計、制造、生產(chǎn)和展示等階段的性能,大數(shù)據(jù)挖掘在完善產(chǎn)品設(shè)計功能、優(yōu)化產(chǎn)品性能、改進(jìn)產(chǎn)品質(zhì)量等方面具有重要的作用,可以大大提高工業(yè)產(chǎn)品的生產(chǎn)成功率和降低開發(fā)成本。比如在鋼鐵工業(yè)制造中,帶鋼生產(chǎn)工序較為復(fù)雜,涉及多個環(huán)節(jié),每一個環(huán)節(jié)的工藝設(shè)置參數(shù)較多,造成帶鋼成品很容易產(chǎn)生各類型的缺陷,比如擦傷、邊裂、劃痕、輥印、結(jié)疤和氧化鐵皮壓入等,大數(shù)據(jù)挖掘可以構(gòu)建一個集成多方面優(yōu)勢的構(gòu)建一個帶鋼缺缺陷識別模型,能夠利用圖像處理技術(shù)分析帶鋼上的各種缺陷類型,及時發(fā)現(xiàn)不合格的產(chǎn)品。

3.2 安全監(jiān)測

工業(yè)生產(chǎn)過程中,安全生產(chǎn)一直是生產(chǎn)監(jiān)管的重要方面,大數(shù)據(jù)挖掘技術(shù)可以在工業(yè)安全生產(chǎn)中發(fā)揮重要的作用。比如電力工業(yè)生產(chǎn)可以利用大數(shù)據(jù)分析技術(shù)監(jiān)控電網(wǎng)的運(yùn)行狀態(tài),并且將其輸入到虛擬仿真系統(tǒng)中,可以實時觀察電網(wǎng)運(yùn)行是否存在故障和漏洞。鋼鐵工業(yè)生產(chǎn)環(huán)境多處于高溫、封閉狀態(tài),并且已經(jīng)不利于人們的行動,可以利用傳感器、視頻攝像頭采集鋼鐵生產(chǎn)作業(yè)環(huán)境的實時狀況,并且構(gòu)建一個鋼鐵工業(yè)生產(chǎn)現(xiàn)場監(jiān)控系統(tǒng),可以采集鋼鐵工業(yè)生產(chǎn)、加工的實時數(shù)據(jù),將其輸入到鋼鐵工業(yè)服務(wù)器中,能夠?qū)崟r的顯示在監(jiān)控終端,比如電視墻、大屏幕上,分析鋼鐵工業(yè)的生產(chǎn)設(shè)備、作業(yè)環(huán)境等信息,確保鋼鐵工業(yè)生產(chǎn)的安全性。

4 結(jié)束語

工業(yè)生產(chǎn)涉及環(huán)節(jié)較多,每一個環(huán)節(jié)都需要采用不同種類和數(shù)量的軟件系統(tǒng)和硬件設(shè)備,這些軟硬件資源在運(yùn)行過程中產(chǎn)生了海量的數(shù)據(jù),利用K均值、BP神經(jīng)網(wǎng)絡(luò)等構(gòu)件大數(shù)據(jù)挖掘與分析系統(tǒng),能夠有效提升工業(yè)大數(shù)據(jù)分析和挖掘能力,從海量數(shù)據(jù)資源中發(fā)現(xiàn)潛在的有價值信息,提高工業(yè)生產(chǎn)決策的準(zhǔn)確度,進(jìn)一步改進(jìn)工業(yè)生產(chǎn)效率。

參考文獻(xiàn)

[1]陳良臣.大數(shù)據(jù)挖掘與分析的關(guān)鍵技術(shù)研究[J].數(shù)字技術(shù)與應(yīng)用, 2015(11):93.

[2]鄭茂寬,徐志濤,明新國,等.船舶工業(yè)大數(shù)據(jù)技術(shù)應(yīng)用與發(fā)展前景分析[C]//長三角地區(qū)船舶工業(yè)發(fā)展論壇,2014.

第7篇:數(shù)據(jù)挖掘技術(shù)研究范文

[關(guān)鍵詞] XML Web數(shù)據(jù)挖掘 電子商務(wù)系統(tǒng)

一、數(shù)據(jù)挖掘與XML

數(shù)據(jù)挖掘就是從大量隨機(jī)的實際應(yīng)用數(shù)據(jù)中,通過數(shù)據(jù)抽取、轉(zhuǎn)換、分析和其他模型化處理,提取隱含在其中的有用信息和知識的過程。Web數(shù)據(jù)挖掘過程可粗略地分為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的解釋評估三個階段,其中每一個階段又包含若干個子階段(參見圖1)。

圖1 數(shù)據(jù)挖掘過程的一般步驟

XML(eXtensible Markup Language)是一種跨平臺可擴(kuò)展的數(shù)據(jù)描述語言,它是標(biāo)準(zhǔn)通用標(biāo)記語言SGML的一個簡化子集,但克服了SGML的復(fù)雜性,將SGML的豐富功能與HTML的易用性結(jié)合起來,具有較強(qiáng)的描述數(shù)據(jù)和管理數(shù)據(jù)的能力,并憑借其良好的可擴(kuò)展性和自描述性、形式與內(nèi)容分離、對多語種支持等特點,給跨平臺跨地域異構(gòu)數(shù)據(jù)的集成帶來方便。XML的這種特性為處理電子商務(wù)系統(tǒng)中大量的異構(gòu)數(shù)據(jù)提供了可行性。

二、實施Web數(shù)據(jù)挖掘的關(guān)鍵問題及解決方法

1.異構(gòu)數(shù)據(jù)的轉(zhuǎn)換

電子商務(wù)系統(tǒng)服務(wù)器端的用戶文件目前主要是XML、HTML和關(guān)系數(shù)據(jù)等數(shù)據(jù)類型。從數(shù)據(jù)處理角度來看,關(guān)系數(shù)據(jù)模型過于嚴(yán)謹(jǐn),無法有效地表示半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);HTML對文檔的要求也過于完整,且不能定義數(shù)據(jù)的層次,沒有提供編程接口解析它所攜帶的數(shù)據(jù),無法真正實現(xiàn)各種應(yīng)用程序、數(shù)據(jù)庫及操作系統(tǒng)間的數(shù)據(jù)交互。XML與關(guān)系數(shù)據(jù)模型和HTML相比,可以表示更多樣化的數(shù)據(jù)格式,能夠使不同來源的結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)很容易地進(jìn)行合并。

采用XML集成多個不同數(shù)據(jù)源的信息,只需要把來自不同數(shù)據(jù)源的信息先轉(zhuǎn)成XML文檔,然后再處理經(jīng)過解析器解析的數(shù)據(jù)流即可。任何應(yīng)用程序只需要知道兩種格式,即本身的和XML的,就可以通過XML為中介實現(xiàn)與其他應(yīng)用程序的信息交換。

因此,在Web挖掘的數(shù)據(jù)預(yù)處理階段,用XML作為中間數(shù)據(jù)模型來屏蔽Web數(shù)據(jù)源的異構(gòu)性不僅是可行的,而且可以使異構(gòu)數(shù)據(jù)源能有效地集成應(yīng)用,從而較好地解決Web挖掘中的技術(shù)難題。

2.XML數(shù)據(jù)的查詢

XML描述的Web數(shù)據(jù)所具有的半結(jié)構(gòu)化特性對傳統(tǒng)的數(shù)據(jù)管理方式提出了挑戰(zhàn),由于XML文檔數(shù)據(jù)具有特殊的樹型層次結(jié)構(gòu),使得已有的數(shù)據(jù)查詢技術(shù)(如傳統(tǒng)的基于關(guān)系數(shù)據(jù)庫方式的信息查詢、基于文本的信息檢索)不能很好地應(yīng)用于XML數(shù)據(jù)的查詢處理。本文采用文獻(xiàn)提出的基于結(jié)構(gòu)特征編碼模式的XML數(shù)據(jù)查詢算法―MatchSearch,能夠有效地對經(jīng)過上述轉(zhuǎn)換和數(shù)據(jù)抽取所得的半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行多路徑查詢。

MatchSearch算法是基于傳統(tǒng)信息檢索技術(shù)中的字符串匹配算法提出的,其重點是對查詢語句的分支進(jìn)行判斷、處理。實際應(yīng)用中借鑒MatchSearch算法的基本思想,采用三元編碼模式,將XML文檔中的每個數(shù)據(jù)成分(元素、屬性、原子值)都用(name, path, branch)形式表示。其中,name表示數(shù)據(jù)成分的名稱或值,path以壓縮編碼的形式表示從文檔根節(jié)點到當(dāng)前數(shù)據(jù)節(jié)點的父節(jié)點的路徑,branch表示當(dāng)前數(shù)據(jù)節(jié)點的子節(jié)點數(shù)。這種三元編碼形式不僅可以表示數(shù)據(jù)的內(nèi)容(由name表示),還可以有效地表示XML數(shù)據(jù)的結(jié)構(gòu)(由path和 branch表示),因此可以將XML文檔數(shù)據(jù)轉(zhuǎn)換為等價的以三元編碼模式表示的字符串形式。同理,基于路徑的XML數(shù)據(jù)查詢也可以表示成三元編碼形式的字符串。這樣,XML的數(shù)據(jù)查詢問題就轉(zhuǎn)化為三元編碼形式的字符串匹配問題。

此外,借鑒MatchSearch算法的基本思想,還可以利用三元編碼模式設(shè)計一種雙層的B+樹索引結(jié)構(gòu),將路徑索引和數(shù)值索引合為一體,能夠進(jìn)一步提高索引的查詢速度。通過與有代表性的查詢優(yōu)化方法的對比實驗,表明該方法能夠有效地提高針對半結(jié)構(gòu)化數(shù)據(jù)的多路徑查詢速度。

三、面向電子商務(wù)XML文檔的Web挖掘應(yīng)用

電子商務(wù)網(wǎng)站上的異構(gòu)數(shù)據(jù)經(jīng)過轉(zhuǎn)換為XML格式處理后,就可選用相應(yīng)的Web挖掘技術(shù)對數(shù)據(jù)集實施挖掘分析。

1.基于XML的Web挖掘集成應(yīng)用模型

由于Web上的電子商務(wù)信息多而雜,并且大多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的,這就使得Web挖掘?qū)?shù)據(jù)的預(yù)處理過程要比普通的數(shù)據(jù)挖掘更為復(fù)雜,工作難度也更大。為此,筆者提出了一個基于XML的Web數(shù)據(jù)挖掘集成應(yīng)用模型(如圖1所示)。

圖2基于XML的Web數(shù)據(jù)挖掘應(yīng)用模型

該模型給出了基于電子商務(wù)服務(wù)器端數(shù)據(jù)實施Web數(shù)據(jù)挖掘集成應(yīng)用的基本思想和一般流程:將實現(xiàn)HTML文檔、關(guān)系數(shù)據(jù)向XML格式轉(zhuǎn)換的工具封裝為XML轉(zhuǎn)換器,將路徑分析、分類技術(shù)等Web數(shù)據(jù)挖掘技術(shù)封裝為Web數(shù)據(jù)挖掘器,并與處理XML的Java應(yīng)用編程接口(Java API for XML processing)等模塊集成,以中間件的形式植入電子商務(wù)系統(tǒng)解決實際應(yīng)用問題。

需要說明的是,目前Web數(shù)據(jù)挖掘的過程并非完全自動的,上述應(yīng)用模型中有許多細(xì)節(jié)工作仍需要人工完成。

2.利用分類技術(shù)發(fā)現(xiàn)潛在客戶群體

分類是一種數(shù)據(jù)分析形式,可以用來抽取描述重要數(shù)據(jù)集合的模型,一般用于預(yù)測數(shù)據(jù)對象的離散類別。在電子商務(wù)系統(tǒng)中應(yīng)用分類技術(shù),可以通過挖掘客戶群體中某些共同的特性而將客戶分成不同的類別,建立不同種類客戶之間的特征分類模型,進(jìn)而預(yù)測不同行為類別客戶的分布特征。

對一個電子商務(wù)網(wǎng)站來說,從眾多的訪問者中發(fā)現(xiàn)潛在客戶群體非常關(guān)鍵。那么,如何通過Web挖掘來發(fā)現(xiàn)潛在客戶群體呢?可以應(yīng)用分類規(guī)則挖掘中的主要方法,如決策樹分類技術(shù),先對客戶通過Web日志文件的處理和分類規(guī)則挖掘,識別出其各類的公共屬性,然后對一個新的客戶,依據(jù)分類規(guī)則進(jìn)行預(yù)測,確定是否為潛在的客戶。如果發(fā)現(xiàn)某些訪問者為潛在客戶,就可以對這類客戶實施一定的策略,使他們盡快成為在冊客戶,從而使電子商務(wù)網(wǎng)站的訂單數(shù)增多,效益增加。

四、結(jié)束語

研究表明,數(shù)據(jù)挖掘工作60%的時間用在數(shù)據(jù)準(zhǔn)備上。這一方面說明數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)要求的嚴(yán)格,但同時也啟示我們:如果能減少在數(shù)據(jù)準(zhǔn)備階段的工作量,也就意味著可以有效地減少整個數(shù)據(jù)挖掘過程的工作量。本文所提出的基于XML的Web數(shù)據(jù)預(yù)處理方法被實際應(yīng)用證實是一種有效的方法。

參考文獻(xiàn):

[1]陸汝鈐:人工智能[M].北京:科學(xué)出版社,2000.

[2]胡侃夏紹瑋:基于大型數(shù)據(jù)倉庫的數(shù)據(jù)采掘:研究綜述[J].軟件學(xué)報,1998,9(1)

第8篇:數(shù)據(jù)挖掘技術(shù)研究范文

【關(guān)鍵詞】 移動學(xué)習(xí) 教學(xué)資源 數(shù)據(jù)挖掘 聚類

在傳統(tǒng)的教學(xué)方式中,一直是以教師為中心的基本教學(xué)方法。這種方式,學(xué)生只能感知學(xué)習(xí)內(nèi)容,而解決實際問題時,由于缺乏實踐經(jīng)驗,他們通常難以完成。

隨著智能手機(jī)、平板電腦等各種智能移動終端已經(jīng)得到了非常廣泛的發(fā)展與關(guān)注,隨之而來的一種新的學(xué)習(xí)模式一一移動學(xué)習(xí),已經(jīng)開始為人們所關(guān)注。與傳統(tǒng)的課堂學(xué)習(xí)或基于桌面電腦的E-Learning相比,移動學(xué)習(xí)可以突破時空限制,移動學(xué)習(xí)者在任何時間、任何地點的“零碎”情境下,只要學(xué)習(xí)者有學(xué)習(xí)的意愿,就可以隨時隨地地進(jìn)行學(xué)習(xí)。

本研究將以“Visual Basic程序設(shè)計”課程為依托,重點對面向移動學(xué)習(xí)教學(xué)資源的開發(fā)和應(yīng)用兩方面展開研究。首先基于課程進(jìn)行按知識點的移動學(xué)習(xí)資源設(shè)計,一個知識點可以是一個屬性介紹,也可以是一個算法實現(xiàn);同時引入數(shù)據(jù)挖掘技術(shù),基于學(xué)生關(guān)于學(xué)習(xí)資源使用情況和學(xué)習(xí)效果反饋信息,進(jìn)行聚類分析,深入探究學(xué)習(xí)者對不同知識點的掌握程度和學(xué)習(xí)效果,從而推進(jìn)和改善移動課程資源設(shè)計和教學(xué)過程設(shè)計。

一、移動教學(xué)資源

移動學(xué)習(xí)資源是指支持開展移動學(xué)習(xí)的各種信息資源,即移動學(xué)習(xí)資料、移動學(xué)習(xí)環(huán)境和移動學(xué)習(xí)支持系統(tǒng)[1]。移動學(xué)習(xí)資源是移動學(xué)習(xí)的重要組成部分,是教師組織教學(xué)的工具和學(xué)習(xí)者獲得信息的途徑[2]。學(xué)習(xí)資源一直被認(rèn)為是教育技術(shù)學(xué)最重要的研究對象之一,并一直受到研究者的重點關(guān)注,對學(xué)習(xí)資源的正確的認(rèn)識和理解,是開發(fā)優(yōu)質(zhì)教學(xué)資源的前提,也是教育技術(shù)研究實踐中的一項重要任務(wù)。

分析現(xiàn)有的文獻(xiàn)資料可以發(fā)現(xiàn)國內(nèi)移動學(xué)習(xí)資源的研究主要是集中在移動學(xué)習(xí)資源的學(xué)習(xí)模式、技術(shù)支持、開發(fā)與設(shè)計等方面,尤其是對于面向移動學(xué)習(xí)的教學(xué)資源的拓展開發(fā)以及如何讓這為學(xué)習(xí)者服務(wù)等研究還在初步階段。

二、教學(xué)資源設(shè)計

課程的內(nèi)容分解設(shè)計直接決定著教學(xué)資源的知識內(nèi)容,它主要指根據(jù)課程目標(biāo)在確保課程內(nèi)容完整性的同時,如何將課程內(nèi)容分解成一定粒度容量的知識內(nèi)容,以適應(yīng)學(xué)習(xí)者的碎片化學(xué)習(xí)需求。

移動學(xué)習(xí)課程與網(wǎng)絡(luò)課程相比最大的特點就在于內(nèi)容的碎片化,將一個多小時的內(nèi)容拆分成多個獨立的知識片段,每個知識片段都會有一個主題,這個知識主題是根據(jù)學(xué)習(xí)者的認(rèn)知規(guī)律和教學(xué)方式對元知識點的邏輯重組,這樣有助于更清晰完整的表達(dá)知識框架;此外,移動學(xué)習(xí)課程按照知識點模塊化組織,當(dāng)知識點內(nèi)容發(fā)生變化時,移動學(xué)習(xí)課程也能夠?qū)崿F(xiàn)快速的更新升級,從而避免了重復(fù)制作課程[3]。

一般來說,知識點是枯燥、抽象的描述,不容易被學(xué)習(xí)和理解,那么就需要根據(jù)知識點的類型選擇合適的方法、步驟和組織形式,綜合運(yùn)用文字、圖片、音頻和視頻等多媒體素材對知識點進(jìn)行表現(xiàn),這樣才能使其更加貼近學(xué)習(xí)者,更易于被理解。

2009年張馳等提出的基于課程知識點進(jìn)行片段式的移動學(xué)習(xí)資源設(shè)計,即將工作或?qū)W習(xí)內(nèi)容分割成小塊的有用信息,這樣人們就可以通過非線性的方式獲得這些信息;主要包括兩方面內(nèi)容:①學(xué)習(xí)內(nèi)容的微型化②學(xué)習(xí)形式的微型化[4]。

移動學(xué)習(xí)資源的研究和開發(fā)還有不足之處,忽視了資源知識點之間的內(nèi)在關(guān)聯(lián),一定程度上影響了學(xué)習(xí)者進(jìn)行持續(xù)而系統(tǒng)的有效學(xué)習(xí),降低了移動學(xué)習(xí)效率。

三、數(shù)據(jù)挖掘在移動學(xué)習(xí)中的應(yīng)用

數(shù)據(jù)挖掘就是從大量的、不完整的數(shù)據(jù)中,提取隱含在其中有用信息的過程。基于聚類的數(shù)據(jù)挖掘是一種“無監(jiān)督學(xué)習(xí)”的方法,事先不知道將要分成哪些類,采用最大化類內(nèi)的相似性、最小化類間的相似性原則進(jìn)行歸類,即使得一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。聚類分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來分類[5]。

在教學(xué)中,基于聚類的數(shù)據(jù)挖掘技術(shù)可以根據(jù)學(xué)生的平時及期末考試成績,挖掘出內(nèi)在的影響因素,如學(xué)生的學(xué)習(xí)態(tài)度、學(xué)習(xí)習(xí)慣、薄弱章節(jié)等信息。得到的總結(jié)分析應(yīng)用于指導(dǎo)學(xué)生學(xué)習(xí)及日常教學(xué),既節(jié)省了大量的練習(xí)時間又能夠獲得良好的學(xué)習(xí)效果。

3.1數(shù)據(jù)收集與數(shù)據(jù)轉(zhuǎn)換

1) 數(shù)據(jù)準(zhǔn)備

以《Visual Basic程序設(shè)計第四版》(龔沛曾著)教材中的第四章“基本控制結(jié)構(gòu)”部分知識點為例,制作移動學(xué)習(xí)課件,課件時長基本控制在5至30分鐘的范圍內(nèi)。5分鐘的課件涉及一個較細(xì)的知識點,如IIF()函數(shù)的使用方法;10分鐘的課件涉及一個較大的知識點,如IF條件語句的語法結(jié)構(gòu);30分鐘的課件中講授一個更大的知識點或多個緊密關(guān)聯(lián)的小知識點,如具體算法的實現(xiàn)。

組織學(xué)生一段時間的移動學(xué)習(xí)后,從金陵科技學(xué)院“土木工程”、“機(jī)械設(shè)計與自動化”和“動物科學(xué)”三個專業(yè)獲取成績樣本數(shù)358份,并根據(jù)每個學(xué)生各個知識點的得分情況,計算出每個知識點的“成績績點”(成績績點=所有學(xué)習(xí)者該知識點的得分均值/該知識點的分值),如某知識點考核的總分為10分,學(xué)生得分為9分,則該項相應(yīng)的成績績點為0.9。

2) 數(shù)據(jù)轉(zhuǎn)換。

為了使數(shù)據(jù)變換成適于數(shù)據(jù)挖掘的形式,也便于維度信息的表述,我們對數(shù)據(jù)各維度上的信息進(jìn)行數(shù)值化和量化。如:根據(jù)長年教授VB課程教師的多年經(jīng)驗,將各個知識點按照難易度進(jìn)行了劃分,并將“難”、“中”、“易”分別轉(zhuǎn)換成3、2和1;課件時長的屬性維度上的信息:將5 分鐘左右、10分鐘左右、30分鐘左右,分別轉(zhuǎn)換為1、2、3;同時對每個學(xué)生每個知識點點擊學(xué)習(xí)的次數(shù)、性別和成績績點分別進(jìn)行相應(yīng)的轉(zhuǎn)換。將經(jīng)過轉(zhuǎn)換后的樣本信息建成數(shù)據(jù)挖掘的樣本數(shù)據(jù)庫,具體的信息維度設(shè)計與量化情況見表1。

具體的數(shù)據(jù)統(tǒng)計形式如表2,其中每條數(shù)據(jù)實體為一位學(xué)生一個知識點的學(xué)習(xí)情況。

3.2聚類過程

本文所用的聚類分析方法是K-means算法。這一種得到最廣泛使用的聚類算法,它是將各個聚類子集內(nèi)的所有數(shù)據(jù)樣本的均值作為該聚類的代表點,算法的主要思想是通過迭代過程把數(shù)據(jù)集劃分為不同的類別,使得評價聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),從而使生成的每個聚類內(nèi)緊湊,類間獨立。這一算法不適合處理離散型屬性,但是對于連續(xù)型具有較好的聚類效果。主要包括以下步驟:

1)隨機(jī)取k個元素作為各個簇的中心。

2)根據(jù)每個對象與各個簇中心的歐式距離,分配給最近的簇。歐式距離公式為:

4)根據(jù)各個簇元素的平均值,重新計算新的簇的中心,然后轉(zhuǎn)(2)。這個過程不斷重復(fù)直到誤差平方和最小。

(三)算法結(jié)果分析

根據(jù)K-means算法對轉(zhuǎn)換后的數(shù)據(jù)分別進(jìn)行了2、3、4類歸類后,發(fā)現(xiàn)3類的歸類效果較好。并對3類歸類后的數(shù)據(jù)進(jìn)行了統(tǒng)計,統(tǒng)計信息如表3。

從表3的統(tǒng)計結(jié)果可以看出:類別一中涉及知識點難度較為簡單,即使在點擊次數(shù)不多的情況下,但是成績績點還是相對要高;類別二中涉及的知識點較難,但學(xué)習(xí)者在多次點擊學(xué)習(xí)的情況下,還是得到了不錯的績點;類別三中涉及的知識點相對是最難的,但是可以發(fā)現(xiàn)學(xué)習(xí)者的點擊次數(shù)明顯下降,最終的學(xué)習(xí)績點也很不理想,同時有趣的發(fā)現(xiàn)女生在該類別中所占的比例是明顯多于男生。

通過以上分析可以看出一些難易程度適中的知識點,學(xué)生通過一段時間的自學(xué)是能夠掌握的很好的。同時,哪些知識點還存在問題,教師可以根據(jù)學(xué)生的學(xué)習(xí)情況有的放矢地進(jìn)行教學(xué),并給出學(xué)習(xí)建議和指導(dǎo),同時修改組卷參數(shù)以給出符合學(xué)生學(xué)習(xí)水平和特性的試題;學(xué)生也可以根據(jù)分析結(jié)果進(jìn)行有針對性的學(xué)習(xí)從而提高了教學(xué)和學(xué)習(xí)效率。

通過本次挖掘結(jié)果,學(xué)生也意識到要提高自己的學(xué)習(xí)效率,就要努力改變自己的學(xué)習(xí)習(xí)慣和學(xué)習(xí)態(tài)度;同時教師可以根據(jù)不同章節(jié)的難易度,適當(dāng)讓學(xué)生自學(xué),以提升學(xué)生自我學(xué)習(xí)的能力。

四、結(jié)論

本研究首先依據(jù)移動學(xué)習(xí)資源的特點,對課程學(xué)習(xí)資源進(jìn)行了設(shè)計與制作,隨后引入數(shù)據(jù)挖掘技術(shù)對學(xué)生的成績樣本進(jìn)行了聚類分析,得到了較理想的聚類結(jié)果。

移動學(xué)習(xí)有助于豐富學(xué)生的思維方式,有助于培育學(xué)生深度學(xué)習(xí)的學(xué)習(xí)品質(zhì)。

同時移動教學(xué)資源充分開發(fā)與利用,使學(xué)習(xí)內(nèi)容借助資源的具體性與形象性,幫助學(xué)生理解掌握抽象的學(xué)習(xí)內(nèi)容。

參 考 文 獻(xiàn)

[1]李瑞,陳新,袁曉斌.移動學(xué)習(xí)資源建設(shè)策略探討[J].現(xiàn)代教育科學(xué),2007,(6).

[2]方晶,陳章其.移動學(xué)習(xí)資源的開發(fā)初探[J].現(xiàn)代教育技術(shù),2007,17(7).

[3]唐江煒.基于知識點的課件制作平臺的設(shè)計與實現(xiàn)[D].蘇州:蘇州大學(xué)碩士學(xué)位論文,2008

第9篇:數(shù)據(jù)挖掘技術(shù)研究范文

[關(guān)鍵詞] 數(shù)據(jù)流 數(shù)據(jù)流挖掘 模型 算法

近年來,隨著計算機(jī)技術(shù)和通信網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,由于眾多應(yīng)用領(lǐng)域的需求,數(shù)據(jù)流處理問題,特別是基于數(shù)據(jù)流的挖掘問題已受到越來越多的研究人員關(guān)注。

一、數(shù)據(jù)流以及數(shù)據(jù)流挖掘

1.數(shù)據(jù)流。數(shù)據(jù)流由一系列按序到達(dá)的數(shù)據(jù)組成,也可看作是信息傳輸過程中經(jīng)編碼處理的數(shù)字信號串。若令t表示任一時間戳,at表示在t時刻到達(dá)的數(shù)據(jù)元素,則數(shù)據(jù)流可以表示為無限集合{…,at-1,,at,at+1,…}。

2.數(shù)據(jù)流挖掘。數(shù)據(jù)流挖掘就是在數(shù)據(jù)流上發(fā)現(xiàn)提取隱含在其中的。人們事先不知道的,但又潛在有用的信息和知識的過程。流數(shù)據(jù)挖掘方面的研究主要包括多數(shù)據(jù)流挖掘和單數(shù)據(jù)流挖掘,挖掘多條數(shù)據(jù)流的主要目的是分析多條并行到達(dá)的數(shù)據(jù)流之間的關(guān)聯(lián),對單數(shù)據(jù)流的挖掘則涵蓋了分類、頻繁模式挖掘、聚類等多項傳統(tǒng)數(shù)據(jù)挖掘中的主要任務(wù),挖掘變化的數(shù)據(jù)流是一項特殊的任務(wù),目前主要是以單數(shù)據(jù)流為對象進(jìn)行研究的。

二、數(shù)據(jù)流挖掘的模型

按算法處理數(shù)據(jù)流時所選取的時序范圍,數(shù)據(jù)流模型可分為以下幾類。

1.快照模型:處理數(shù)據(jù)的范圍限制在兩個預(yù)定義的時間戳之間。

2.界標(biāo)模型:處理數(shù)據(jù)的范圍從某一個已知的初始時間點到當(dāng)前時間點為止。

3.滑動窗口模型:處理數(shù)據(jù)的范圍由某個固定大小的滑動窗口確定,此滑動窗口的終點永遠(yuǎn)為當(dāng)前時刻,其中,滑動窗口的大小可以由一個時間區(qū)間定義,也可以由窗口所包含的數(shù)據(jù)項數(shù)目定義。

典型的數(shù)據(jù)流挖掘模型如圖所示。

三、數(shù)據(jù)流挖掘算法

目前數(shù)據(jù)流挖掘方面的研究成果主要集中在數(shù)據(jù)流的聚類、分類和頻繁模式挖掘方面。

1.數(shù)據(jù)流分類算法。數(shù)據(jù)流分類就是提出一個分類模型(或函數(shù)),并通過單遍掃描數(shù)據(jù)流,持續(xù)地利用分類模型將數(shù)據(jù)對象(數(shù)據(jù)流的數(shù)據(jù)點或元組等)映射到某一個給定的類別中。P.Domingos 和 G..Hulten他們提出了一種Hoeffding決策樹分類算法VFDT(Very Fast Decision Tree),使用恒定的內(nèi)存大小和時間處理每個樣本,有效地解決了時間、內(nèi)存和樣本對數(shù)據(jù)挖掘,特別是高速數(shù)據(jù)流上的數(shù)據(jù)挖掘的限制。VFDT使用信息熵選擇屬性,通過建立Hoeffding樹來進(jìn)行決策支持,并使用 Hoeffding 約束來保證高精度地處理高速數(shù)據(jù)流。

由于VFDT算法假設(shè)數(shù)據(jù)是從靜態(tài)分布中隨機(jī)獲取的,所以不能反映數(shù)據(jù)隨時間變化的趨勢。因此,P.Domingos和G..Hulten引入了滑動窗口技術(shù),對VFDT算法進(jìn)行改進(jìn),提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的優(yōu)點外,增加了對數(shù)據(jù)產(chǎn)生過程中變化趨勢的檢測和響應(yīng),使得算法更好地適應(yīng)對高速時變流數(shù)據(jù)的分類。

2.數(shù)據(jù)流聚類算法。流數(shù)據(jù)本身所具有的特征使得傳統(tǒng)的聚類算法不可能直接應(yīng)用于(甚至不能應(yīng)用于)流數(shù)據(jù)聚類, 數(shù)據(jù)流聚類算法就是通過單遍掃描數(shù)據(jù)流,持續(xù)地將數(shù)據(jù)流數(shù)據(jù)對象(數(shù)據(jù)點、元組等)分組成多個類或簇,在同一個簇中的數(shù)據(jù)對象之間具有較高的相似度,而不同簇間的數(shù)據(jù)對象的相似度很小。近年來,學(xué)者們提出的應(yīng)用于大規(guī)模數(shù)據(jù)集的一趟聚類算法,如Squeezer算法和BIRCH算法,也可以應(yīng)用于某些數(shù)據(jù)流問題,也有學(xué)者提出了針對流數(shù)據(jù)的聚類算法,典型的有STREAM算法和CluStream算法。

3.數(shù)據(jù)流頻繁模式挖掘算法。數(shù)據(jù)流頻繁模式挖掘就是單遍掃描數(shù)據(jù)流,來連續(xù)地發(fā)現(xiàn)其中的頻繁項集。頻繁項集是滿足最小支持度的項集(Itemset)。對于數(shù)據(jù)流上的頻繁項集挖掘的研究方法大多數(shù)都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用傾斜時間窗口技術(shù)來維護(hù)頻繁模式以解決時間敏感問題,研究了在數(shù)據(jù)流中構(gòu)造、維護(hù)和更新 FP-stream 結(jié)構(gòu)的有效算法,提出了計算和維護(hù)所有頻率模式并動態(tài)更新它們。建立一個框架來挖掘帶近似支持度的時間敏感模式,為每個模式在多時間粒度上增量維護(hù)一個傾斜時間窗口,在這種框架下可以構(gòu)建和回答感興趣的查詢。

四、結(jié)語

由于數(shù)據(jù)流具有獨特的性質(zhì),對其進(jìn)行挖掘是一個挑戰(zhàn)性的問題,當(dāng)前的有關(guān)算法的研究有很多是在傳統(tǒng)的增量式挖掘技術(shù)基礎(chǔ)之上發(fā)展而來的,探索數(shù)據(jù)流挖掘技術(shù)與傳統(tǒng)的靜態(tài)數(shù)據(jù)挖掘技術(shù)之間的本質(zhì)區(qū)別,提出更有效、新穎、快速挖掘算法是當(dāng)前研究面臨的重要問題。

參考文獻(xiàn):

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 錢衛(wèi)寧 周傲英:流數(shù)據(jù)分析與管理綜述.軟件學(xué)報,2004,15(8):1172~1181