前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應(yīng)用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中歸納、總結(jié)、分析數(shù)據(jù)的內(nèi)在規(guī)律,概率論與數(shù)理統(tǒng)計在數(shù)據(jù)挖掘中的應(yīng)用,提高了數(shù)據(jù)挖掘的精度與效率,通過對概率論、數(shù)理統(tǒng)計與數(shù)據(jù)挖掘的關(guān)系,分析了統(tǒng)計學(xué)在數(shù)據(jù)挖掘中的具體應(yīng)用,并結(jié)合具體的算法探究了統(tǒng)計學(xué)在數(shù)據(jù)挖掘中的具體運用。
關(guān)鍵詞:數(shù)據(jù)挖掘;概率論;數(shù)理統(tǒng)計;統(tǒng)計學(xué)
0引言
概率論與數(shù)理統(tǒng)計是數(shù)據(jù)統(tǒng)計中采用的技術(shù),但其在數(shù)據(jù)挖掘中也具有十分重要的作用。數(shù)據(jù)挖掘作為一門新興科學(xué),它是從大量、不完全、離散等特征的數(shù)據(jù)中,對其進(jìn)行整理,提取隱含在這些數(shù)據(jù)中有意義、新穎、具有統(tǒng)一特征、有用的數(shù)據(jù),為人們的決策提供數(shù)據(jù)支持服務(wù),是分析解決各類實際問題的可靠手段。數(shù)據(jù)挖掘主要是采用計算機(jī)技術(shù)、高級算法來實現(xiàn)對復(fù)雜數(shù)據(jù)、非線性結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理,來探究數(shù)據(jù)之間的內(nèi)在聯(lián)系,進(jìn)而發(fā)現(xiàn)數(shù)據(jù)內(nèi)部存在的規(guī)律,為用戶提供信息決策服務(wù)。
1統(tǒng)計學(xué)與數(shù)據(jù)挖掘的關(guān)系
統(tǒng)計學(xué)主要是研究數(shù)據(jù)統(tǒng)計原理與方法的科學(xué),包括數(shù)理統(tǒng)計與概率論等主要內(nèi)容,主要是研究數(shù)據(jù)的搜集、整理與分析,并結(jié)合數(shù)據(jù)整理的資源,對事物進(jìn)行整體的推斷,主要利用數(shù)據(jù)統(tǒng)計與概率論的原理對數(shù)據(jù)中的各個屬性進(jìn)行統(tǒng)計與分析,進(jìn)而找出數(shù)據(jù)自己的規(guī)律,在統(tǒng)計學(xué)的分析方法中主要有方差分析、相關(guān)分析、主成分分析與回歸分析等方法。數(shù)據(jù)挖掘主要是對大量的數(shù)據(jù)進(jìn)行分析、總結(jié)、深度挖掘,進(jìn)而找出數(shù)據(jù)之間的規(guī)律,并將這些新規(guī)律運用到現(xiàn)實中,例如對學(xué)生的學(xué)習(xí)成績進(jìn)行挖掘分析,進(jìn)而找出學(xué)生在學(xué)習(xí)過程中存在的問題,進(jìn)而能夠形成學(xué)生的學(xué)習(xí)軌跡。1)統(tǒng)計學(xué)與數(shù)據(jù)挖掘的手段與目標(biāo)相同,都是在龐雜的數(shù)據(jù)中提取數(shù)據(jù)的結(jié)構(gòu)特征,分析數(shù)據(jù)之間存在的內(nèi)在聯(lián)系與特征。2)數(shù)據(jù)挖掘是統(tǒng)計學(xué)發(fā)展的一個重要方向,它也為統(tǒng)計學(xué)的發(fā)展提供了一個全新的研究方法與數(shù)據(jù)處理的方法,而且數(shù)據(jù)挖掘比統(tǒng)計學(xué)傳統(tǒng)的數(shù)據(jù)分析方法更具有代表性。3)數(shù)據(jù)挖掘并不僅是統(tǒng)計學(xué)分析的重要內(nèi)容,而在統(tǒng)計學(xué)的思想與數(shù)據(jù)處理的方法中也得到了廣泛的應(yīng)用,例如運用到數(shù)據(jù)庫技術(shù)、智能處理技術(shù)、機(jī)器學(xué)習(xí)等技術(shù)。4)統(tǒng)計學(xué)與概率論作為數(shù)據(jù)挖掘的一種成熟的、應(yīng)用廣泛的技術(shù),將會促進(jìn)數(shù)據(jù)挖掘向更深層次的范圍發(fā)展,提高數(shù)據(jù)挖掘的效率。
2統(tǒng)計學(xué)在數(shù)據(jù)挖掘中的應(yīng)用
2.1概率分析網(wǎng)(PLN)
人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)是數(shù)據(jù)挖掘算法中常用的方法之一,它是由一系列稱為數(shù)據(jù)節(jié)點組成的網(wǎng)狀結(jié)構(gòu),形成一個復(fù)雜的數(shù)據(jù)組成形式,通過調(diào)整各個網(wǎng)絡(luò)節(jié)點,采用輸入、輸出的權(quán)-值的非線性數(shù)據(jù)處理方式,達(dá)到對數(shù)據(jù)進(jìn)行分析的目的。在數(shù)據(jù)挖掘時,往往會出現(xiàn)一些定量數(shù)據(jù)與定性數(shù)據(jù)、質(zhì)的數(shù)據(jù)與量的數(shù)據(jù)等混合在一起,以及一些數(shù)據(jù)缺失的情況,這就需要采用統(tǒng)計學(xué)中的相關(guān)數(shù)據(jù)處理技術(shù)與數(shù)據(jù)挖掘技術(shù)結(jié)合在一起,共同探究大量數(shù)據(jù)中存在的規(guī)律。概率分析網(wǎng)(PLN)在數(shù)據(jù)挖掘中的應(yīng)用,主要體現(xiàn)在解決數(shù)據(jù)的模式識別、非線性回歸的數(shù)據(jù)優(yōu)化處理等數(shù)據(jù)運用與處理等方面,可以對一些復(fù)雜的數(shù)據(jù)進(jìn)行處理,對分析定性數(shù)據(jù)與定量數(shù)據(jù)具有十分重要的作用。PLN網(wǎng)絡(luò)主要基于概率邏輯的神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上,并采用復(fù)雜數(shù)據(jù)計算的方式,同時它也是在傳統(tǒng)權(quán)-閾值神經(jīng)網(wǎng)絡(luò)(BP學(xué)習(xí)算法)的基礎(chǔ)上而提出的算法,在數(shù)據(jù)處理的過程中,它的學(xué)習(xí)速度比相同問題的BP算法的學(xué)習(xí)速度快百倍,而且準(zhǔn)確率也比較高,充分說明概率分析網(wǎng)絡(luò)(PLN)在一些性能上總是比權(quán)-閾值網(wǎng)絡(luò)的計算性能要快。在具體應(yīng)用中,由于神經(jīng)網(wǎng)絡(luò)節(jié)點構(gòu)造的特殊性,也具有很強(qiáng)的隨機(jī)性,在具體的運用中具有多種可變性,需要采用多種數(shù)據(jù)分析工具進(jìn)行處理,例如馬爾科夫鏈(Markov)等工具對PLN網(wǎng)絡(luò)中的數(shù)據(jù)進(jìn)行定量分析,對大量的非線性數(shù)據(jù)進(jìn)行統(tǒng)一分析與綜合,然后通過研究神經(jīng)網(wǎng)絡(luò)各個狀態(tài)之間的數(shù)據(jù)轉(zhuǎn)移概率與數(shù)據(jù)收斂的情況來分析數(shù)據(jù)之間的內(nèi)在聯(lián)系,進(jìn)而確定數(shù)據(jù)變化的規(guī)律,還可以在不確定數(shù)據(jù)網(wǎng)絡(luò)轉(zhuǎn)移矩陣變化的狀態(tài)下,采用統(tǒng)計模擬工具對數(shù)據(jù)進(jìn)行分析,求出數(shù)據(jù)的平均收斂補(bǔ)長的變異結(jié)果,進(jìn)而分析出數(shù)據(jù)的變化規(guī)律。
2.2貝葉斯網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的運用
一個完整的數(shù)據(jù)挖掘過程,需要對數(shù)據(jù)進(jìn)行清理、轉(zhuǎn)換、可視化處理等一系列的過程,然后通過檢驗分析數(shù)據(jù)挖掘的結(jié)果是否正確,在這個過程中,就需要用到?jīng)Q策樹、人工神經(jīng)網(wǎng)絡(luò)、貝葉斯算法等算法,來分析這些數(shù)據(jù)之間存在的內(nèi)在聯(lián)系與邏輯關(guān)系,然后通過數(shù)據(jù)挖掘技術(shù),將其結(jié)果可視化的展示出來。在早期,貝葉斯網(wǎng)絡(luò)就成功地應(yīng)用于專家系統(tǒng)與機(jī)器學(xué)習(xí)中,解決不同結(jié)構(gòu)中數(shù)據(jù)之間的連接問題,成為表示不確定性專家知識與數(shù)據(jù)推理的一種數(shù)據(jù)變化方法,特別是隨著貝葉斯網(wǎng)絡(luò)在機(jī)器學(xué)習(xí)中的運用與研究,而概率論、數(shù)理統(tǒng)計與數(shù)據(jù)挖掘之間緊密的聯(lián)系,是貝葉斯網(wǎng)絡(luò)成為人們研究機(jī)器學(xué)習(xí)的重要數(shù)據(jù)處理方法,而且貝葉斯網(wǎng)絡(luò)是一個帶有概率注釋的有向無環(huán)圖,能夠快速地對大數(shù)據(jù)進(jìn)行分析,總結(jié)出大量數(shù)據(jù)之間的邏輯關(guān)系,采用貝葉斯網(wǎng)絡(luò)的數(shù)據(jù)無序圖,可以將數(shù)據(jù)的概率圖模型與變量之間的關(guān)系結(jié)合在一起,便于運用聯(lián)合概率分布(物理的或貝葉斯的)的方式處理這些復(fù)雜數(shù)據(jù)之間的邏輯關(guān)系,并采用多種邏輯算法,進(jìn)而能夠應(yīng)用貝葉斯定理的學(xué)習(xí)與統(tǒng)計判斷功能,達(dá)到對無序數(shù)據(jù)的預(yù)測、分析與聚類處理等數(shù)據(jù)挖掘任務(wù)。當(dāng)樣本數(shù)據(jù)不安全或者不確定時,或者數(shù)據(jù)中存在著質(zhì)的數(shù)據(jù)與量的數(shù)據(jù)等不確定性數(shù)據(jù),除了少數(shù)特例外,在采用貝葉斯法處理數(shù)據(jù)時,一般要借助于近似方法,探究不同數(shù)據(jù)內(nèi)在的聯(lián)系,來完成數(shù)據(jù)處理的過程。
2.3概率進(jìn)化算法(PMEA)在數(shù)據(jù)挖掘中的應(yīng)用
遺傳算法(GeneticAnalysis,GA)是數(shù)據(jù)挖掘算法中常用的一種方法,也是在一些數(shù)據(jù)處理中經(jīng)常用到的一種算法,它對數(shù)據(jù)的處理主要是基于人工選擇和交叉、變異、重組等數(shù)據(jù)處理優(yōu)化的方法,來完成數(shù)據(jù)挖掘的過程,GA通過對大量的非線性的數(shù)據(jù)構(gòu)造塊中的數(shù)據(jù)進(jìn)行清洗、處理,然后進(jìn)行選擇和重組操作,形成新的數(shù)據(jù)塊結(jié)構(gòu),然后通過遺傳、再生和混合來形成更好的數(shù)據(jù)塊,直到完成數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,進(jìn)而得出數(shù)據(jù)的最優(yōu)解,但是在實際操作的過程中,由于數(shù)據(jù)的重組常常導(dǎo)致數(shù)據(jù)塊被破壞,采用傳統(tǒng)的算法就不能有效地對數(shù)據(jù)進(jìn)行處理,導(dǎo)致遺傳算法達(dá)到了局部優(yōu)化或者早熟,不能有效地完成數(shù)據(jù)處理,這種數(shù)據(jù)塊的破壞稱為連鎖(Linkage)問題。為了解決這個問題,就需要從優(yōu)選的數(shù)據(jù)集合中提取有效的信息來代替數(shù)據(jù)重組,并提出數(shù)據(jù)的概率分布來確定新的解法,進(jìn)而實現(xiàn)了算法的連鎖學(xué)習(xí),如果將這種解決方法運用到數(shù)據(jù)挖掘中,就能夠解決一系列復(fù)雜的問題,這就是概率進(jìn)化算法(PMEA)的形成思想與理論依據(jù),還可以采用壓縮遺傳算法運用到概率進(jìn)化算法中,擴(kuò)展數(shù)據(jù)的解析模型,以降低算法的復(fù)雜性,提高數(shù)據(jù)處理的效率。但是,如何有效地將數(shù)據(jù)處理中存在問題的預(yù)先知識引入到PMEA算法中,解決數(shù)據(jù)連鎖學(xué)習(xí)過程中存在的問題,使得數(shù)據(jù)挖掘的結(jié)果更加快速與精確,是概率進(jìn)化算法的關(guān)鍵問題。同時,在概率進(jìn)化算法中如何有效地選擇數(shù)據(jù)群體的參數(shù),如群體的規(guī)模、數(shù)據(jù)的選擇機(jī)制與比例等,都是概率進(jìn)化算法需要處理的熱點問題之一。
3數(shù)據(jù)挖掘為數(shù)理統(tǒng)計與概率論提供了新的研究方向
數(shù)理統(tǒng)計與概率論的發(fā)展往往都是來自于實際數(shù)據(jù)處理的需要,也是結(jié)合人們的需求,來探究大量數(shù)據(jù)之間的規(guī)律。隨著當(dāng)前社會海量數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘成為處理當(dāng)前海量數(shù)據(jù)的重要手段,也是復(fù)雜數(shù)據(jù)有效處理的方式之一,當(dāng)待處理的數(shù)據(jù)單位已經(jīng)以GB或TB為單位進(jìn)行計算時,而且數(shù)據(jù)也會變得更加復(fù)雜,如果采用現(xiàn)有的數(shù)據(jù)集統(tǒng)計分析的方法來處理數(shù)據(jù),處理的效率就會比較低下,不僅現(xiàn)有的數(shù)據(jù)統(tǒng)計方法不能滿足數(shù)據(jù)處理的要求,不能提高數(shù)據(jù)處理的效率,在統(tǒng)計理論的研究方面,也不能滿足要求。主要原因數(shù)據(jù)處理過程中的基礎(chǔ)“總體”和“樣本”的選擇在發(fā)生變化,是否能滿足數(shù)據(jù)處理的要求為前提,重要原因是在海量的數(shù)據(jù)面前很難對數(shù)據(jù)的樣本與總體進(jìn)行準(zhǔn)確的定義,而且數(shù)據(jù)的變化也是多樣性的,大樣本的數(shù)據(jù)漸近性質(zhì)是否與提前的預(yù)測相同,如果數(shù)據(jù)量選擇太大,傳統(tǒng)的統(tǒng)計方法就很難真實地反映出數(shù)據(jù)的特征,而且統(tǒng)計假設(shè)檢驗使用的小概率原理不能適合大數(shù)據(jù)樣本的應(yīng)用。由于假定的小概率事件在具體的數(shù)據(jù)測試中是夠能夠滿足要求,主要原因是處理數(shù)據(jù)的樣本較小,但是如果數(shù)據(jù)量增加到一定的范圍后,數(shù)據(jù)在處理中出現(xiàn)的多變性就比較多。因此,采用數(shù)據(jù)挖掘技術(shù)就能夠很好地解決這一問題。在統(tǒng)計學(xué)中加入數(shù)據(jù)挖掘的研究,將會有效促進(jìn)統(tǒng)計學(xué)的發(fā)展,對數(shù)據(jù)挖掘與統(tǒng)計方法的結(jié)合進(jìn)行研究,可以有效提高數(shù)據(jù)挖掘的準(zhǔn)確型,使統(tǒng)計方法適應(yīng)數(shù)據(jù)量的變化,也能夠提高數(shù)據(jù)處理的效果。
4結(jié)語
在信息化、數(shù)字化、網(wǎng)絡(luò)化、智能化高速發(fā)展的今天,傳統(tǒng)數(shù)理統(tǒng)計分析單獨應(yīng)用的范圍會變得狹窄,大數(shù)據(jù)、人工智能等技術(shù)需要的是對海量大數(shù)據(jù)的綜合處理和挖掘能力。數(shù)理統(tǒng)計與概率論在數(shù)據(jù)挖掘中的應(yīng)用,對數(shù)據(jù)挖掘的發(fā)展具有十分重要的作用,它對處理數(shù)據(jù)、分析數(shù)據(jù)的效果也十分明顯。將數(shù)據(jù)統(tǒng)計與概率論的思想融入到數(shù)據(jù)挖掘中,有利于指導(dǎo)實際數(shù)據(jù)挖掘工作,提升數(shù)據(jù)挖掘的精確度,也能夠提高數(shù)據(jù)挖掘質(zhì)量,為未來的數(shù)據(jù)挖掘提供了新的思路。
參考文獻(xiàn):
[1]林琳.淺議在數(shù)據(jù)挖掘中應(yīng)用抽樣技術(shù)[1].江蘇統(tǒng)計,2014(6).
[2]牛力.?dāng)?shù)據(jù)挖掘中的統(tǒng)計分析技術(shù)應(yīng)用研究[J].廣西師范大學(xué)學(xué)報,2015(12).
[3]何清華,肖人彬,師漢民.螞蟻算法在機(jī)構(gòu)同構(gòu)判定中的實現(xiàn)[J].模式識別與人工智能,2016(4).
[4]魏瑜,陸靜.?dāng)?shù)據(jù)挖掘與統(tǒng)計學(xué)的關(guān)系淺析[1].沿海企業(yè)與科技,2015(9).
作者:龐建平 單位:中國人民大學(xué)