公務(wù)員期刊網(wǎng) 論文中心 正文

主數(shù)據(jù)驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘探析

前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了主數(shù)據(jù)驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘探析范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。

主數(shù)據(jù)驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘探析

摘要:多源數(shù)據(jù)挖掘過(guò)程中,由于缺少參數(shù)分析,導(dǎo)致數(shù)據(jù)挖掘不完整且精準(zhǔn)度較低,為了解決這類(lèi)問(wèn)題,提出主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法。分析主數(shù)據(jù)管理驅(qū)動(dòng)挖掘原理,通過(guò)適配器驅(qū)動(dòng)模塊傳遞數(shù)據(jù),借助接口器支配與處理數(shù)據(jù)。使用克里格數(shù)據(jù)挖掘算法調(diào)整參數(shù)并處理“臟數(shù)據(jù)”后,設(shè)計(jì)數(shù)據(jù)挖掘流程。實(shí)驗(yàn)結(jié)果顯示,主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法挖掘數(shù)量與實(shí)際值相差最小為40個(gè),數(shù)據(jù)挖掘完整度較高。在檢測(cè)數(shù)據(jù)為8000個(gè)時(shí),挖掘精準(zhǔn)度達(dá)到95%,能夠?yàn)槎嘣磾?shù)據(jù)歸一化提供技術(shù)支持。

關(guān)鍵詞:主數(shù)據(jù)管理驅(qū)動(dòng);多源數(shù)據(jù);數(shù)字化挖掘方法;歸一化技術(shù)

信息技術(shù)革命以來(lái),數(shù)據(jù)迎來(lái)了爆炸式的增長(zhǎng),企業(yè)檔案屬于企業(yè)生產(chǎn)經(jīng)營(yíng)管理活動(dòng)中的符號(hào),如何順應(yīng)時(shí)代潮流,更好地挖掘企業(yè)檔案數(shù)據(jù),對(duì)企業(yè)檔案工作人員來(lái)說(shuō)是一個(gè)重要挑戰(zhàn)[1]。更好地挖掘企業(yè)檔案數(shù)據(jù),實(shí)現(xiàn)資源共享與流通,為企業(yè)未來(lái)制定多源信息資源規(guī)劃提供必要的理論支撐。如今,企業(yè)數(shù)據(jù)等多源數(shù)據(jù)的數(shù)字化挖掘逐漸受到重視,其已經(jīng)為許多領(lǐng)域的科學(xué)生產(chǎn)、管理、經(jīng)營(yíng)和決策給出了依據(jù)和幫助[2]。利用統(tǒng)計(jì)方法挖掘出有用的統(tǒng)計(jì)規(guī)律等信息和知識(shí),即統(tǒng)計(jì)方法挖掘知識(shí)。挖掘網(wǎng)絡(luò)訪問(wèn)量的計(jì)算知識(shí)統(tǒng)計(jì)方法在網(wǎng)絡(luò)訪問(wèn)中的應(yīng)用性很強(qiáng),魯棒性卻很低,容易出現(xiàn)挖掘數(shù)據(jù)遺漏、不全面、準(zhǔn)確率低等問(wèn)題,在此基礎(chǔ)上,提出了主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法,通過(guò)在傳統(tǒng)數(shù)據(jù)數(shù)字化挖掘的基礎(chǔ)上,結(jié)合主數(shù)據(jù)管理驅(qū)動(dòng),使得多源數(shù)據(jù)信息獲取、儲(chǔ)存、分配等過(guò)程的準(zhǔn)確率以及運(yùn)行效率都得到顯著提高,具有很大的研究?jī)r(jià)值與實(shí)際應(yīng)用意義。

1主數(shù)據(jù)管理驅(qū)動(dòng)挖掘原理

利用主數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)了多源數(shù)據(jù)的建模,并通過(guò)服務(wù)的方式向外部提供數(shù)據(jù)。作為該驅(qū)動(dòng)的核心,具有實(shí)現(xiàn)異構(gòu)數(shù)據(jù)轉(zhuǎn)換、業(yè)務(wù)編排、業(yè)務(wù)路由、安全控制、業(yè)務(wù)監(jiān)控等功能[3-5]。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)中的多源數(shù)據(jù)受驅(qū)動(dòng)方向雙向同步,而基于主數(shù)據(jù)驅(qū)動(dòng)管理的業(yè)務(wù)系統(tǒng)通過(guò)ESB使用或發(fā)布服務(wù),由此適應(yīng)不同協(xié)議、標(biāo)準(zhǔn)化和成品使用。主數(shù)據(jù)管理驅(qū)動(dòng)結(jié)構(gòu)如圖1所示。主數(shù)據(jù)驅(qū)動(dòng)服務(wù)接口允許采用SOAP協(xié)議制,以此完成數(shù)據(jù)信息傳遞與分批處理。主數(shù)據(jù)管理驅(qū)動(dòng)中樞基于業(yè)務(wù)流程管理平臺(tái),可實(shí)現(xiàn)對(duì)主數(shù)據(jù)操作、治理、可視化展示[6-7]。

1.1基于適配器驅(qū)動(dòng)數(shù)據(jù)傳遞

主數(shù)據(jù)管理驅(qū)動(dòng)中的適配器,能夠改善現(xiàn)有數(shù)據(jù)的保存與管理問(wèn)題,使數(shù)據(jù)分配處理,達(dá)到所有資源能夠全部被使用的目的[8-10]。主數(shù)據(jù)驅(qū)動(dòng)中主單片機(jī)是整個(gè)適配器的核心,在主單片機(jī)上主要使用嵌入式操作系統(tǒng)的軟件業(yè)務(wù)程序,處理總線上下行數(shù)據(jù)挖掘。適配器驅(qū)動(dòng)模塊結(jié)構(gòu)如圖2所示。信息處理平臺(tái)通過(guò)對(duì)收集到的原始信息進(jìn)行組織加工、分類(lèi)整理,然后將原始信息劃分為相應(yīng)多源系統(tǒng)的各種資源列表,然后分別分配給多源數(shù)據(jù)驅(qū)動(dòng)相應(yīng)數(shù)據(jù)庫(kù)[11-13]。信息發(fā)布模塊的任務(wù)主要是發(fā)布和查詢(xún)各種信息,在信息發(fā)布過(guò)程中,信息傳遞能力主要表現(xiàn)為服務(wù)方式的多樣化、服務(wù)功能的完備性、服務(wù)平臺(tái)的易用性和技術(shù)的維護(hù)能力[14]。這是適配器驅(qū)動(dòng)模塊運(yùn)行的關(guān)鍵環(huán)節(jié),由此為多源數(shù)據(jù)提供數(shù)字化挖掘技術(shù)。

1.2基于接口器支配與處理數(shù)據(jù)

接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎(chǔ)。其能夠保證在多源數(shù)據(jù)數(shù)字化挖掘過(guò)程中,主數(shù)據(jù)的管理驅(qū)動(dòng)對(duì)于多源數(shù)據(jù)的支配與處理的有效性,即保證了數(shù)據(jù)數(shù)字化挖掘的來(lái)源合理性。其工作原理是終止UN1,支撐A/D轉(zhuǎn)換和信號(hào)轉(zhuǎn)換,處理UN1承載路徑,完成UNI的測(cè)試和用戶(hù)界面的維護(hù)、管理和控制。接口器連接硬件介于使用者和硬件之間,設(shè)計(jì)彼此交互溝通的相關(guān)構(gòu)件,目的是使用戶(hù)能方便、高效地進(jìn)行硬件操作以達(dá)到雙向交互,完成相關(guān)工作任務(wù)。

2多源數(shù)據(jù)數(shù)字化挖掘

2.1基于克里格數(shù)據(jù)挖掘參數(shù)優(yōu)化

克里格方法是一種基于變異函數(shù)理論和結(jié)構(gòu)分析的空間局部估計(jì)方法[15-16],是一種在有限區(qū)域內(nèi)對(duì)區(qū)域化變量的聚類(lèi),對(duì)集合無(wú)偏最優(yōu)估計(jì)。此方法首先定義線性估計(jì)量:式(1)中,Z(xi)代表樣本數(shù)據(jù);Z#0(x)代表待估計(jì)值;λi代表各個(gè)樣點(diǎn)的權(quán)重,也叫做克里格系數(shù);∑i=1n+1λi=1;針對(duì)任意一個(gè)估計(jì)值,實(shí)際值與估計(jì)值之間均存在一定的誤差,Z#0(x)本質(zhì)上是Z0(x)的一種線性無(wú)偏最優(yōu)估計(jì);借助克里格算法進(jìn)行數(shù)據(jù)挖掘時(shí),關(guān)鍵是克里格系數(shù)的確定,具體表示形式如下:式(2)矩陣K中,cij代表原尺度s中樣本i與樣本j間的協(xié)方差。通過(guò)克里格數(shù)據(jù)挖掘算法能夠得到數(shù)據(jù)挖掘的基本參數(shù)最優(yōu)化估計(jì)值,使得數(shù)據(jù)挖掘的信息準(zhǔn)確性得到保證,將數(shù)據(jù)最優(yōu)化后,選取、分析數(shù)據(jù)的繁瑣性降低,是多源數(shù)據(jù)數(shù)字化挖掘的基礎(chǔ)。

2.2數(shù)據(jù)挖掘流程設(shè)計(jì)

在保證挖掘參數(shù)優(yōu)化條件下,結(jié)合挖掘?qū)ο髥?wèn)題空間和數(shù)據(jù)的獨(dú)立性,通過(guò)數(shù)據(jù)預(yù)處理、數(shù)據(jù)選擇、數(shù)據(jù)分析,判斷數(shù)據(jù)挖掘任務(wù),確定相關(guān)大數(shù)據(jù)估計(jì)研究方向。利用數(shù)據(jù)挖掘技術(shù),可以從大型數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中的相關(guān)數(shù)據(jù)集中提取知識(shí)信息,從而使大型數(shù)據(jù)庫(kù)具有豐富、可靠的知識(shí)歸納功能。數(shù)據(jù)挖掘流程如圖3所示。由圖3可知,先要有一個(gè)選擇過(guò)程,然后從這個(gè)挖掘任務(wù)需要挖掘的源數(shù)據(jù)庫(kù)中,根據(jù)服務(wù)用戶(hù)的需要和要求,提取出一組數(shù)據(jù)來(lái)進(jìn)行挖掘操作,這組數(shù)據(jù)是該挖掘任務(wù)中需要進(jìn)行的一系列挖掘操作的對(duì)象,如圖表中顯示的目標(biāo)數(shù)據(jù);但在第一個(gè)步驟中,選擇出的目標(biāo)數(shù)據(jù)并不一定就非常適合進(jìn)行挖掘操作,可能其中包含了一些噪聲,數(shù)據(jù)應(yīng)用的值有缺失或某些記錄有重復(fù)出現(xiàn)等,這時(shí)就需要對(duì)這些“臟數(shù)據(jù)”進(jìn)行一系列的預(yù)處理,如圖4所示。由圖4可知,處理“臟數(shù)據(jù)”后,將這些數(shù)據(jù)作為安全數(shù)據(jù)進(jìn)行挖掘操作,最后對(duì)前一個(gè)步驟中得到的安全數(shù)據(jù)按照挖掘任務(wù)所需格式轉(zhuǎn)換,將數(shù)據(jù)原類(lèi)型轉(zhuǎn)換為方便操作處理的所需類(lèi)型,由此完成多源數(shù)據(jù)數(shù)字化挖掘。

3實(shí)驗(yàn)

為每一個(gè)測(cè)試用戶(hù)配置客戶(hù)端PC,安裝測(cè)試瀏覽器軟件,采用IE內(nèi)核瀏覽器進(jìn)行系統(tǒng)訪問(wèn)。在測(cè)試過(guò)程中,兼容性采用其他相關(guān)瀏覽器軟件進(jìn)行測(cè)試。將統(tǒng)計(jì)多源數(shù)據(jù)挖掘方法與主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法的挖掘精準(zhǔn)度對(duì)比分析。在測(cè)試數(shù)據(jù)選擇方面,同時(shí)采用真實(shí)業(yè)務(wù)數(shù)據(jù)和模擬數(shù)據(jù)的方式進(jìn)行測(cè)試,保證所測(cè)試的數(shù)據(jù)能夠滿(mǎn)足各種情況下的業(yè)務(wù)處理要求,從而保證數(shù)據(jù)管理工作的相關(guān)功能能夠適應(yīng)各種業(yè)務(wù)處理。

3.1實(shí)驗(yàn)參數(shù)

利用開(kāi)放源代碼的性能測(cè)試平臺(tái)soapUI進(jìn)行測(cè)試分析,設(shè)置相關(guān)運(yùn)行參數(shù),通過(guò)soapUI對(duì)系統(tǒng)HTTP訪問(wèn)成功率、響應(yīng)時(shí)間進(jìn)行分析,并對(duì)測(cè)試參數(shù)進(jìn)行如下配置:1)設(shè)置200個(gè)并發(fā)數(shù);2)測(cè)試時(shí)間設(shè)為8小時(shí)。安裝soapUITools,在服務(wù)器端設(shè)備上運(yùn)行并執(zhí)行測(cè)試。

3.2實(shí)驗(yàn)結(jié)果

在測(cè)試數(shù)據(jù)選擇方面,同時(shí)采用真實(shí)業(yè)務(wù)數(shù)據(jù)和模擬數(shù)據(jù)的方式進(jìn)行測(cè)試,保證所測(cè)試的數(shù)據(jù)能夠滿(mǎn)足各種情況下業(yè)務(wù)處理的要求。選擇8000個(gè)實(shí)際多源數(shù)據(jù),分別用統(tǒng)計(jì)挖掘方法與文中挖掘方法進(jìn)行實(shí)驗(yàn)分析。1)挖掘完整度將文獻(xiàn)[5]方法、文獻(xiàn)[6]方法與文中挖掘方法的數(shù)據(jù)挖掘完整度進(jìn)行對(duì)比分析,結(jié)果如表1所示。由表1可知,使用文中方法在檢測(cè)數(shù)據(jù)為4000個(gè)時(shí),與實(shí)際值相差最大為326個(gè)。在檢測(cè)數(shù)據(jù)為2000個(gè)時(shí),與實(shí)際值相差最小為40個(gè),而其他方法與實(shí)際值差距較大,由此可知,主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法數(shù)據(jù)挖掘完整度較高。2)挖掘精準(zhǔn)度將文獻(xiàn)[5]方法、文獻(xiàn)[6]方法與文中挖掘方法的數(shù)據(jù)挖掘精準(zhǔn)度進(jìn)行對(duì)比分析,結(jié)果如圖5所示。由圖5可知,在檢測(cè)數(shù)據(jù)為8000個(gè)時(shí),使用主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法達(dá)到最高挖掘精準(zhǔn)度95%,而其他方法的挖掘精度一直低于文中方法,由此可知,主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法數(shù)據(jù)挖掘精準(zhǔn)度較高。

4結(jié)束語(yǔ)

針對(duì)挖掘全面性不強(qiáng)、數(shù)據(jù)挖掘精準(zhǔn)度低的問(wèn)題,提出了主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法,利用主數(shù)據(jù)管理驅(qū)動(dòng)、克里格數(shù)據(jù)挖掘算法實(shí)現(xiàn)多源數(shù)據(jù)數(shù)字化挖掘。利用主數(shù)據(jù)驅(qū)動(dòng)管理,使企業(yè)檔案信息的獲取、存儲(chǔ)、分配等過(guò)程中的連接程度、準(zhǔn)確性和操作效率顯著提高,具有很大的研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值。資源信息化建設(shè)一直是科學(xué)研究發(fā)展關(guān)注的重點(diǎn),但單獨(dú)針對(duì)多源數(shù)據(jù)數(shù)字化挖掘問(wèn)題的研究卻是在當(dāng)今大數(shù)據(jù)背景下一次全新的挑戰(zhàn)。在資源獲取、信息集成整合以及數(shù)據(jù)應(yīng)用創(chuàng)新方面制定的可行性措施也并不一定適用于所有的數(shù)據(jù)處理模式,因此,在今后研究進(jìn)程中,多源數(shù)據(jù)的數(shù)字化挖掘研究過(guò)程需更加注重實(shí)用性、通用性的研究發(fā)展,以便適應(yīng)當(dāng)今社會(huì)的需求與發(fā)展。

作者:廖嘉煒 嚴(yán)俊斌 宋強(qiáng) 趙小凡 徐炫東 單位:廣東電網(wǎng)有限責(zé)任公司廣州供電局

精選范文推薦