网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

主數(shù)據(jù)驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘探析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了主數(shù)據(jù)驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘探析范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。

主數(shù)據(jù)驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘探析

摘要:多源數(shù)據(jù)挖掘過程中,由于缺少參數(shù)分析,導(dǎo)致數(shù)據(jù)挖掘不完整且精準(zhǔn)度較低,為了解決這類問題,提出主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法。分析主數(shù)據(jù)管理驅(qū)動(dòng)挖掘原理,通過適配器驅(qū)動(dòng)模塊傳遞數(shù)據(jù),借助接口器支配與處理數(shù)據(jù)。使用克里格數(shù)據(jù)挖掘算法調(diào)整參數(shù)并處理“臟數(shù)據(jù)”后,設(shè)計(jì)數(shù)據(jù)挖掘流程。實(shí)驗(yàn)結(jié)果顯示,主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法挖掘數(shù)量與實(shí)際值相差最小為40個(gè),數(shù)據(jù)挖掘完整度較高。在檢測(cè)數(shù)據(jù)為8000個(gè)時(shí),挖掘精準(zhǔn)度達(dá)到95%,能夠?yàn)槎嘣磾?shù)據(jù)歸一化提供技術(shù)支持。

關(guān)鍵詞:主數(shù)據(jù)管理驅(qū)動(dòng);多源數(shù)據(jù);數(shù)字化挖掘方法;歸一化技術(shù)

信息技術(shù)革命以來,數(shù)據(jù)迎來了爆炸式的增長(zhǎng),企業(yè)檔案屬于企業(yè)生產(chǎn)經(jīng)營管理活動(dòng)中的符號(hào),如何順應(yīng)時(shí)代潮流,更好地挖掘企業(yè)檔案數(shù)據(jù),對(duì)企業(yè)檔案工作人員來說是一個(gè)重要挑戰(zhàn)[1]。更好地挖掘企業(yè)檔案數(shù)據(jù),實(shí)現(xiàn)資源共享與流通,為企業(yè)未來制定多源信息資源規(guī)劃提供必要的理論支撐。如今,企業(yè)數(shù)據(jù)等多源數(shù)據(jù)的數(shù)字化挖掘逐漸受到重視,其已經(jīng)為許多領(lǐng)域的科學(xué)生產(chǎn)、管理、經(jīng)營和決策給出了依據(jù)和幫助[2]。利用統(tǒng)計(jì)方法挖掘出有用的統(tǒng)計(jì)規(guī)律等信息和知識(shí),即統(tǒng)計(jì)方法挖掘知識(shí)。挖掘網(wǎng)絡(luò)訪問量的計(jì)算知識(shí)統(tǒng)計(jì)方法在網(wǎng)絡(luò)訪問中的應(yīng)用性很強(qiáng),魯棒性卻很低,容易出現(xiàn)挖掘數(shù)據(jù)遺漏、不全面、準(zhǔn)確率低等問題,在此基礎(chǔ)上,提出了主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法,通過在傳統(tǒng)數(shù)據(jù)數(shù)字化挖掘的基礎(chǔ)上,結(jié)合主數(shù)據(jù)管理驅(qū)動(dòng),使得多源數(shù)據(jù)信息獲取、儲(chǔ)存、分配等過程的準(zhǔn)確率以及運(yùn)行效率都得到顯著提高,具有很大的研究?jī)r(jià)值與實(shí)際應(yīng)用意義。

1主數(shù)據(jù)管理驅(qū)動(dòng)挖掘原理

利用主數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)了多源數(shù)據(jù)的建模,并通過服務(wù)的方式向外部提供數(shù)據(jù)。作為該驅(qū)動(dòng)的核心,具有實(shí)現(xiàn)異構(gòu)數(shù)據(jù)轉(zhuǎn)換、業(yè)務(wù)編排、業(yè)務(wù)路由、安全控制、業(yè)務(wù)監(jiān)控等功能[3-5]。傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)中的多源數(shù)據(jù)受驅(qū)動(dòng)方向雙向同步,而基于主數(shù)據(jù)驅(qū)動(dòng)管理的業(yè)務(wù)系統(tǒng)通過ESB使用或發(fā)布服務(wù),由此適應(yīng)不同協(xié)議、標(biāo)準(zhǔn)化和成品使用。主數(shù)據(jù)管理驅(qū)動(dòng)結(jié)構(gòu)如圖1所示。主數(shù)據(jù)驅(qū)動(dòng)服務(wù)接口允許采用SOAP協(xié)議制,以此完成數(shù)據(jù)信息傳遞與分批處理。主數(shù)據(jù)管理驅(qū)動(dòng)中樞基于業(yè)務(wù)流程管理平臺(tái),可實(shí)現(xiàn)對(duì)主數(shù)據(jù)操作、治理、可視化展示[6-7]。

1.1基于適配器驅(qū)動(dòng)數(shù)據(jù)傳遞

主數(shù)據(jù)管理驅(qū)動(dòng)中的適配器,能夠改善現(xiàn)有數(shù)據(jù)的保存與管理問題,使數(shù)據(jù)分配處理,達(dá)到所有資源能夠全部被使用的目的[8-10]。主數(shù)據(jù)驅(qū)動(dòng)中主單片機(jī)是整個(gè)適配器的核心,在主單片機(jī)上主要使用嵌入式操作系統(tǒng)的軟件業(yè)務(wù)程序,處理總線上下行數(shù)據(jù)挖掘。適配器驅(qū)動(dòng)模塊結(jié)構(gòu)如圖2所示。信息處理平臺(tái)通過對(duì)收集到的原始信息進(jìn)行組織加工、分類整理,然后將原始信息劃分為相應(yīng)多源系統(tǒng)的各種資源列表,然后分別分配給多源數(shù)據(jù)驅(qū)動(dòng)相應(yīng)數(shù)據(jù)庫[11-13]。信息發(fā)布模塊的任務(wù)主要是發(fā)布和查詢各種信息,在信息發(fā)布過程中,信息傳遞能力主要表現(xiàn)為服務(wù)方式的多樣化、服務(wù)功能的完備性、服務(wù)平臺(tái)的易用性和技術(shù)的維護(hù)能力[14]。這是適配器驅(qū)動(dòng)模塊運(yùn)行的關(guān)鍵環(huán)節(jié),由此為多源數(shù)據(jù)提供數(shù)字化挖掘技術(shù)。

1.2基于接口器支配與處理數(shù)據(jù)

接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎(chǔ)。其能夠保證在多源數(shù)據(jù)數(shù)字化挖掘過程中,主數(shù)據(jù)的管理驅(qū)動(dòng)對(duì)于多源數(shù)據(jù)的支配與處理的有效性,即保證了數(shù)據(jù)數(shù)字化挖掘的來源合理性。其工作原理是終止UN1,支撐A/D轉(zhuǎn)換和信號(hào)轉(zhuǎn)換,處理UN1承載路徑,完成UNI的測(cè)試和用戶界面的維護(hù)、管理和控制。接口器連接硬件介于使用者和硬件之間,設(shè)計(jì)彼此交互溝通的相關(guān)構(gòu)件,目的是使用戶能方便、高效地進(jìn)行硬件操作以達(dá)到雙向交互,完成相關(guān)工作任務(wù)。

2多源數(shù)據(jù)數(shù)字化挖掘

2.1基于克里格數(shù)據(jù)挖掘參數(shù)優(yōu)化

克里格方法是一種基于變異函數(shù)理論和結(jié)構(gòu)分析的空間局部估計(jì)方法[15-16],是一種在有限區(qū)域內(nèi)對(duì)區(qū)域化變量的聚類,對(duì)集合無偏最優(yōu)估計(jì)。此方法首先定義線性估計(jì)量:式(1)中,Z(xi)代表樣本數(shù)據(jù);Z#0(x)代表待估計(jì)值;λi代表各個(gè)樣點(diǎn)的權(quán)重,也叫做克里格系數(shù);∑i=1n+1λi=1;針對(duì)任意一個(gè)估計(jì)值,實(shí)際值與估計(jì)值之間均存在一定的誤差,Z#0(x)本質(zhì)上是Z0(x)的一種線性無偏最優(yōu)估計(jì);借助克里格算法進(jìn)行數(shù)據(jù)挖掘時(shí),關(guān)鍵是克里格系數(shù)的確定,具體表示形式如下:式(2)矩陣K中,cij代表原尺度s中樣本i與樣本j間的協(xié)方差。通過克里格數(shù)據(jù)挖掘算法能夠得到數(shù)據(jù)挖掘的基本參數(shù)最優(yōu)化估計(jì)值,使得數(shù)據(jù)挖掘的信息準(zhǔn)確性得到保證,將數(shù)據(jù)最優(yōu)化后,選取、分析數(shù)據(jù)的繁瑣性降低,是多源數(shù)據(jù)數(shù)字化挖掘的基礎(chǔ)。

2.2數(shù)據(jù)挖掘流程設(shè)計(jì)

在保證挖掘參數(shù)優(yōu)化條件下,結(jié)合挖掘?qū)ο髥栴}空間和數(shù)據(jù)的獨(dú)立性,通過數(shù)據(jù)預(yù)處理、數(shù)據(jù)選擇、數(shù)據(jù)分析,判斷數(shù)據(jù)挖掘任務(wù),確定相關(guān)大數(shù)據(jù)估計(jì)研究方向。利用數(shù)據(jù)挖掘技術(shù),可以從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的相關(guān)數(shù)據(jù)集中提取知識(shí)信息,從而使大型數(shù)據(jù)庫具有豐富、可靠的知識(shí)歸納功能。數(shù)據(jù)挖掘流程如圖3所示。由圖3可知,先要有一個(gè)選擇過程,然后從這個(gè)挖掘任務(wù)需要挖掘的源數(shù)據(jù)庫中,根據(jù)服務(wù)用戶的需要和要求,提取出一組數(shù)據(jù)來進(jìn)行挖掘操作,這組數(shù)據(jù)是該挖掘任務(wù)中需要進(jìn)行的一系列挖掘操作的對(duì)象,如圖表中顯示的目標(biāo)數(shù)據(jù);但在第一個(gè)步驟中,選擇出的目標(biāo)數(shù)據(jù)并不一定就非常適合進(jìn)行挖掘操作,可能其中包含了一些噪聲,數(shù)據(jù)應(yīng)用的值有缺失或某些記錄有重復(fù)出現(xiàn)等,這時(shí)就需要對(duì)這些“臟數(shù)據(jù)”進(jìn)行一系列的預(yù)處理,如圖4所示。由圖4可知,處理“臟數(shù)據(jù)”后,將這些數(shù)據(jù)作為安全數(shù)據(jù)進(jìn)行挖掘操作,最后對(duì)前一個(gè)步驟中得到的安全數(shù)據(jù)按照挖掘任務(wù)所需格式轉(zhuǎn)換,將數(shù)據(jù)原類型轉(zhuǎn)換為方便操作處理的所需類型,由此完成多源數(shù)據(jù)數(shù)字化挖掘。

3實(shí)驗(yàn)

為每一個(gè)測(cè)試用戶配置客戶端PC,安裝測(cè)試瀏覽器軟件,采用IE內(nèi)核瀏覽器進(jìn)行系統(tǒng)訪問。在測(cè)試過程中,兼容性采用其他相關(guān)瀏覽器軟件進(jìn)行測(cè)試。將統(tǒng)計(jì)多源數(shù)據(jù)挖掘方法與主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法的挖掘精準(zhǔn)度對(duì)比分析。在測(cè)試數(shù)據(jù)選擇方面,同時(shí)采用真實(shí)業(yè)務(wù)數(shù)據(jù)和模擬數(shù)據(jù)的方式進(jìn)行測(cè)試,保證所測(cè)試的數(shù)據(jù)能夠滿足各種情況下的業(yè)務(wù)處理要求,從而保證數(shù)據(jù)管理工作的相關(guān)功能能夠適應(yīng)各種業(yè)務(wù)處理。

3.1實(shí)驗(yàn)參數(shù)

利用開放源代碼的性能測(cè)試平臺(tái)soapUI進(jìn)行測(cè)試分析,設(shè)置相關(guān)運(yùn)行參數(shù),通過soapUI對(duì)系統(tǒng)HTTP訪問成功率、響應(yīng)時(shí)間進(jìn)行分析,并對(duì)測(cè)試參數(shù)進(jìn)行如下配置:1)設(shè)置200個(gè)并發(fā)數(shù);2)測(cè)試時(shí)間設(shè)為8小時(shí)。安裝soapUITools,在服務(wù)器端設(shè)備上運(yùn)行并執(zhí)行測(cè)試。

3.2實(shí)驗(yàn)結(jié)果

在測(cè)試數(shù)據(jù)選擇方面,同時(shí)采用真實(shí)業(yè)務(wù)數(shù)據(jù)和模擬數(shù)據(jù)的方式進(jìn)行測(cè)試,保證所測(cè)試的數(shù)據(jù)能夠滿足各種情況下業(yè)務(wù)處理的要求。選擇8000個(gè)實(shí)際多源數(shù)據(jù),分別用統(tǒng)計(jì)挖掘方法與文中挖掘方法進(jìn)行實(shí)驗(yàn)分析。1)挖掘完整度將文獻(xiàn)[5]方法、文獻(xiàn)[6]方法與文中挖掘方法的數(shù)據(jù)挖掘完整度進(jìn)行對(duì)比分析,結(jié)果如表1所示。由表1可知,使用文中方法在檢測(cè)數(shù)據(jù)為4000個(gè)時(shí),與實(shí)際值相差最大為326個(gè)。在檢測(cè)數(shù)據(jù)為2000個(gè)時(shí),與實(shí)際值相差最小為40個(gè),而其他方法與實(shí)際值差距較大,由此可知,主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法數(shù)據(jù)挖掘完整度較高。2)挖掘精準(zhǔn)度將文獻(xiàn)[5]方法、文獻(xiàn)[6]方法與文中挖掘方法的數(shù)據(jù)挖掘精準(zhǔn)度進(jìn)行對(duì)比分析,結(jié)果如圖5所示。由圖5可知,在檢測(cè)數(shù)據(jù)為8000個(gè)時(shí),使用主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法達(dá)到最高挖掘精準(zhǔn)度95%,而其他方法的挖掘精度一直低于文中方法,由此可知,主數(shù)據(jù)管理驅(qū)動(dòng)挖掘方法數(shù)據(jù)挖掘精準(zhǔn)度較高。

4結(jié)束語

針對(duì)挖掘全面性不強(qiáng)、數(shù)據(jù)挖掘精準(zhǔn)度低的問題,提出了主數(shù)據(jù)管理驅(qū)動(dòng)下多源數(shù)據(jù)數(shù)字化挖掘方法,利用主數(shù)據(jù)管理驅(qū)動(dòng)、克里格數(shù)據(jù)挖掘算法實(shí)現(xiàn)多源數(shù)據(jù)數(shù)字化挖掘。利用主數(shù)據(jù)驅(qū)動(dòng)管理,使企業(yè)檔案信息的獲取、存儲(chǔ)、分配等過程中的連接程度、準(zhǔn)確性和操作效率顯著提高,具有很大的研究?jī)r(jià)值和實(shí)際應(yīng)用價(jià)值。資源信息化建設(shè)一直是科學(xué)研究發(fā)展關(guān)注的重點(diǎn),但單獨(dú)針對(duì)多源數(shù)據(jù)數(shù)字化挖掘問題的研究卻是在當(dāng)今大數(shù)據(jù)背景下一次全新的挑戰(zhàn)。在資源獲取、信息集成整合以及數(shù)據(jù)應(yīng)用創(chuàng)新方面制定的可行性措施也并不一定適用于所有的數(shù)據(jù)處理模式,因此,在今后研究進(jìn)程中,多源數(shù)據(jù)的數(shù)字化挖掘研究過程需更加注重實(shí)用性、通用性的研究發(fā)展,以便適應(yīng)當(dāng)今社會(huì)的需求與發(fā)展。

作者:廖嘉煒 嚴(yán)俊斌 宋強(qiáng) 趙小凡 徐炫東 單位:廣東電網(wǎng)有限責(zé)任公司廣州供電局

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
精選范文推薦
文秘服务 AI帮写作 润色服务 论文发表