公務(wù)員期刊網(wǎng) 精選范文 數(shù)據(jù)挖掘技術(shù)分析論文范文

數(shù)據(jù)挖掘技術(shù)分析論文精選(九篇)

前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)挖掘技術(shù)分析論文主題范文,僅供參考,歡迎閱讀并收藏。

數(shù)據(jù)挖掘技術(shù)分析論文

第1篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

關(guān)鍵詞:遠(yuǎn)程開(kāi)放教育,數(shù)據(jù)挖掘,應(yīng)用,智能化

 

1 前言

現(xiàn)代遠(yuǎn)程開(kāi)放教育的全過(guò)程基本上都是通過(guò)瀏覽網(wǎng)站的形式進(jìn)行的,學(xué)生在Web上的行為都會(huì)產(chǎn)生大量的信息,這些信息在遠(yuǎn)程教育的全過(guò)程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來(lái)指導(dǎo)遠(yuǎn)程教育中的各個(gè)環(huán)節(jié),以此來(lái)為學(xué)生提供個(gè)性化的服務(wù)內(nèi)容,增強(qiáng)遠(yuǎn)程開(kāi)放教育的競(jìng)爭(zhēng)力。利用數(shù)據(jù)庫(kù)技術(shù)來(lái)存儲(chǔ)管理數(shù)據(jù),利用網(wǎng)絡(luò)和計(jì)算機(jī)學(xué)習(xí)的方法來(lái)分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識(shí),即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是最為關(guān)鍵的環(huán)節(jié)。論文參考網(wǎng)?;谶h(yuǎn)程開(kāi)放教育將是當(dāng)前和未來(lái)教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代遠(yuǎn)程開(kāi)放教育系統(tǒng)中。

2 數(shù)據(jù)挖掘概述

2.1數(shù)據(jù)挖掘(DataMining)定義

數(shù)據(jù)挖掘就是從大量存儲(chǔ)的數(shù)據(jù)中,利用模式識(shí)別、統(tǒng)計(jì)和數(shù)學(xué)的技術(shù),篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢(shì)的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它主要依靠人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù),對(duì)數(shù)據(jù)進(jìn)行歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)未來(lái)趨勢(shì),為決策提供支持。

2.2數(shù)據(jù)挖掘的主要任務(wù)

(1)關(guān)聯(lián)分析。兩個(gè)或兩個(gè)以上變量的取值之間存在的規(guī)律性稱(chēng)為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。

(2)聚類(lèi)分析。聚類(lèi)是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。

(3)分類(lèi)。分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數(shù)據(jù)的整體信息。

(4)預(yù)測(cè)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè)。

(5)時(shí)序模式。時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。

(6)偏差分析。在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀(guān)察結(jié)果與參照之間的差別。

2.3數(shù)據(jù)挖掘?qū)ο?/p>

根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等。

2.4數(shù)據(jù)挖掘技術(shù)實(shí)施的步驟

(1)確定業(yè)務(wù)對(duì)象。清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評(píng)價(jià),并以用戶(hù)能理解和觀(guān)察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶(hù)。

(2)數(shù)據(jù)準(zhǔn)備。這個(gè)階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)分析和轉(zhuǎn)換。要對(duì)Web服務(wù)器上的數(shù)據(jù)進(jìn)行挖掘,必須研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來(lái),提供給用戶(hù)一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。

(3)數(shù)據(jù)挖掘。這個(gè)階段就是利用數(shù)據(jù)挖掘工具對(duì)經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘和發(fā)現(xiàn)知識(shí)的過(guò)程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當(dāng)具體使用操作時(shí),也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習(xí)慣的影響。數(shù)據(jù)挖掘利用人工智能領(lǐng)域中一些已經(jīng)成熟的算法和技術(shù)。如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹(shù)方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來(lái)進(jìn)行數(shù)據(jù)的挖掘。

(4)結(jié)果分析。論文參考網(wǎng)。數(shù)據(jù)挖掘的結(jié)果由分析人員根據(jù)發(fā)現(xiàn)知識(shí)的領(lǐng)域重要性、可信度和支持度等閥值來(lái)對(duì)發(fā)現(xiàn)結(jié)果進(jìn)行評(píng)價(jià),并以用戶(hù)能理解和觀(guān)察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶(hù)。通常會(huì)用到可視化技術(shù)。

(5)知識(shí)的同化。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

3 現(xiàn)代遠(yuǎn)程開(kāi)放教育系統(tǒng)簡(jiǎn)介

遠(yuǎn)程開(kāi)放教育系統(tǒng)能實(shí)現(xiàn)個(gè)性化學(xué)習(xí)、實(shí)時(shí)教學(xué)、實(shí)時(shí)考試和智能答疑。為每一個(gè)接受網(wǎng)絡(luò)遠(yuǎn)程教育的學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)進(jìn)程。能根據(jù)與當(dāng)前學(xué)習(xí)者相類(lèi)似的學(xué)生的學(xué)習(xí)模式自動(dòng)地對(duì)其后繼知識(shí)的學(xué)習(xí)進(jìn)行預(yù)測(cè)以及合理推薦,并對(duì)學(xué)習(xí)者的學(xué)習(xí)過(guò)程進(jìn)行分階段的評(píng)價(jià),依據(jù)其績(jī)效信息動(dòng)態(tài)調(diào)整其學(xué)習(xí)難度、練習(xí)與測(cè)試內(nèi)容,對(duì)學(xué)生提出的問(wèn)題實(shí)現(xiàn)智能化答疑,對(duì)該學(xué)習(xí)者薄弱環(huán)節(jié)進(jìn)行有效指導(dǎo),做到因材施教和全天候?qū)W習(xí)。

遠(yuǎn)程開(kāi)放教育系統(tǒng)由用戶(hù)系統(tǒng)、WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)服務(wù)器、用戶(hù)數(shù)據(jù)庫(kù)和資源數(shù)據(jù)庫(kù)組成。

用戶(hù)系統(tǒng)用于實(shí)現(xiàn)遠(yuǎn)程開(kāi)放教育系統(tǒng)的顯示功能,其功能是:實(shí)現(xiàn)信息的和接受,管理員通過(guò)它來(lái)實(shí)現(xiàn)系統(tǒng)的管理、更新、維護(hù)等,主要是通過(guò)XML語(yǔ)言和HTTP協(xié)議實(shí)現(xiàn)WEB瀏覽器與WEB服務(wù)器的鏈接和信息通訊。WEB服務(wù)器用于完成遠(yuǎn)程開(kāi)放教育系統(tǒng)的事務(wù)處理,用于處理學(xué)習(xí)過(guò)程中的各種事務(wù)。應(yīng)用服務(wù)器直接為WEB服務(wù)器提供相關(guān)服務(wù),處理WEB服務(wù)器以及XML文檔組成的用戶(hù)的事務(wù)請(qǐng)求信息。論文參考網(wǎng)。數(shù)據(jù)庫(kù)服務(wù)器用于完成數(shù)據(jù)處理,為應(yīng)用服務(wù)器提供相關(guān)服務(wù),完成數(shù)據(jù)查詢(xún)、修改和更新等服務(wù),并把運(yùn)行結(jié)果反饋給應(yīng)用服務(wù)器。資源數(shù)據(jù)庫(kù)中主要由遠(yuǎn)程開(kāi)放教育系統(tǒng)中要使用的課件庫(kù)、答疑庫(kù)、作業(yè)庫(kù)、試題庫(kù)和必要的超級(jí)鏈接等構(gòu)成。用戶(hù)數(shù)據(jù)庫(kù)主要用于存儲(chǔ)遠(yuǎn)程開(kāi)放教育系統(tǒng)中要使用的的注冊(cè)檔案、用戶(hù)目前的學(xué)習(xí)內(nèi)容、學(xué)習(xí)進(jìn)展、作業(yè)情況和考試情況等信息。

4 數(shù)據(jù)挖掘技術(shù)在遠(yuǎn)程開(kāi)放教育中的應(yīng)用

現(xiàn)代遠(yuǎn)程開(kāi)放教育是隨著現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種新型教育形式,其基本特征是利用計(jì)算機(jī)網(wǎng)絡(luò)和多媒體技術(shù),提供豐富的教學(xué)資源供學(xué)習(xí)者選用,教學(xué)形式由原來(lái)的以教為主變?yōu)橐詫W(xué)為主。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠(yuǎn)程開(kāi)放教育中的應(yīng)用主要有以下幾方面:

(1)在個(gè)性化學(xué)習(xí)方面的應(yīng)用

由于每個(gè)學(xué)習(xí)者的知識(shí)背景、學(xué)習(xí)習(xí)慣和學(xué)習(xí)目標(biāo)都不一樣,故個(gè)性化學(xué)習(xí)在遠(yuǎn)程開(kāi)放教育中就顯得非常重要。為了實(shí)現(xiàn)此功能,基于WEB的智能遠(yuǎn)程開(kāi)放教育系統(tǒng)首先要根據(jù)學(xué)習(xí)者的特點(diǎn)和學(xué)習(xí)目標(biāo)來(lái)收集學(xué)習(xí)者的數(shù)據(jù)信息,然后對(duì)收集到的信息進(jìn)行預(yù)處理,再應(yīng)用一種合理的挖掘算法或綜合應(yīng)用不同的算法,如關(guān)聯(lián)規(guī)則分析、聚類(lèi)和分類(lèi)技術(shù)、統(tǒng)計(jì)分析以及時(shí)序模式技術(shù)等,來(lái)處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶(hù)的訪(fǎng)問(wèn)模式,但是通過(guò)模式挖掘后,生成的規(guī)則數(shù)目大、表達(dá)晦澀且不好用,這時(shí)就需要用到智能查詢(xún)機(jī)制、可視化和聯(lián)機(jī)分析等技術(shù)對(duì)模式進(jìn)行分析評(píng)價(jià),經(jīng)過(guò)模式分析和應(yīng)用技術(shù)處理后,選擇一種學(xué)習(xí)者易于理解和接受的表達(dá)方式將知識(shí)數(shù)據(jù)顯現(xiàn)出來(lái)。利用數(shù)據(jù)挖掘與學(xué)習(xí)內(nèi)容綁定的技術(shù),系統(tǒng)就可以以可視化方式來(lái)指導(dǎo)學(xué)習(xí)者學(xué)習(xí)和個(gè)性化發(fā)展,這樣系統(tǒng)就實(shí)現(xiàn)了個(gè)性化學(xué)習(xí)功能。

(2)在資源庫(kù)建設(shè)方面的應(yīng)用

資源庫(kù)建設(shè)在整個(gè)系統(tǒng)中至關(guān)重要,為了建立覆蓋面廣、功能齊全的資源庫(kù),我們就必須編制信息資源目錄,征集種類(lèi)資源信息,并進(jìn)行資源、資源信息篩選、資源信息整理和存儲(chǔ);同時(shí)按學(xué)科門(mén)類(lèi)建設(shè)積件庫(kù)。當(dāng)老師在系統(tǒng)內(nèi)制作課件,為了有針對(duì)性和避免重復(fù),我們可以對(duì)所有學(xué)習(xí)者已選的課程進(jìn)行聚類(lèi),并通過(guò)聚類(lèi)學(xué)習(xí)算法來(lái)自動(dòng)確定每門(mén)課程的類(lèi)別標(biāo)記。接著利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,估計(jì)出一組相關(guān)同位類(lèi)課程,再利用泛化關(guān)聯(lián)規(guī)則,找到其上位類(lèi)課程,或利用序列模式,預(yù)測(cè)出與之有關(guān)的學(xué)生未來(lái)可能選擇的同級(jí)課程,最后圍繞學(xué)習(xí)者的需求權(quán)限進(jìn)行課程設(shè)置。

(3)在實(shí)時(shí)教學(xué)方面的應(yīng)用

在本系統(tǒng)中,由于引入了互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù),通過(guò)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法設(shè)計(jì)出了個(gè)性化處理引擎,從大量的數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學(xué)生可以通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)每天24小時(shí)的學(xué)習(xí),而且本系統(tǒng)可以更多且及時(shí)的了解到學(xué)生的學(xué)習(xí)學(xué)習(xí)進(jìn)度、需求、能力、興趣愛(ài)好等方面的信息,并動(dòng)態(tài)地根據(jù)這些信息調(diào)整學(xué)習(xí)計(jì)劃和進(jìn)度,讓學(xué)生得到針對(duì)其“個(gè)性”的教育,實(shí)現(xiàn)因材施教。

(4)在智能答疑方面的應(yīng)用

基于WEB的遠(yuǎn)程教學(xué)系統(tǒng)中的智能答疑系統(tǒng)只要用戶(hù)能上網(wǎng),就可解答學(xué)生在學(xué)習(xí)過(guò)程中產(chǎn)生的問(wèn)題。它能根據(jù)學(xué)生用戶(hù)訪(fǎng)問(wèn)日志、問(wèn)題記錄等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,用智能抽取的方法實(shí)現(xiàn)智能答疑。從用戶(hù)訪(fǎng)問(wèn)日志和提問(wèn)信息里面可以分析出學(xué)生的行為。智能答疑系統(tǒng)后臺(tái)存儲(chǔ)了大量的由經(jīng)驗(yàn)豐富的教師精心挑選的問(wèn)題答案,對(duì)于用戶(hù)提出的問(wèn)題.系統(tǒng)首先通過(guò)對(duì)問(wèn)題的分析自動(dòng)在數(shù)據(jù)庫(kù)中尋找最適合的答案。這樣通過(guò)數(shù)據(jù)挖掘,針對(duì)學(xué)生用戶(hù)提問(wèn)記錄、日志不斷更新和調(diào)整學(xué)生用戶(hù)知識(shí)庫(kù),使問(wèn)題的回答更加精確。

(5)在實(shí)時(shí)考試方面的應(yīng)用

本系統(tǒng)的實(shí)時(shí)考試系統(tǒng)是一個(gè)基于數(shù)據(jù)庫(kù)和WEB的遠(yuǎn)程在線(xiàn)式實(shí)時(shí)的測(cè)試系統(tǒng)。它能考慮個(gè)別學(xué)習(xí)者的能力和特性,按照考試的目的和必要性,提供各種問(wèn)項(xiàng)信息,如難易程度、辨別程度等。并且還能同步打分,提供成績(jī)進(jìn)展情況,根據(jù)個(gè)人特性解釋問(wèn)題,按個(gè)人及科目對(duì)考試結(jié)果進(jìn)行各種統(tǒng)計(jì)分析和評(píng)價(jià),并存入學(xué)生用戶(hù)數(shù)據(jù)中。這些功能的實(shí)現(xiàn)是由于系統(tǒng)采用關(guān)聯(lián)規(guī)則、聚類(lèi)和分類(lèi)工具對(duì)數(shù)據(jù)庫(kù)中抽取的數(shù)據(jù)進(jìn)行處理,分析出學(xué)生的特性及其對(duì)課程各知識(shí)點(diǎn)的掌握程度,并結(jié)合學(xué)生的考試目的恰當(dāng)?shù)胤答伣o學(xué)生,這樣提高了學(xué)生學(xué)習(xí)的效率。

5 結(jié)束語(yǔ)

在現(xiàn)代遠(yuǎn)程開(kāi)放教育網(wǎng)站設(shè)計(jì)中,基于XML(ExtensibleMarkup Language,可擴(kuò)展標(biāo)記語(yǔ)言)的新一代系統(tǒng)設(shè)計(jì)環(huán)境,可以更好地描述半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),更有利于進(jìn)行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務(wù)技術(shù),以此為契機(jī)開(kāi)展數(shù)據(jù)挖掘和知識(shí)獲取,在現(xiàn)代遠(yuǎn)程開(kāi)放教育網(wǎng)站的設(shè)計(jì)中以學(xué)習(xí)者為中心,提供一種基于資源的學(xué)習(xí),教學(xué)資源可以適應(yīng)各種學(xué)習(xí)者的需要和背景進(jìn)行不同的組合,提供更加優(yōu)良的、個(gè)性化的服務(wù)。

參考文獻(xiàn):

[1]李爽,陳麗.國(guó)內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].北京,中國(guó)電化教育,2003(5)

[2]蘇新寧.?dāng)?shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

[3]趙丹群.?dāng)?shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2000,(6)

[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠(yuǎn)程教育系統(tǒng)中的的應(yīng)用[J] .南京:文教資料,2006(10)

第2篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

1.1數(shù)據(jù)挖掘技術(shù)

關(guān)聯(lián)分析即找出兩個(gè)或以上變量之間同時(shí)出現(xiàn)的規(guī)律、因果結(jié)構(gòu),即通過(guò)其他事物可對(duì)某個(gè)與之相關(guān)的事物做出預(yù)測(cè)。數(shù)據(jù)挖掘關(guān)聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,對(duì)于高校圖書(shū)館個(gè)性化服務(wù)而言,即從圖書(shū)館數(shù)據(jù)庫(kù)中發(fā)現(xiàn)相關(guān)的關(guān)聯(lián)規(guī)則,針對(duì)用戶(hù)的信息需求做出準(zhǔn)確預(yù)測(cè),提高信息推送的針對(duì)性,便于用戶(hù)獲取所需的信息。聚類(lèi)即將數(shù)據(jù)庫(kù)中的一組個(gè)體按照相似性歸結(jié)為若干類(lèi)型,應(yīng)用于圖書(shū)館系統(tǒng)中,就是將相似的文獻(xiàn)集中在一起,用戶(hù)在搜索相關(guān)文獻(xiàn)時(shí)可以查閱更多其他相關(guān)內(nèi)容,便于其總結(jié)、歸納;在個(gè)性化服務(wù)中還可以通過(guò)聚類(lèi)匯總用戶(hù)所需的特定信息。分類(lèi)與聚類(lèi)相似,是按照分析對(duì)象的屬性建立類(lèi)組,用戶(hù)查閱資料的過(guò)程中,每種信息的重要程度有所不同,通過(guò)分類(lèi)可以將用戶(hù)所需求的知識(shí)分為高度需求、中度需求及低度需求。在高校圖書(shū)館個(gè)性化服務(wù)中要對(duì)用戶(hù)的使用規(guī)律做出預(yù)測(cè),即根據(jù)用戶(hù)歷史查閱記錄對(duì)用戶(hù)所需的文獻(xiàn)種類(lèi)、特征等做出預(yù)測(cè)。時(shí)序模式主要是通過(guò)時(shí)間段對(duì)用戶(hù)的訪(fǎng)問(wèn)記錄、檢索過(guò)程做出標(biāo)志,再通過(guò)時(shí)間序列將重復(fù)率較高的內(nèi)容挖掘出來(lái),以預(yù)測(cè)其下個(gè)信息需求,提高用戶(hù)查閱資料的便利性。

1.2圖書(shū)館中應(yīng)用數(shù)據(jù)挖掘的必要性與可行性分析

圖書(shū)館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性體現(xiàn)在以下幾個(gè)方面:首先,信息化需求。用戶(hù)的借閱記錄、檢索記錄均存儲(chǔ)于圖書(shū)館數(shù)據(jù)庫(kù)中,需要利用數(shù)據(jù)挖掘技術(shù)將這些海量數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)信息,以便于館員做出決策。其次,圖書(shū)館的管理需求。傳統(tǒng)圖書(shū)館系統(tǒng)僅能為用戶(hù)提供簡(jiǎn)單的訪(fǎng)問(wèn)、檢索等功能,這些功能無(wú)法滿(mǎn)足圖書(shū)館個(gè)性化的技術(shù)要求,因此要利用數(shù)據(jù)挖掘技術(shù)將用戶(hù)借閱數(shù)據(jù)中隱含的關(guān)聯(lián)性發(fā)掘出來(lái),從中發(fā)現(xiàn)有用的知識(shí)信息。最后,用戶(hù)服務(wù)的需求。數(shù)字化圖書(shū)館的發(fā)展越來(lái)越迅速,用戶(hù)通過(guò)圖書(shū)館獲得的資源也越來(lái)越豐富,如何從海量的信息資源中發(fā)掘出對(duì)用戶(hù)有用的知識(shí)信息,僅依靠傳統(tǒng)的圖書(shū)館管理系統(tǒng)無(wú)法解決這一問(wèn)題,因此要利用數(shù)據(jù)挖掘技術(shù)對(duì)用戶(hù)的借閱記錄進(jìn)行分析,從中獲得更多有價(jià)值的信息,以提高圖書(shū)館的服務(wù)質(zhì)量及館藏利用率。而在圖書(shū)館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)也是可行的,一方面很多圖書(shū)館已具備比較好的物質(zhì)條件及人才條件,這些均是圖書(shū)館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件,而且政府在經(jīng)濟(jì)方面、政策方面也為數(shù)據(jù)挖掘的應(yīng)用提供了更多保障;另一方面,近年來(lái)數(shù)據(jù)挖掘技術(shù)也有了長(zhǎng)足的發(fā)展,其足以為圖書(shū)館的個(gè)性化服務(wù)提供必要的技術(shù)支持。圖書(shū)館數(shù)字化發(fā)展過(guò)程中需要采集、購(gòu)置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術(shù)可以為圖書(shū)館資源建設(shè)提供指導(dǎo)作用,挖掘圖書(shū)館的歷史借閱記錄,可進(jìn)一步了解用戶(hù)的借閱習(xí)慣、閱讀興趣及信息需求,并且可以對(duì)不同圖書(shū)之間的關(guān)聯(lián)性進(jìn)行深入分析,圖書(shū)館員根據(jù)這些信息記錄、分析結(jié)果等提供指導(dǎo),可以提高圖書(shū)資源分配的合理性,對(duì)館藏布局進(jìn)行優(yōu)化。由此可見(jiàn),數(shù)字化圖書(shū)館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。

2圖書(shū)館個(gè)性化服務(wù)的具體體現(xiàn)

高校圖書(shū)館個(gè)性化服務(wù)是指根據(jù)每個(gè)用戶(hù)的專(zhuān)業(yè)、愛(ài)好、研究方向、探索領(lǐng)域及特殊服務(wù)為其提供更具針對(duì)性的信息服務(wù),幫助用戶(hù)查閱更加完整的信息資料,便于其學(xué)習(xí)、研究。高校圖書(shū)館個(gè)性化服務(wù)具體體現(xiàn)在以下3個(gè)方面:

①用戶(hù)可根據(jù)自己的需求定制相關(guān)信息,以保證其在圖書(shū)館中能夠查閱到相關(guān)資料;圖書(shū)館利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶(hù)的興趣愛(ài)好,為其定制個(gè)性化的訪(fǎng)問(wèn)空間。用戶(hù)訪(fǎng)問(wèn)圖書(shū)館數(shù)據(jù)庫(kù)時(shí)會(huì)將其興趣愛(ài)好間接地反映出來(lái),如果用戶(hù)不感興趣,在頁(yè)面停留的時(shí)間會(huì)較短,停留時(shí)間較長(zhǎng)則說(shuō)明比較感興趣;利用用戶(hù)的瀏覽路徑信息時(shí)間即可將用戶(hù)對(duì)信息資源的感興趣程度發(fā)掘出來(lái)。

②提高圖書(shū)館資源利用率。利用數(shù)據(jù)挖掘技術(shù)可以識(shí)別圖書(shū)館網(wǎng)站內(nèi)頻繁訪(fǎng)問(wèn)的路徑及用戶(hù)訪(fǎng)問(wèn)次數(shù)較多的頁(yè)面,可以將新書(shū)信息、重要的分類(lèi)信息放在這些路徑上,從而向用戶(hù)主動(dòng)推送其所需要的信息資源,提高圖書(shū)的利用率。

③優(yōu)化鏈接結(jié)構(gòu),提高用戶(hù)應(yīng)用的便利性。對(duì)Weblog進(jìn)行挖掘,可以發(fā)現(xiàn)用戶(hù)訪(fǎng)問(wèn)頁(yè)面的相關(guān)性,增加聯(lián)系比較密切的網(wǎng)頁(yè)之間的關(guān)聯(lián)性;發(fā)現(xiàn)用戶(hù)的期望位置,如果用戶(hù)訪(fǎng)問(wèn)期望位置的頻率高于對(duì)實(shí)際位置的訪(fǎng)問(wèn)頻率,則可在二者之間建立導(dǎo)航鏈接,優(yōu)化站點(diǎn)。

④查新服務(wù)與定題服務(wù)。傳統(tǒng)圖書(shū)館主要通過(guò)查詢(xún)光盤(pán)數(shù)據(jù)庫(kù)、文獻(xiàn)數(shù)據(jù)庫(kù)等進(jìn)行查新服務(wù),而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展與應(yīng)用,外部網(wǎng)絡(luò)信息及更新的速度遠(yuǎn)遠(yuǎn)超過(guò)圖書(shū)館內(nèi)部網(wǎng)絡(luò),因此要加強(qiáng)網(wǎng)絡(luò)平臺(tái)的建設(shè),以保證服務(wù)結(jié)果的真實(shí)性與可靠性。數(shù)字圖書(shū)館在進(jìn)行查新與定題服務(wù)過(guò)程中,可以利用可視化技術(shù)為用戶(hù)提供在線(xiàn)即時(shí)信息分析。

3圖書(shū)館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用

圖書(shū)館個(gè)性化服務(wù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程如下:建立讀者數(shù)據(jù)倉(cāng)庫(kù)——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結(jié)果的顯示——對(duì)結(jié)果的評(píng)價(jià)。

3.1建立讀者數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)挖掘過(guò)程中,在確定了挖掘目標(biāo)后,即開(kāi)始進(jìn)行數(shù)據(jù)準(zhǔn)備,從大量數(shù)據(jù)中選擇一個(gè)與需挖掘目標(biāo)相關(guān)的樣板數(shù)據(jù)子集。此時(shí)需要建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),其主要作用是將所有挖掘目標(biāo)所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉(cāng)庫(kù)直接進(jìn)行數(shù)據(jù)挖掘,可能會(huì)導(dǎo)致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準(zhǔn)備數(shù)據(jù),因此建立數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)至關(guān)重要的準(zhǔn)備工作。高校圖書(shū)館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù),第一步就是建立用戶(hù)的興趣庫(kù)及圖書(shū)館自身的特色資源數(shù)據(jù)庫(kù)。用戶(hù)使用圖書(shū)館的過(guò)程中,必然會(huì)產(chǎn)生大量的借閱記錄,訪(fǎng)問(wèn)圖書(shū)館網(wǎng)站會(huì)留下訪(fǎng)問(wèn)記錄,這其中均潛藏了大量有意義的信息。

3.2數(shù)據(jù)收集

在建立用戶(hù)興趣庫(kù)及特色資源數(shù)據(jù)庫(kù)后,必須對(duì)這兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、調(diào)整,以保證原始數(shù)據(jù)的質(zhì)量,從而保證數(shù)據(jù)挖掘結(jié)果的質(zhì)量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調(diào)整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換等3個(gè)步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標(biāo)相關(guān)的數(shù)據(jù)信息搜索出來(lái);數(shù)據(jù)清洗則是對(duì)數(shù)據(jù)進(jìn)行噪聲消除、重復(fù)記錄的消除及推導(dǎo)計(jì)算缺值數(shù)據(jù)等。圖書(shū)館每天會(huì)產(chǎn)生大量的用戶(hù)相關(guān)的數(shù)據(jù),并非所有的數(shù)據(jù)均對(duì)整個(gè)挖掘處理過(guò)程有正面作用,有些數(shù)據(jù)可能會(huì)對(duì)挖掘效果產(chǎn)生負(fù)面影響,因此剔除這些無(wú)用的數(shù)據(jù)十分必要。數(shù)據(jù)轉(zhuǎn)換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過(guò)數(shù)據(jù)轉(zhuǎn)換可有效減少數(shù)據(jù)挖掘時(shí)需要考慮的變量數(shù)。

3.3選擇算法及建立模型

數(shù)據(jù)挖掘過(guò)程中不同的算法可能會(huì)實(shí)現(xiàn)同一個(gè)任務(wù),但過(guò)程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點(diǎn)、實(shí)際運(yùn)行系統(tǒng)的要求選擇適用的算法。有些用戶(hù)比較傾向于獲取描述型的、容易理解的知識(shí),有些用戶(hù)則希望獲取預(yù)測(cè)型知識(shí),因此要針對(duì)不同的用戶(hù)選擇對(duì)應(yīng)的算法,之后就要進(jìn)行數(shù)據(jù)挖掘模型的建立。通過(guò)對(duì)用戶(hù)分類(lèi)、聚類(lèi)及時(shí)間序列的分析,將每類(lèi)用戶(hù)的普遍性需求及個(gè)性化需求抽象出來(lái),從而建立一系列的關(guān)聯(lián)規(guī)則模型。一個(gè)模型完成后不一定可以立刻解決問(wèn)題,需要對(duì)其進(jìn)行反復(fù)驗(yàn)證,如果可以解決問(wèn)題證明模型有效;如模型存在缺陷,則要通過(guò)反饋對(duì)模型進(jìn)行修改、調(diào)整,或者選擇新算法,建立新模型,對(duì)不同的模型進(jìn)行全面考察。

3.4結(jié)果解釋與知識(shí)表示

在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時(shí)所用的算法規(guī)則進(jìn)行運(yùn)算,即可產(chǎn)生數(shù)據(jù)挖掘結(jié)果,圖書(shū)館只需對(duì)挖掘結(jié)果進(jìn)行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結(jié)果,圖書(shū)館決策者及管理者即可根據(jù)可視化的挖掘結(jié)果進(jìn)行決策。比如圖書(shū)館新引進(jìn)了一批考古專(zhuān)業(yè)的學(xué)術(shù)論文,由數(shù)據(jù)挖掘模型分析結(jié)果可知,該批論文的查閱者90%均為考古專(zhuān)業(yè)的老師與學(xué)生,其他專(zhuān)業(yè)的師生查閱率不到10%,根據(jù)這一結(jié)果,即可將論文信息傳遞給考古專(zhuān)業(yè)的相關(guān)用戶(hù),以提高信息推送的針對(duì)性。

3.5結(jié)果的驗(yàn)證、應(yīng)用及評(píng)價(jià)

產(chǎn)生挖掘結(jié)果后需要進(jìn)一步實(shí)踐,以驗(yàn)證結(jié)果的有效性與可用性,及對(duì)模型的實(shí)用性進(jìn)行評(píng)價(jià),并且挖掘結(jié)果還具備預(yù)測(cè)未來(lái)數(shù)據(jù)的功能。上一步的結(jié)果解釋經(jīng)過(guò)實(shí)踐后,可對(duì)應(yīng)用過(guò)程進(jìn)行跟蹤了解,獲得用戶(hù)的反饋信息,對(duì)結(jié)果的實(shí)用性進(jìn)行驗(yàn)證。需要注意一點(diǎn),即一個(gè)數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個(gè)時(shí)間節(jié)點(diǎn)均適用于同一個(gè)數(shù)據(jù)挖掘模型,因此要對(duì)挖掘結(jié)果做出評(píng)價(jià),如經(jīng)過(guò)用戶(hù)的反饋,數(shù)據(jù)挖掘出來(lái)的結(jié)果可以解決問(wèn)題,實(shí)現(xiàn)了最初的挖掘目標(biāo),滿(mǎn)足了用戶(hù)需求,則可判定該模型是合理的。挖掘結(jié)果可以滿(mǎn)足用戶(hù)的要求,用戶(hù)就會(huì)做出滿(mǎn)意的反饋,將這一反饋信息提供給決策者即可做下一步的實(shí)施,完成該階段后,圖書(shū)館就基本上實(shí)現(xiàn)了以用戶(hù)為中心的個(gè)性化服務(wù)的數(shù)據(jù)挖掘過(guò)程。不過(guò)某些情況下模型的評(píng)價(jià)結(jié)果可能不盡如人意,即數(shù)據(jù)挖掘的結(jié)果無(wú)法滿(mǎn)足用戶(hù)的要求,這種情況就要由系統(tǒng)進(jìn)行重新處理,重復(fù)上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉(zhuǎn)換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見(jiàn),數(shù)據(jù)挖掘的過(guò)程是一個(gè)不斷反饋的過(guò)程,體現(xiàn)出反復(fù)性的特點(diǎn)。

4結(jié)語(yǔ)

第3篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

論文摘要:隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來(lái),作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來(lái)發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),從大型的數(shù)據(jù)庫(kù)數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能等問(wèn)題。

數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識(shí)別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來(lái)發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的知識(shí),也就是從大型的數(shù)據(jù)庫(kù)數(shù)據(jù)中挖掘一些人們比較感興趣的知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究?jī)?nèi)容,已經(jīng)開(kāi)始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。

一、數(shù)據(jù)挖掘技術(shù)的概念

隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來(lái),主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價(jià)值的有用信息和知識(shí),這些被提取的知識(shí)通常會(huì)表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對(duì)象定義成數(shù)據(jù)庫(kù)或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險(xiǎn)業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場(chǎng)營(yíng)銷(xiāo)等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過(guò)程中所采集到的數(shù)據(jù)可以被廣泛地存儲(chǔ)在不同的數(shù)據(jù)庫(kù)當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來(lái)對(duì)這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會(huì)浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時(shí),盡管智能診斷以及專(zhuān)家系統(tǒng)等方式在故障的診斷過(guò)程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識(shí)瓶頸等一些尚未完全被解決的問(wèn)題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來(lái)解決這些難題,在故障診斷的過(guò)程中發(fā)揮其獨(dú)特的優(yōu)勢(shì)。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來(lái)看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹(shù)方法等。

二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法

1.基本原理。在設(shè)備出現(xiàn)故障時(shí)采用數(shù)據(jù)挖掘技術(shù)對(duì)設(shè)備進(jìn)行一系列的故障診斷,也就是說(shuō)根據(jù)這一設(shè)備的運(yùn)行記錄,對(duì)其運(yùn)行的趨勢(shì)進(jìn)行預(yù)測(cè),并對(duì)其可能存在的運(yùn)行狀態(tài)進(jìn)行分類(lèi),故障診斷的實(shí)質(zhì)就是一種模式識(shí)別方式,對(duì)機(jī)器設(shè)備的故障進(jìn)行診斷的過(guò)程也就是該模式匹配和獲取的過(guò)程。

2.對(duì)故障診斷的數(shù)據(jù)挖掘方法建模。針對(duì)機(jī)械故障的診斷來(lái)說(shuō),首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時(shí)的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時(shí)的一些信息數(shù)據(jù),在現(xiàn)場(chǎng)的監(jiān)控系統(tǒng)中往往就會(huì)存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時(shí)的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無(wú)章的信息樣本庫(kù)中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對(duì)故障的模式進(jìn)行劃分時(shí),我們通常可以借助概率統(tǒng)計(jì)的方式,在對(duì)故障模式進(jìn)行識(shí)別時(shí)可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類(lèi)所需要用到的一些規(guī)則,從而最終達(dá)到分類(lèi)的目的,依據(jù)這些規(guī)則,就可以對(duì)一些新來(lái)的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對(duì)故障進(jìn)行分類(lèi),找出故障所產(chǎn)生的原因和解決故障的正確方法。

三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能

1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來(lái)源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個(gè)子站的一個(gè)數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專(zhuān)門(mén)的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫(kù)中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時(shí)又能做到不影響原先分站數(shù)據(jù)庫(kù)的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。

2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時(shí),會(huì)從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對(duì)這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對(duì)龐大的故障數(shù)據(jù)進(jìn)行分析、分類(lèi)以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對(duì)信息進(jìn)行有效地存儲(chǔ)和分類(lèi)。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢(xún)的功能,可以進(jìn)行不同條件下的查詢(xún),例如按時(shí)間段、報(bào)告類(lèi)型、設(shè)備型號(hào)以及單位等進(jìn)行查詢(xún),實(shí)現(xiàn)查詢(xún)后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫(kù)中所保存的一些整定阻抗值,可以通過(guò)邏輯判斷生產(chǎn)繼電保護(hù)動(dòng)作的分析報(bào)告,主要包括對(duì)故障過(guò)程的簡(jiǎn)述、故障切除情況以及保護(hù)動(dòng)作情況等,可以便于繼電保護(hù)人員直觀(guān)的對(duì)保護(hù)裝置的動(dòng)作情況進(jìn)行分析。

四、結(jié)語(yǔ)

隨著企業(yè)自動(dòng)化程度的不斷提高以及數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測(cè)系統(tǒng),對(duì)設(shè)備運(yùn)行過(guò)程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識(shí)獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。

參考文獻(xiàn)

[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[J].電力自動(dòng)化設(shè)備,2011,9

[2]李建業(yè),劉志遠(yuǎn),蔡乾,趙洪波.基于Web的故障信息系統(tǒng)[J].電力信息化,2007,S1

第4篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

關(guān)鍵詞 情報(bào)學(xué);碩士論文;關(guān)鍵詞

中圖分類(lèi)號(hào)G251 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2014)114-0013-02

當(dāng)前,世界各國(guó)的許多高等院校和科學(xué)研究機(jī)構(gòu)都在加強(qiáng)對(duì)圖書(shū)情報(bào)的研究,許多世界一流院校,比如Harvard University(哈佛大學(xué))、Princeton University(普林斯頓大學(xué))、Yale University(耶魯大學(xué))、Massachusetts Inst. of Technology(麻省理工學(xué)院)等都建立了比較完善的情報(bào)學(xué)教育體系。而比較而言,在我國(guó)高等院校與科研院所對(duì)圖書(shū)情報(bào)學(xué)的相關(guān)研究,明顯要相對(duì)落后,近年來(lái)隨著改革開(kāi)放的深入推進(jìn),有關(guān)情報(bào)學(xué)的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長(zhǎng)態(tài)勢(shì),然而由于研究?jī)?nèi)容相對(duì)較為高深,而且研究的靶場(chǎng)顯得較為前沿化與多元化?;陉P(guān)鍵詞對(duì)學(xué)位論文進(jìn)行統(tǒng)計(jì)、研究與分析是文獻(xiàn)計(jì)量學(xué)的范疇,是圖書(shū)情報(bào)學(xué)研究的重要內(nèi)容。即以學(xué)位文獻(xiàn)或?qū)W位文獻(xiàn)的某些特點(diǎn)為標(biāo)的,以聚集梳理一定數(shù)量文獻(xiàn)為基礎(chǔ),由此展開(kāi)對(duì)某一時(shí)域某一領(lǐng)域科學(xué)技術(shù)基本狀況與基本特征的研究,并由此論述和預(yù)測(cè)該領(lǐng)域科學(xué)技術(shù)在今后一段時(shí)期的研究趨勢(shì)與特點(diǎn)規(guī)律態(tài)勢(shì)。基于獨(dú)特關(guān)鍵詞進(jìn)行圖書(shū)情報(bào)領(lǐng)域的碩士學(xué)位論文進(jìn)行分析,是情報(bào)學(xué)研究的一項(xiàng)重要方法,是一種將文獻(xiàn)資料中的眾多核心要素關(guān)聯(lián)起來(lái),進(jìn)行統(tǒng)計(jì)分析的引證分析方法,其可以較為科學(xué)地評(píng)價(jià)文獻(xiàn)所研究與發(fā)展的現(xiàn)狀和趨勢(shì),揭示學(xué)科當(dāng)時(shí)研究的熱點(diǎn),較為準(zhǔn)確地評(píng)價(jià)文獻(xiàn)所代表的學(xué)術(shù)水平。

1 研究對(duì)象數(shù)據(jù)來(lái)源

本文研究的對(duì)象定位于對(duì)國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域這一總體框架,并于此基礎(chǔ)上將“靶向”集中于碩士學(xué)位論文的統(tǒng)計(jì)、分析與研究,將“靶標(biāo)”聚集到碩士學(xué)位論文的研究熱點(diǎn)、趨勢(shì)、重點(diǎn)、前沿以及其變化情況,從而更加清晰地梳理出我國(guó)情報(bào)學(xué)研究的發(fā)展脈絡(luò),從而為我國(guó)情報(bào)學(xué)教育發(fā)展提供參考。研究的主要數(shù)據(jù)來(lái)源集中于國(guó)內(nèi)著名的學(xué)位論文收集庫(kù)――中國(guó)知網(wǎng)CNKI學(xué)術(shù)文獻(xiàn)總庫(kù)、維普期刊資源整合服務(wù)平臺(tái)與萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)“三大論文數(shù)據(jù)庫(kù)”,以及國(guó)內(nèi)高等院校圖書(shū)館自建特色數(shù)據(jù)庫(kù)。其中,中國(guó)知網(wǎng)CNKI和萬(wàn)方數(shù)據(jù)庫(kù)是國(guó)內(nèi)收錄學(xué)位論文最為全面的數(shù)據(jù)庫(kù),因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來(lái)自該兩個(gè)數(shù)據(jù)庫(kù),著重定位于“學(xué)科專(zhuān)業(yè)名稱(chēng)”、“學(xué)科專(zhuān)業(yè)分類(lèi)”選項(xiàng)進(jìn)行檢索,而檢索的時(shí)間區(qū)域定位于近10年,對(duì)于兩個(gè)數(shù)據(jù)庫(kù)檢索出來(lái)的文獻(xiàn),對(duì)于相同的通過(guò)采用SQL 語(yǔ)句進(jìn)行篩選,剔除重復(fù)的以及不符合的。

由此,以“情報(bào)學(xué)”作為檢索詞,從中國(guó)知網(wǎng)CNKI數(shù)據(jù)庫(kù)獲得1640篇碩士論文,從萬(wàn)方數(shù)據(jù)庫(kù)中獲致1315篇碩士論文,通過(guò)SQL篩選剔除重復(fù)的以及不符合的795篇,總共獲得有效國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士論文2160篇。

2 基于高頻關(guān)鍵詞的國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn)

通過(guò)對(duì)獲取到的2160篇國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士論文進(jìn)行研究,綜合統(tǒng)計(jì)論文的關(guān)鍵詞,累計(jì)關(guān)鍵詞有13976個(gè),經(jīng)過(guò)分析研究,去除不能表達(dá)論文主題概念的關(guān)鍵詞3645個(gè),共得10331個(gè),平均每篇碩士文獻(xiàn)關(guān)鍵詞數(shù)為4.78個(gè),由此可說(shuō)明該統(tǒng)計(jì)是科學(xué)的,與國(guó)外科文獻(xiàn)資料對(duì)關(guān)鍵詞的標(biāo)引規(guī)則相符(國(guó)內(nèi)外科技期刊要求的每篇關(guān)鍵詞應(yīng)標(biāo)出 3-8 個(gè)),接著對(duì)關(guān)鍵詞的詞頻進(jìn)行統(tǒng)計(jì)分析,將關(guān)鍵詞的頻度大于60作為標(biāo)準(zhǔn),將其定義為“高頻詞”,通過(guò)對(duì)“高頻詞”的統(tǒng)計(jì)分析,可以非常清晰地看出,有關(guān)“知識(shí)管理”這一主題的頻次最高,多達(dá)126次。無(wú)疑,這也證實(shí)了近些年來(lái),學(xué)術(shù)界對(duì)知識(shí)管理這個(gè)方向的研究熱點(diǎn)。此外,“電子商務(wù)”為121次、“信息化”為118次、“信息技術(shù)”為112次、“競(jìng)爭(zhēng)情報(bào)”為102次、“信息服務(wù)”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書(shū)”為84次、“信息資源”為79次、“電子政務(wù)”為75次、 “知識(shí)服務(wù)”為71次、“知識(shí)共享”為68次、“數(shù)據(jù)倉(cāng)庫(kù)”為63次,從中也反映了我國(guó)對(duì)信息化建設(shè)、知識(shí)服務(wù)、數(shù)字化建設(shè)等關(guān)注在日益提升,也驗(yàn)證了我國(guó)國(guó)務(wù)院學(xué)位委員會(huì)重新頒布的《授予博士、碩士學(xué)位和培養(yǎng)研究生的學(xué)科、專(zhuān)業(yè)目錄》中“圖書(shū)館、情報(bào)與檔案管理”的實(shí)效,表明了情報(bào)學(xué)與管理學(xué)之間滲透和結(jié)合日益加強(qiáng),也可以折射出當(dāng)前研究的重點(diǎn)、熱點(diǎn)仍然集中在情報(bào)學(xué)基礎(chǔ)領(lǐng)域,并預(yù)示著今后情報(bào)學(xué)研究的一個(gè)重點(diǎn)將是對(duì)網(wǎng)絡(luò)信息資源的開(kāi)發(fā)、整合與利用。

3 基于聚類(lèi)共詞的國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn)

通常來(lái)說(shuō),僅僅通過(guò)孤獨(dú)地察看論文的某一關(guān)鍵詞,通常是難以有充足的理由說(shuō)明該論文所研究的主題,然而通過(guò)關(guān)注兩個(gè)或者兩個(gè)以上的關(guān)鍵詞,將可以給予人們更加充分的信息去把握論文的大致內(nèi)容和論文的主題脈絡(luò)。通過(guò)采取計(jì)算機(jī)數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對(duì)出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關(guān)鍵詞進(jìn)行“聚類(lèi)性”分析,統(tǒng)計(jì)在同一論文中兩兩同時(shí)出現(xiàn)的關(guān)鍵詞,從而構(gòu)建出60 × 60的“聚類(lèi)共詞矩陣”,通過(guò)這一矩陣的研究,非常清晰地顯示出“聚類(lèi)共詞矩陣”是一個(gè)對(duì)稱(chēng)矩陣,其中位于矩陣對(duì)角線(xiàn)上的數(shù)據(jù)顯示的是某關(guān)鍵詞自身一同出現(xiàn)的頻次,這個(gè)一同出現(xiàn)的現(xiàn)象就實(shí)質(zhì)來(lái)說(shuō),就是論文之間的相關(guān)度,對(duì)于非對(duì)角線(xiàn)上的數(shù)據(jù),則表示不同關(guān)鍵詞之間的共現(xiàn)頻次。通過(guò)這個(gè)矩陣可以從另一個(gè)側(cè)反題出,關(guān)鍵詞分布既有交叉、相互滲透又具有群組分布的獨(dú)立性。通過(guò)Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識(shí)管理”為124次,“電子商務(wù)”為106次,“競(jìng)爭(zhēng)情報(bào)”為101次,“高校圖書(shū)館”為98次,“信息服務(wù)”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學(xué)圖書(shū)館”為83次,“信息資源”為81次,“電子政務(wù)”為79次,“知識(shí)共享”為72次,“數(shù)據(jù)倉(cāng)庫(kù)”為66次。由此可以看出,在國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文的研究主題中,當(dāng)前基于數(shù)字化、信息化、電子化的知識(shí)管理與數(shù)據(jù)挖掘是個(gè)熱點(diǎn),同時(shí)也說(shuō)明我國(guó)情報(bào)學(xué)教育研究的領(lǐng)域在不斷拓寬。

綜合以上,關(guān)注獨(dú)特關(guān)鍵詞下國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文研究的學(xué)科結(jié)構(gòu)特點(diǎn),獲得了基于高頻關(guān)鍵詞的國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn),以及基于聚類(lèi)共詞的國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文特點(diǎn),通過(guò)對(duì)研究結(jié)果的比較分析,得出了一些有較為充足理由支撐的結(jié)論,那就是從中可以較為清晰地得出,當(dāng)前以及今后一段時(shí)期國(guó)內(nèi)圖書(shū)情報(bào)領(lǐng)域碩士學(xué)位論文研究的側(cè)重點(diǎn)在于“數(shù)字化、信息化、電子化的知識(shí)管理與數(shù)據(jù)信息挖掘”。

參考文獻(xiàn)

[1]曾學(xué)喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系構(gòu)建[J].情報(bào)理論與實(shí)踐,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

第5篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

【關(guān)鍵詞】葉貝斯分類(lèi) 數(shù)據(jù)挖掘 個(gè)性化學(xué)習(xí) 學(xué)習(xí)風(fēng)格

網(wǎng)絡(luò)環(huán)境下的個(gè)性化學(xué)習(xí)是以學(xué)生作為教育系統(tǒng)的中心與教育服務(wù)主體。在個(gè)性化的教育系統(tǒng)中我們?cè)跔I(yíng)造數(shù)字學(xué)習(xí)氛圍的同時(shí)要強(qiáng)調(diào)并堅(jiān)持學(xué)生的主體地位,開(kāi)展個(gè)性化學(xué)習(xí),把它看作是一種探索式性、實(shí)踐性、創(chuàng)造性的學(xué)習(xí)。實(shí)現(xiàn)網(wǎng)絡(luò)個(gè)性化學(xué)習(xí)的關(guān)鍵在于根據(jù)學(xué)習(xí)者的信息數(shù)據(jù)分析提取個(gè)性化特征,進(jìn)而實(shí)現(xiàn)對(duì)學(xué)習(xí)者的個(gè)性化推薦或教學(xué)指導(dǎo)。

本文針對(duì)目前網(wǎng)絡(luò)學(xué)習(xí)系統(tǒng)中存在的個(gè)性化單一與實(shí)現(xiàn)難度大的問(wèn)題,利用葉貝斯分類(lèi)算法解決學(xué)習(xí)風(fēng)格分類(lèi)問(wèn)題,讓學(xué)生更深入的了解自己的學(xué)習(xí)模式與需求,實(shí)現(xiàn)真正自主式、個(gè)性化學(xué)習(xí)。

1 數(shù)據(jù)挖掘與分類(lèi)

1995年,美國(guó)計(jì)算機(jī)學(xué)會(huì)(Association for Computing Machinery ,簡(jiǎn)稱(chēng)ACM)組織提出了數(shù)據(jù)挖掘(Data Mining)概念。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先未知的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘又稱(chēng)為數(shù)據(jù)庫(kù)中知識(shí)挖掘(Knowledge Discovery in Databases)、知識(shí)提取(Knowledge Extraction)、數(shù)據(jù)采礦等。

數(shù)據(jù)挖掘是一個(gè)跨學(xué)科技術(shù)領(lǐng)域,它是數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)可視化、信息提取、并行計(jì)算和分布式計(jì)算等多個(gè)學(xué)科結(jié)合的產(chǎn)物。發(fā)現(xiàn)潛在未知的規(guī)則,是數(shù)據(jù)挖掘的重要特征也是它的目標(biāo),它與數(shù)據(jù)分析的差別在于數(shù)據(jù)分析通常從一個(gè)假設(shè)出發(fā),通過(guò)建立方程、模型來(lái)驗(yàn)證假設(shè)是否成立,而數(shù)據(jù)挖掘則是直接挖掘信息之中隱藏的規(guī)律,發(fā)現(xiàn)新的知識(shí)。

分類(lèi)是常用的數(shù)據(jù)挖掘手段之一。它是將一組組個(gè)體分門(mén)別類(lèi)的歸入預(yù)先設(shè)定的幾個(gè)類(lèi)中。分類(lèi)的目的是建立一個(gè)分類(lèi)模型,該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到類(lèi)別中的某一個(gè)類(lèi)別。常用的分類(lèi)方法有:決策樹(shù)分類(lèi)方法、貝葉斯分類(lèi)方法和規(guī)則歸納方法。

2 應(yīng)用葉貝斯分類(lèi)算法判定學(xué)習(xí)風(fēng)格

學(xué)習(xí)風(fēng)格是指學(xué)習(xí)者一貫持續(xù)的帶有個(gè)性特征的學(xué)習(xí)方式,它是學(xué)習(xí)傾向和學(xué)習(xí)策略的總和。學(xué)習(xí)風(fēng)格是個(gè)體在長(zhǎng)期的學(xué)習(xí)過(guò)程中逐漸形成的,受特定的家庭、教育和社會(huì)文化的影響,通過(guò)個(gè)體自身長(zhǎng)期的學(xué)習(xí)活動(dòng)而形成,具有鮮明的個(gè)性特征。心理學(xué)認(rèn)為人有七種學(xué)習(xí)風(fēng)格:Linguistic(語(yǔ)言)、Logical(邏輯)、Visual(視覺(jué))、Musical(音樂(lè))、Kinesthetic(動(dòng)覺(jué))、Intrapersonal(內(nèi)?。┡cInterpersonal(人際)。使用葉貝斯分類(lèi)算法我們可以通過(guò)分析學(xué)習(xí)記錄,獲得學(xué)生的學(xué)習(xí)風(fēng)格。 葉貝斯分類(lèi)算法基于貝葉斯定理,應(yīng)用于文本分類(lèi)時(shí),通過(guò)計(jì)算文本屬于每個(gè)類(lèi)別的概率.將該文本歸為概率最大的一類(lèi)中。

2.1 樸素貝葉斯分類(lèi)和貝葉斯網(wǎng)絡(luò)

貝葉斯定理是關(guān)于隨機(jī)事件A和B的條件概率和邊緣概率的一則定理。

P(A|B) = P(A^B) / P(B) = P(A)*P(B|A) / P(B)

其中P(A|B)表示在B發(fā)生的情況下A發(fā)生的可能性。其中P(A)是A的先驗(yàn)概率或邊緣概率。(A|B)是已知B發(fā)生后A的條件概率, P(B|A)是已知A發(fā)生后B的條件概率, P(B)是B的先驗(yàn)概率或邊緣概率,也作標(biāo)準(zhǔn)化常量。由此,貝葉斯定理可表述為:

后驗(yàn)概率 = (相似度*先驗(yàn)概率)/標(biāo)準(zhǔn)化常量

由于,比例P(B|A)/P(B)也有時(shí)被稱(chēng)作標(biāo)準(zhǔn)相似度,所以貝葉斯定理又可表述為:

后驗(yàn)概率 = 標(biāo)準(zhǔn)相似度*先驗(yàn)概率

貝葉斯分類(lèi)方法是基于貝葉斯定理的,樸素貝葉斯(Naive Bayes)和貝葉斯網(wǎng)絡(luò)(Bayesian Networks)看作是兩種不同情形下的分類(lèi)方法。

2.1.1 樸素貝葉斯分類(lèi)

樸素貝葉斯分類(lèi)方法是一個(gè)基于概率的分類(lèi)方法,它通過(guò)計(jì)算后驗(yàn)證概率的方法來(lái)確定所屬類(lèi)別的概率。

Vj屬于V集合, 其中Vmap是給定一個(gè)example,得到的最可能的目標(biāo)值。其中a1...an是這個(gè)example里面的屬性。這里面,Vmap目標(biāo)值,就是后面計(jì)算得出的概率最大的一個(gè).所以用max 來(lái)表示。

樸素貝葉斯分類(lèi)默認(rèn)基于一個(gè)簡(jiǎn)單的假定:給定目標(biāo)值時(shí)屬性之間相互條件獨(dú)立。因此,該假定說(shuō)明給定實(shí)力的目標(biāo)值情況下。觀(guān)察到聯(lián)合的a1,a2...an的概率正好是對(duì)每個(gè)通過(guò)概率計(jì)算,從待分類(lèi)的樣本數(shù)據(jù)的屬性 a1,a2,...,an 中求出最可能的分類(lèi)目標(biāo)值,即計(jì)算各類(lèi) Vj∈ V對(duì)于這組屬性的條件概率 P(Vj|al,a2,...,an),其中j=1,2,...m(類(lèi)別標(biāo)識(shí)數(shù)),并輸出條件概率最大的類(lèi)別標(biāo)識(shí)作為該樣本數(shù)據(jù)的所屬類(lèi)別。這個(gè)假設(shè)是樸素貝葉斯不同于貝葉斯網(wǎng)絡(luò)等其它貝葉斯分類(lèi)算法的根本,也是樸素貝葉斯這個(gè)名稱(chēng)的由來(lái)。

2.1.2 貝葉斯網(wǎng)絡(luò)

在實(shí)際應(yīng)用中,大多數(shù)情況下不支持樸素貝葉斯的假設(shè),即各特征并非彼此獨(dú)立,此情況下可以使用貝葉斯網(wǎng)絡(luò)進(jìn)行分類(lèi)。

貝葉斯網(wǎng)絡(luò)是根據(jù)變量之間的依賴(lài)關(guān)系,使用圖論方法表示變量集合的聯(lián)合概率分布的圖形模型,它引入了一個(gè)有向無(wú)環(huán)圖(Directed Acyclic Graph)和一個(gè)條件概率表集合。DAG的結(jié)點(diǎn)v包括隨機(jī)變量(類(lèi)別和特征),有向連接E(A->B)表示結(jié)點(diǎn)A是結(jié)點(diǎn)B的parent,且B與A是有依賴(lài)關(guān)系的。同時(shí)引入了一個(gè)條件性獨(dú)立(conditional independence)概念:即圖中任意結(jié)點(diǎn)v在給定v的parent結(jié)點(diǎn)的情況下,與圖中其它結(jié)點(diǎn)都是獨(dú)立的,也就是說(shuō)P(v|par(v),x1,x2...,xn) = P(v|par(v))。這里par(v)表示v的parent結(jié)點(diǎn)集,x1,x2,...,xn表示圖中其它結(jié)點(diǎn)。如果已知所有聯(lián)合概率值(joint distribution),那么就可以解決任何形式的概率問(wèn)題。但現(xiàn)實(shí)中的特征集合數(shù)量過(guò)多(>10),幾乎無(wú)法通過(guò)統(tǒng)計(jì)得到。所以,這個(gè)問(wèn)題要通過(guò)條件獨(dú)立的概念來(lái)對(duì)各條件概率值進(jìn)行優(yōu)化來(lái)解決。貝葉斯網(wǎng)絡(luò)的建模有兩個(gè)步驟:創(chuàng)建網(wǎng)格結(jié)構(gòu)與估計(jì)每一個(gè)結(jié)點(diǎn)的概率表中的概率值。

2.2 貝葉斯分類(lèi)過(guò)程

在本學(xué)習(xí)系統(tǒng)中,主要使用樸素貝葉斯分類(lèi)方法對(duì)網(wǎng)絡(luò)學(xué)習(xí)某一體育課程的學(xué)習(xí)者的學(xué)習(xí)風(fēng)格進(jìn)行分類(lèi)。

2.2.1 建立樣本數(shù)據(jù)

根據(jù)體育學(xué)科的學(xué)習(xí)特點(diǎn),我們可以把學(xué)習(xí)者的學(xué)習(xí)風(fēng)格簡(jiǎn)要概括為視覺(jué)型(V)、語(yǔ)言型(L)和動(dòng)覺(jué)型(K)。把每一個(gè)學(xué)習(xí)者看作一個(gè)矢量 S,學(xué)習(xí)者的每一次學(xué)習(xí)記錄作為屬性 Ai,學(xué)習(xí)者的風(fēng)格(視覺(jué)型、聽(tīng)覺(jué)型和動(dòng)覺(jué)型)作為可能的類(lèi)別 C,對(duì)于隨機(jī)分類(lèi)向量S={a1,a2,…,an},由此知道 s對(duì)每個(gè)類(lèi)別的概率P( Ci|S)分布,其中P( Ci|S) 由貝葉斯公式P( Ci|S)=P( S|Ci)P(Ci )/P(S ) 計(jì)算得到,概率最大的那個(gè)就是 s的預(yù)測(cè)類(lèi)別。

當(dāng)學(xué)生登入系統(tǒng)時(shí),系統(tǒng)首先根據(jù)學(xué)號(hào)查看學(xué)習(xí)風(fēng)格數(shù)據(jù)庫(kù)中是否有該生的學(xué)習(xí)風(fēng)格類(lèi)型記錄,如果有,系統(tǒng)則推薦學(xué)生適合其風(fēng)格的學(xué)習(xí)內(nèi)容,如果無(wú),則系統(tǒng)將學(xué)習(xí)者這次學(xué)習(xí)的學(xué)習(xí)記錄保存在學(xué)生學(xué)習(xí)記錄庫(kù)的學(xué)習(xí)過(guò)程數(shù)據(jù)表中。

經(jīng)過(guò)數(shù)據(jù)預(yù)處理,我們可以確保建模的數(shù)據(jù)是正確有效的。分析處理中我們需要得到分類(lèi)模型需要的訓(xùn)練樣本集的相關(guān)屬性,包括文本學(xué)習(xí)次數(shù)(T)、視頻學(xué)習(xí)次數(shù)(V)、活動(dòng)次數(shù)(A)、文本學(xué)習(xí)平均成績(jī)(TS)、視頻學(xué)習(xí)平均成績(jī)(VS)、活動(dòng)成績(jī)(AS)、學(xué)習(xí)風(fēng)格類(lèi)型(S)。當(dāng)學(xué)生登錄次數(shù)達(dá)到某值時(shí),系統(tǒng)自動(dòng)將這些屬性值計(jì)算并存儲(chǔ)。在分析訓(xùn)練樣本時(shí)我們把學(xué)習(xí)次數(shù)屬性值分為10 三個(gè)區(qū)間,將成績(jī)分為 A(90-100) 、B(75-89)、 C(60-74)、 D(< 60)。樸素貝葉斯分類(lèi)法對(duì)于學(xué)習(xí)次數(shù)和學(xué)習(xí)成績(jī)這類(lèi)連續(xù)屬性的類(lèi)條件概率計(jì)算,一是把連續(xù)的屬性用相應(yīng)的離散區(qū)間替換進(jìn)而離散化,或是通過(guò)訓(xùn)練數(shù)據(jù)估計(jì)分布的參數(shù)。

2.2.2 建立學(xué)習(xí)風(fēng)格建模

根據(jù)貝葉斯的最大后驗(yàn)準(zhǔn)則,對(duì)任一未知樣本 s={a1,a2,…,an},確定后驗(yàn)概率 P(Cj| a1,a2,…,an),把最大的類(lèi)確定為該樣本的學(xué)習(xí)風(fēng)格。具體步驟為:

(1)計(jì)算得到每一種學(xué)習(xí)風(fēng)格類(lèi)型的先驗(yàn)概率P(Ci )。

(2)相對(duì)于每個(gè)類(lèi)別的概率 P(aj|ci),訓(xùn)練樣本集計(jì)算得出各屬性的所有取值。

(3)計(jì)算出未知樣本對(duì)三種類(lèi)別的概率,選取概率最大的類(lèi)別為學(xué)生的學(xué)習(xí)風(fēng)格類(lèi)型。

其中,建立學(xué)習(xí)風(fēng)格分類(lèi)模型最關(guān)鍵的步驟就是建立訓(xùn)練樣本集。見(jiàn)表2-1。

2.2.3 建立算法

根據(jù)上述分析,設(shè)計(jì)算法如下:

初始化訓(xùn)練集D;計(jì)算每個(gè)學(xué)習(xí)風(fēng)格類(lèi)型的先驗(yàn)概率

由上述算法得出概率最大的類(lèi)別為學(xué)生的學(xué)習(xí)風(fēng)格類(lèi)型。

3 結(jié)論

本文將葉貝斯算法應(yīng)用在判定學(xué)習(xí)者的學(xué)習(xí)風(fēng)格中,發(fā)現(xiàn)了學(xué)生的學(xué)習(xí)成績(jī)、學(xué)習(xí)興趣與學(xué)習(xí)風(fēng)格之間的潛在聯(lián)系。經(jīng)過(guò)實(shí)際應(yīng)用發(fā)現(xiàn)當(dāng)樸素貝葉斯分類(lèi)的假定條件成立時(shí),它是一種非常精確的分類(lèi)方法。 使用貝葉斯分類(lèi)對(duì)系統(tǒng)中的學(xué)習(xí)者的學(xué)習(xí)風(fēng)格進(jìn)行分類(lèi),其特點(diǎn)主要有:

(1)它結(jié)合了概率與貝葉斯網(wǎng)絡(luò)的分類(lèi)方法,可以利用領(lǐng)域知識(shí)和其它先驗(yàn)信息,計(jì)算假設(shè)概率。

(2)可以把所有的屬性都參與分類(lèi)。

(3)針對(duì)離散屬性的對(duì)象進(jìn)行分析。

(4)數(shù)據(jù)樣本可以增加也可以減少,這樣可以進(jìn)行增量學(xué)習(xí)。

(5)利用有向圖的表示方式非常直觀(guān),弧表示變量之間的關(guān)系。

參考文獻(xiàn)

[1]田文詩(shī).基于學(xué)習(xí)者行為的序列模式挖掘算法研究與實(shí)現(xiàn)[D].碩士學(xué)位論文,吉林:吉林大學(xué),2011(05).

[2]鄧暉、徐梅林.網(wǎng)絡(luò)學(xué)習(xí)環(huán)境之個(gè)性化屬性調(diào)查及啟示[J].現(xiàn)代教育技術(shù),2003.13(1):49-54.

[3]凌江榮.在e_Learning中建立自適應(yīng)學(xué)習(xí)路徑的研究[D].碩士學(xué)位論文,湖南:湘潭大學(xué),2007.

[4]田曉輝.基于Web的個(gè)性化學(xué)習(xí)系統(tǒng)在遠(yuǎn)程教育中的應(yīng)用研究[D].碩士學(xué)位論文,西安:陜西師范大學(xué),2007.

[5]史春秀.基于數(shù)據(jù)挖掘的個(gè)性化學(xué)習(xí)系統(tǒng)的研究[D].碩士學(xué)位論文,天津:天津大學(xué),2007.

[6]王志平.基于數(shù)據(jù)挖掘技術(shù)的個(gè)性化學(xué)習(xí)系統(tǒng)的研究[D].碩士學(xué)位論文,重慶:重慶大學(xué),2007.

作者單位

第6篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

>> 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的個(gè)性化電子商務(wù)推薦系統(tǒng)研究 基于大數(shù)據(jù)的社團(tuán)個(gè)性化推薦系統(tǒng) 基于swarm平臺(tái)和社交網(wǎng)絡(luò)的電子商務(wù)個(gè)性化推薦系統(tǒng)仿真模型的理論構(gòu)建 網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化推薦中的應(yīng)用研究 基于個(gè)性化推薦的網(wǎng)絡(luò)營(yíng)銷(xiāo) 基于數(shù)據(jù)挖掘的電子政務(wù)個(gè)性化推薦服務(wù)框架研究 基于數(shù)據(jù)挖掘的個(gè)性化智能推薦系統(tǒng)應(yīng)用研究 基于社交網(wǎng)絡(luò)的個(gè)性化知識(shí)服務(wù)模型研究 基于免疫進(jìn)化的網(wǎng)絡(luò)教學(xué)資源個(gè)性化推薦系統(tǒng)研究 移動(dòng)社會(huì)網(wǎng)絡(luò)中基于位置的個(gè)性化餐館推薦建模研究 基于IPTV的個(gè)性化推薦技術(shù)的研究 個(gè)性化好友推薦系統(tǒng)在社交網(wǎng)站上的應(yīng)用研究 基于社交網(wǎng)絡(luò)的社會(huì)化推薦算法研究 基于個(gè)性化混合推薦算法的網(wǎng)絡(luò)推薦系統(tǒng) 基于數(shù)據(jù)挖掘的個(gè)性化推薦在SNS中的應(yīng)用 基于Web使用數(shù)據(jù)挖掘的個(gè)性化推薦系統(tǒng)設(shè)計(jì) 基于小數(shù)據(jù)的高校圖書(shū)館個(gè)性化推薦 基于個(gè)性化推薦學(xué)習(xí)的網(wǎng)絡(luò)培訓(xùn)教學(xué)課程平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn) 基于網(wǎng)絡(luò)學(xué)習(xí)行為的個(gè)性化評(píng)價(jià)研究 社會(huì)化標(biāo)簽系統(tǒng)中基于本體的個(gè)性化推薦方法研究 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:l

[2]張婷婷. 社會(huì)化網(wǎng)絡(luò)中人際關(guān)系與人際傳播研究[D].長(zhǎng)沙:湖南大學(xué),碩士學(xué)位論文,2012

[3]王萍. 社會(huì)化網(wǎng)絡(luò)的信息擴(kuò)散研究[J]. 情報(bào)雜志,2009,28(10):39-42

第7篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

Abstract: With the increasingly fierce market competition and the rapid development of computer technology, application of data mining technology in the coal trade management system is particularly important. In this paper, combining today's more popular data mining techniques, using linear regression and the weighted moving average algorithm ,sales were predicted.

關(guān)鍵詞: 煤炭貿(mào)易管理系統(tǒng);數(shù)據(jù)挖掘;線(xiàn)性回歸;加權(quán)移動(dòng)平均

Key words: coal trade management systems;data mining; linear regression;weighted moving average

中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1006-4311(2010)08-0123-02

0引言

當(dāng)前國(guó)內(nèi)開(kāi)發(fā)的大多數(shù)煤炭管理系統(tǒng)是為公司管理煤炭業(yè)務(wù)而開(kāi)發(fā),只能實(shí)現(xiàn)數(shù)據(jù)錄入、分類(lèi)查詢(xún)信息、匯總信息、定時(shí)發(fā)送短信息等功能。決策結(jié)果只能是基于決策者的直覺(jué)而不是數(shù)據(jù)庫(kù)中豐富的信息。為此數(shù)據(jù)挖掘技術(shù)的應(yīng)用基于此而產(chǎn)生。國(guó)內(nèi)將數(shù)據(jù)挖掘應(yīng)用于煤炭貿(mào)易的例子并不多見(jiàn)。本文將分別利用線(xiàn)性回歸和加權(quán)一次移動(dòng)平均算法對(duì)煤炭年度銷(xiāo)售進(jìn)行預(yù)測(cè)。

1數(shù)據(jù)挖掘技術(shù)簡(jiǎn)述

1.1 數(shù)據(jù)挖掘的概念數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們預(yù)先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。

1.2 數(shù)據(jù)挖掘的方法

1.2.1 分類(lèi)法分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,并用這種描述來(lái)構(gòu)造模型,一般用規(guī)則或決策樹(shù)模式表示(該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類(lèi)別中的某一個(gè))。

1.2.2 關(guān)聯(lián)分析法關(guān)聯(lián)分析是指在數(shù)據(jù)庫(kù)中尋找值的相似性,一般用支持度和可信度兩個(gè)閾值來(lái)度量關(guān)聯(lián)規(guī)則的相關(guān)性。

1.2.3 聚類(lèi)分析法我們將數(shù)據(jù)庫(kù)中的數(shù)據(jù)分組成為由類(lèi)似的數(shù)據(jù)組成的多個(gè)類(lèi)的過(guò)程稱(chēng)為聚類(lèi),由聚類(lèi)生成的每個(gè)類(lèi)是一組數(shù)據(jù)的集合,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。

1.2.4 預(yù)測(cè)法預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè)。典型的預(yù)測(cè)方法是回歸分析,即用大量的歷史數(shù)據(jù),以時(shí)間為變量建立回歸方程。

1.2.5 時(shí)序模式法時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式,與回歸一樣,它也是用已知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值。

2二元線(xiàn)性回歸法應(yīng)用研究

基本過(guò)程是先建立數(shù)據(jù)倉(cāng)庫(kù),提取分析要用的數(shù)據(jù)源,進(jìn)行數(shù)據(jù)處理后,利用大量數(shù)據(jù),建立線(xiàn)性回歸模型,得出銷(xiāo)售量與顧客購(gòu)買(mǎi)頻率和年份影響因素之間的聯(lián)系,然后通過(guò)找出的規(guī)律可以預(yù)測(cè)煤炭在下個(gè)年度銷(xiāo)售量,從而保證供應(yīng)。下面我們以二元線(xiàn)性回歸分析預(yù)測(cè)法為例,說(shuō)明多元線(xiàn)性回歸分析預(yù)測(cè)法的應(yīng)用。

二元線(xiàn)性回歸分析預(yù)測(cè)法,是根據(jù)兩上自變量與一個(gè)因變量相關(guān)關(guān)系進(jìn)行預(yù)測(cè)的方法。二元線(xiàn)性回歸方程的公式為:=a+bx+bx

式(1)中::因變量;x、x:兩個(gè)不同自變量,即與因變量有緊密聯(lián)系的影響因素。

a、b、b:是線(xiàn)性回歸方程的參數(shù)。a、b、b是通過(guò)解下列的方程組來(lái)得到。

∑y=na+b∑x+b∑x

∑xy=a∑x+b∑x+b∑xx

∑xy=a∑x+b∑xx+b∑x

本文主要通過(guò)公司運(yùn)營(yíng)時(shí)間預(yù)測(cè)顧客購(gòu)買(mǎi)頻率分,進(jìn)而找出方法來(lái)發(fā)展客戶(hù)群,再根據(jù)年份和顧客購(gòu)買(mǎi)頻率分預(yù)測(cè)年度銷(xiāo)售量,若預(yù)計(jì)2007年煤炭銷(xiāo)售量,首先用一元回歸分析預(yù)測(cè)法預(yù)測(cè)2007年顧客購(gòu)買(mǎi)頻率分,再用二元回歸分析預(yù)測(cè)法預(yù)測(cè)2007年煤炭銷(xiāo)售量。

從表1中可以看出煤炭銷(xiāo)售量同年份和顧客購(gòu)買(mǎi)頻率有一定關(guān)系,可試用二元線(xiàn)性回歸預(yù)測(cè)法進(jìn)行預(yù)測(cè)。其具體過(guò)程如下:

Y:煤炭銷(xiāo)售總量;(單位:噸)x1:年份(單位:年) ;x2:顧客購(gòu)買(mǎi)頻率(單位:分)

2.1 解下列方程組,求a、b、b參數(shù) ,把有關(guān)數(shù)據(jù)代入上面方程組,解方程組得:a=13.4517,b=-0.0186,c=1.3101

由此建立的二元線(xiàn)性回歸方程為:

=a+bx+bx=13.4517-0.0186x+1.3101x

這個(gè)回歸方程必須經(jīng)過(guò)檢驗(yàn)才能作為預(yù)測(cè)模型。

2.2求相關(guān)系數(shù),二元線(xiàn)性回歸方程的相關(guān)系數(shù)公式如下:

γ=

為了計(jì)算相關(guān)系數(shù)γ,需列表計(jì)算∑(Y-)和∑(Y-)

===84.21把表2、3有關(guān)數(shù)據(jù)代入式

γ===0.987

相關(guān)系數(shù)為0.987,說(shuō)明自變量X1、X2與因變量Y之間有高度相關(guān)關(guān)系。

2.3 作回歸標(biāo)準(zhǔn)差檢驗(yàn)

S===9.32、==0.01106=11.06%

由此說(shuō)明二元線(xiàn)性回歸方程=13.4517-0.0186x1+1.3101x2用于預(yù)測(cè),有較高的精確度。

2.4 計(jì)算預(yù)測(cè)值當(dāng)年份為2007年,采用一元回歸分析預(yù)測(cè)法預(yù)測(cè)顧客購(gòu)買(mǎi)頻率分,用最小二乘法求解α,β;β=15.32,α=13.385,由此建立的一元線(xiàn)性回歸方程為:=α+βx=13.385+15.32x;

當(dāng)2007年公司運(yùn)營(yíng)時(shí)間為9年時(shí),預(yù)測(cè)顧客購(gòu)買(mǎi)頻率分為151。依據(jù)題意,x1=2007,x2=151,將它們代入二元線(xiàn)性回歸方程。

=13.4517-0.0186×2007+1.3101×151=173.9466

因此該年度煤炭需求預(yù)測(cè)值為173.9466萬(wàn)噸。

3加權(quán)一次移動(dòng)平均預(yù)測(cè)法的應(yīng)用研究及改進(jìn)

設(shè){yt}為時(shí)間序列,取移動(dòng)平均的項(xiàng)數(shù)為n,設(shè)yt是第t期的實(shí)際值,則第t+1期的預(yù)測(cè)值的計(jì)算公式為:

=

說(shuō)明:項(xiàng)數(shù)n的取值應(yīng)該根據(jù)時(shí)間序列的特點(diǎn)而定, n大:降低移動(dòng)平均數(shù)的敏感性,影響預(yù)測(cè)的準(zhǔn)確性,n小:移動(dòng)平均數(shù)易受隨機(jī)變動(dòng)影響,難以反映實(shí)際趨勢(shì), 一般:n的大小能包含季節(jié)變動(dòng)和周期變動(dòng)的時(shí)期較好。

針對(duì)煤炭銷(xiāo)售的歷史數(shù)據(jù)特點(diǎn),數(shù)據(jù)是逐漸遞增的規(guī)律,經(jīng)過(guò)反復(fù)訓(xùn)練使n=1合理,也就是說(shuō)結(jié)果只與上個(gè)周期有關(guān)。

Wi表示權(quán)重。如何選擇權(quán)數(shù)Wi?

M=S-S1=646.08 S為前8年總銷(xiāo)售量,S1為1999年銷(xiāo)售量;N=S-S2=518.38 S為前8年總銷(xiāo)售量,S2為2006年銷(xiāo)售量;W1=M:N=1.2463

針對(duì)煤炭企業(yè)數(shù)據(jù)特點(diǎn)對(duì)原始模型進(jìn)行改進(jìn)后如下:

=W1Y2006

因此2007年銷(xiāo)售量為Y2007=WY2006=1.2463×155.3=193.5504,由于此預(yù)測(cè)模型只和銷(xiāo)售序列有關(guān),沒(méi)有考慮其他影響因素,此預(yù)測(cè)模型的誤差較大,所以不如二元線(xiàn)性回歸分析法應(yīng)用效果好。但對(duì)于不同的煤炭企業(yè)不同的階段的銷(xiāo)售預(yù)測(cè)有著不同的參考價(jià)值。

由于國(guó)家能源產(chǎn)業(yè)政策和宏觀(guān)調(diào)控的影響,煤炭銷(xiāo)售情況受各種因素影響,并不是十分穩(wěn)定,因此本文介紹的二元線(xiàn)性回歸分析法和加權(quán)一次移動(dòng)平均預(yù)測(cè)法的數(shù)據(jù)挖掘技術(shù)應(yīng)用方法僅供煤炭貿(mào)易集團(tuán)和公司參考,同時(shí)也可為煤炭企業(yè)保證煤炭供應(yīng)起到?jīng)Q策的輔助作用。

參考文獻(xiàn):

[1]馮勤.基于回歸數(shù)據(jù)挖掘預(yù)測(cè)系統(tǒng)的分析與研究:[碩士學(xué)位論文].天津:天津大學(xué)電子信息工程學(xué)院,2005.

第8篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

有關(guān)計(jì)量經(jīng)濟(jì)學(xué)期末論文范文一:我國(guó)企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)的現(xiàn)狀與改革創(chuàng)新分析

在知識(shí)經(jīng)濟(jì)時(shí)展背景下,企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)工作也迎來(lái)了新一輪的發(fā)展機(jī)遇和挑戰(zhàn)。傳統(tǒng)的思維模式不僅無(wú)法滿(mǎn)足實(shí)際經(jīng)濟(jì)統(tǒng)計(jì)工作的需要,也阻礙著我國(guó)社會(huì)經(jīng)濟(jì)的進(jìn)一步發(fā)展。所以必須要針對(duì)當(dāng)前的經(jīng)濟(jì)統(tǒng)計(jì)工作現(xiàn)狀,進(jìn)行不斷的改革與創(chuàng)新,從而更好的適應(yīng)經(jīng)濟(jì)時(shí)代的發(fā)展。

一、企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)創(chuàng)新的重要性。

現(xiàn)代企業(yè)制度的確立,為我國(guó)企業(yè)發(fā)展迎來(lái)了新一輪發(fā)展機(jī)遇和挑戰(zhàn),也對(duì)企業(yè)管理工作提出更高的要求。企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)作為企業(yè)發(fā)展與進(jìn)步的重要輔助手段,不僅為企業(yè)管理者提供精準(zhǔn)的信息和決策依據(jù),也為企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)的順利進(jìn)行提供了有利的保障。企業(yè)管理水平的不斷提高,也為企業(yè)信息化建設(shè)帶來(lái)了一定的難度,而企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)工作包含了豐富的信息化活動(dòng)內(nèi)容,這就要求統(tǒng)計(jì)人員要不斷優(yōu)化企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)信息網(wǎng)絡(luò)的功能,促進(jìn)企業(yè)信息化建設(shè)得到充分的完善。企業(yè)發(fā)展詐略的制定和管理工作的順利開(kāi)展,也需要經(jīng)濟(jì)統(tǒng)計(jì)人員設(shè)置出更加科學(xué)合理的統(tǒng)計(jì)指標(biāo)體系,從而統(tǒng)計(jì)出更加精準(zhǔn)、完整的數(shù)據(jù)內(nèi)容,同時(shí)也為企業(yè)生產(chǎn)經(jīng)營(yíng)提供更加精準(zhǔn)的評(píng)估,從而促進(jìn)企業(yè)的全面發(fā)展。因此,經(jīng)濟(jì)統(tǒng)計(jì)的創(chuàng)新對(duì)企業(yè)的建設(shè)和發(fā)展有著至關(guān)重要的作用。

二、當(dāng)前企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)現(xiàn)狀。

一是很多企業(yè)統(tǒng)計(jì)制度不健全。當(dāng)前,很多企業(yè)都沒(méi)有建立起一套完整、統(tǒng)一的經(jīng)濟(jì)統(tǒng)計(jì)工作制度,使得企業(yè)工作人員無(wú)法得到精準(zhǔn)、完整的統(tǒng)一報(bào)表,統(tǒng)計(jì)臺(tái)賬和原始記錄也比較凌亂,企業(yè)管理者在制定發(fā)展戰(zhàn)略和決策時(shí)也無(wú)法得到高質(zhì)量的統(tǒng)計(jì)數(shù)據(jù)。同時(shí),一些新興的企業(yè)也在隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展在不斷壯大,在這些企業(yè)中,很大一部分都沒(méi)有建立起標(biāo)準(zhǔn)的企業(yè)統(tǒng)計(jì)制度,相應(yīng)的統(tǒng)計(jì)部門(mén)與人員也沒(méi)有進(jìn)行標(biāo)準(zhǔn)的劃分和合理的配置,統(tǒng)計(jì)報(bào)表也沒(méi)有專(zhuān)業(yè)的統(tǒng)計(jì)人員進(jìn)行報(bào)送,職員也沒(méi)有按照相應(yīng)的統(tǒng)計(jì)制度去開(kāi)展統(tǒng)計(jì)工作,進(jìn)行報(bào)表的計(jì)算和統(tǒng)計(jì)。

二是企業(yè)經(jīng)統(tǒng)計(jì)人員缺乏法制理念。在開(kāi)展統(tǒng)計(jì)工作過(guò)程中常常會(huì)遇到一些法律方面的問(wèn)題,但是很多企業(yè)的統(tǒng)計(jì)人員都沒(méi)有樹(shù)立正確的法制觀(guān)念,在統(tǒng)計(jì)中常常會(huì)為了自身利益,制造一些虛假數(shù)據(jù),甚至還有一部分企業(yè)為了逃避稅收而瞞報(bào)一些重要數(shù)據(jù),嚴(yán)重影響了數(shù)據(jù)的真實(shí)性和完整性,這樣的數(shù)據(jù)不僅無(wú)法得到人們的認(rèn)可和接受,也會(huì)給統(tǒng)計(jì)工作帶來(lái)一些不良影響。

三是相關(guān)企業(yè)統(tǒng)計(jì)人員的整體素質(zhì)有待提升。目前,很多企業(yè)都沒(méi)有重視起統(tǒng)計(jì)工作的重要性,統(tǒng)計(jì)人員也缺乏相應(yīng)的專(zhuān)業(yè)知識(shí)和統(tǒng)計(jì)經(jīng)驗(yàn),企業(yè)也沒(méi)有對(duì)相關(guān)統(tǒng)計(jì)人員進(jìn)行定期培訓(xùn),造成人員的知識(shí)結(jié)構(gòu)和思維模式無(wú)法得到及時(shí)的更新和優(yōu)化。而在開(kāi)展實(shí)際工作時(shí),由于統(tǒng)計(jì)人員的專(zhuān)業(yè)素質(zhì)和工作水平一直無(wú)法得到顯著的提升,運(yùn)用的統(tǒng)計(jì)方法也難以符合企業(yè)發(fā)展要求,統(tǒng)計(jì)工作也難以順利進(jìn)行,導(dǎo)致企業(yè)統(tǒng)計(jì)信息不斷弱化,也使得企業(yè)統(tǒng)計(jì)工作無(wú)法發(fā)揮最大限度的積極作用。

四是企業(yè)統(tǒng)計(jì)工作手段缺乏創(chuàng)新性。隨著信息經(jīng)濟(jì)時(shí)代的發(fā)展,對(duì)統(tǒng)計(jì)信息的時(shí)效性、準(zhǔn)確的要求也在不斷提高,但是目前很多企業(yè)的統(tǒng)計(jì)手段都沒(méi)有得到及時(shí)的優(yōu)化,企業(yè)也沒(méi)有為統(tǒng)計(jì)部門(mén)配備符合工作要求的辦公設(shè)備,不僅使統(tǒng)計(jì)部門(mén)提供的數(shù)據(jù)的時(shí)效性和準(zhǔn)確性無(wú)法得到應(yīng)有的保障,也導(dǎo)致企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)工作的質(zhì)量和效率一直無(wú)法取得顯著的提高。

同時(shí),還有很多企業(yè)沒(méi)有正確認(rèn)識(shí)到統(tǒng)計(jì)工作的積極作用,認(rèn)為經(jīng)濟(jì)統(tǒng)計(jì)只是對(duì)一些數(shù)據(jù)進(jìn)行簡(jiǎn)單的整理,如數(shù)據(jù)報(bào)表的制作和填寫(xiě)等這種簡(jiǎn)單的統(tǒng)計(jì)工作,造成企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)工作常常缺乏真實(shí)和完整性,也有很多企業(yè)由于嚴(yán)重缺乏統(tǒng)計(jì)方面的人才,也沒(méi)有設(shè)立專(zhuān)門(mén)的統(tǒng)計(jì)部門(mén),使得很多企業(yè)逐漸忽略了統(tǒng)計(jì)部門(mén)和開(kāi)展統(tǒng)計(jì)工作的重要性。

三、企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)創(chuàng)新的內(nèi)容分析。

(一)統(tǒng)計(jì)思維理念方面的創(chuàng)新。

傳統(tǒng)的統(tǒng)計(jì)理念早已無(wú)法適應(yīng)信息時(shí)代背景下企業(yè)的發(fā)展需求,因此,企業(yè)必須要樹(shù)立正確的科學(xué)發(fā)展理念,并將其作為開(kāi)展企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)工作的重要理論依據(jù),而我們也必須要正視經(jīng)濟(jì)統(tǒng)計(jì)工作中的種種問(wèn)題,并分析總結(jié)出問(wèn)題的成因,通過(guò)定期的專(zhuān)業(yè)培訓(xùn),使統(tǒng)計(jì)人員的專(zhuān)業(yè)素質(zhì)和統(tǒng)計(jì)水平得到不斷提升,還要制定出一套完整的工作規(guī)范,并要求統(tǒng)計(jì)人員嚴(yán)格按照制度規(guī)范開(kāi)展統(tǒng)計(jì)工作,同時(shí)還要根據(jù)實(shí)際統(tǒng)計(jì)工作情況,建立其合理的獎(jiǎng)懲機(jī)制,從而充分調(diào)動(dòng)起統(tǒng)計(jì)人員工作的積極性和責(zé)任心,多為職員提供學(xué)習(xí)和實(shí)踐的機(jī)會(huì),促進(jìn)統(tǒng)計(jì)人員的全面發(fā)展,也確保統(tǒng)計(jì)工作能夠順利進(jìn)行。

(二)統(tǒng)計(jì)內(nèi)容方面的創(chuàng)新。

統(tǒng)計(jì)內(nèi)容方面的創(chuàng)新,主要體現(xiàn)在企業(yè)活動(dòng)條件、企業(yè)投入和產(chǎn)出統(tǒng)計(jì)等方面的基本內(nèi)容的補(bǔ)充和拓展,同時(shí)還要將一些已經(jīng)過(guò)時(shí)的、沒(méi)有實(shí)質(zhì)價(jià)值的原始憑證,以及一些與實(shí)際情況不符的數(shù)據(jù),進(jìn)行適當(dāng)?shù)娜∩?,同時(shí)還要將信息化、網(wǎng)絡(luò)化的企業(yè)虛擬運(yùn)作統(tǒng)計(jì)真實(shí)的呈現(xiàn)出來(lái),使統(tǒng)計(jì)人員的工作創(chuàng)造力得到充分的發(fā)揮,也將人本主義的企業(yè)文化統(tǒng)計(jì)充分反映出來(lái)。

(三)統(tǒng)計(jì)功能和方法方面的創(chuàng)新。

企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)方面的創(chuàng)新主要體現(xiàn)在完整的企業(yè)統(tǒng)計(jì)指標(biāo)體系的建立。評(píng)價(jià)功能的創(chuàng)新,其功能主要是對(duì)企業(yè)生產(chǎn)經(jīng)營(yíng)過(guò)程進(jìn)行詳細(xì)分析和評(píng)估,并且能夠?yàn)槠髽I(yè)的發(fā)展戰(zhàn)略和重要決策的制定提供更加精準(zhǔn)的判斷標(biāo)準(zhǔn)與評(píng)估數(shù)據(jù),其積極作用主要體現(xiàn)在企業(yè)生產(chǎn)經(jīng)營(yíng)活動(dòng)過(guò)程中。分析功能的創(chuàng)新,主要是指企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)人員能夠利用先進(jìn)的統(tǒng)計(jì)軟件,以及科學(xué)有效的統(tǒng)計(jì)手段,對(duì)企業(yè)經(jīng)濟(jì)的發(fā)展現(xiàn)狀和未來(lái)的發(fā)展趨勢(shì)進(jìn)行合理的分析和評(píng)估。而企業(yè)統(tǒng)計(jì)方法的創(chuàng)新則要求統(tǒng)計(jì)人員,要充分整合先進(jìn)的科學(xué)技術(shù),如:信息技術(shù)、網(wǎng)絡(luò)技術(shù)等,通過(guò)這些技術(shù)的應(yīng)用,使統(tǒng)計(jì)工作質(zhì)量和效率能夠得到不斷的提高,不斷完善企業(yè)業(yè)務(wù)流程,提升企業(yè)核心競(jìng)爭(zhēng)力。

(四)統(tǒng)計(jì)人員管理方面的創(chuàng)新。

對(duì)于企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)人員的管理,要不斷結(jié)合企業(yè)的實(shí)際發(fā)展?fàn)顩r,設(shè)置出能夠被更多統(tǒng)計(jì)人員所接受和認(rèn)可的管理機(jī)制,從而更好的適應(yīng)現(xiàn)代化企業(yè)發(fā)展的實(shí)際要求,同時(shí)也要為人員提供更多實(shí)踐學(xué)習(xí)的機(jī)會(huì),并對(duì)其進(jìn)行定期培訓(xùn),從而使其能夠及時(shí)的掌握最新的統(tǒng)計(jì)理念和手段,知識(shí)結(jié)構(gòu)和統(tǒng)計(jì)水平也得到不斷的優(yōu)化和提高,同時(shí)也要給予統(tǒng)計(jì)人員更多展示自己的平臺(tái),使其自身的優(yōu)勢(shì)和潛力能夠得到充分的體現(xiàn)和發(fā)倔,并探索和創(chuàng)新出更多科學(xué)有效的統(tǒng)計(jì)手段。

經(jīng)濟(jì)統(tǒng)計(jì)是一項(xiàng)復(fù)雜的工作,對(duì)企業(yè)和社會(huì)經(jīng)濟(jì)的發(fā)展有著重要意義,必須給予充分的重視。但是目前很多企業(yè)開(kāi)展的經(jīng)濟(jì)統(tǒng)計(jì)工作還存在一些有待解決的問(wèn)題,使得統(tǒng)計(jì)工作質(zhì)量和效率也無(wú)法得到顯著的提升。因此,統(tǒng)計(jì)人員必須要深入分析和總結(jié)不同階段統(tǒng)計(jì)工作中的問(wèn)題,采取有效的解決對(duì)策,實(shí)行創(chuàng)新性統(tǒng)計(jì),從而使經(jīng)濟(jì)統(tǒng)計(jì)工作的適應(yīng)性和靈活性得到不斷的提升,從而更好地為企業(yè)發(fā)展服務(wù),提升企業(yè)的競(jìng)爭(zhēng)力。

參考文獻(xiàn):

[1] 吳東晟,李曉明。我國(guó)企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)創(chuàng)新問(wèn)題研究[J].生產(chǎn)力研究,2009,12(20):25-32.

[2] 牟鐘捷。探討我國(guó)企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)的創(chuàng)新問(wèn)題[J].城市建設(shè)理論研究(電子版),2013,23(36):12-14.

[3] 王小紅。關(guān)于我國(guó)企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)創(chuàng)新問(wèn)題探究[J].經(jīng)濟(jì)視野,2014,15(21):77-78.

[4] 林琳。我國(guó)企業(yè)經(jīng)濟(jì)統(tǒng)計(jì)創(chuàng)新問(wèn)題分析[J].商場(chǎng)現(xiàn)代化,2012,25(20):23-25.

有關(guān)計(jì)量經(jīng)濟(jì)學(xué)期末論文范文二:經(jīng)濟(jì)統(tǒng)計(jì)中數(shù)據(jù)挖掘技術(shù)的使用分析

伴隨著經(jīng)濟(jì)統(tǒng)計(jì)發(fā)展,經(jīng)濟(jì)統(tǒng)計(jì)的經(jīng)驗(yàn)累積,目前的經(jīng)濟(jì)統(tǒng)計(jì)所需要統(tǒng)計(jì)的數(shù)據(jù)已經(jīng)非常龐大,數(shù)據(jù)統(tǒng)計(jì)者在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)時(shí),如果僅適用數(shù)理知識(shí)的采集,并不會(huì)對(duì)數(shù)據(jù)進(jìn)行深入挖掘,造統(tǒng)計(jì)結(jié)果不準(zhǔn)確。統(tǒng)計(jì)數(shù)據(jù)的數(shù)量逐漸增多,數(shù)據(jù)類(lèi)別也同樣增加,對(duì)此,如果僅僅是使用以往的數(shù)據(jù)統(tǒng)計(jì)方式,并不能準(zhǔn)確、全面的實(shí)現(xiàn)數(shù)據(jù)分析并統(tǒng)計(jì)的工作。數(shù)據(jù)挖掘技術(shù)是目前全新的統(tǒng)計(jì)方式,其具備良好的數(shù)據(jù)統(tǒng)計(jì)方式,能夠橫向的對(duì)數(shù)據(jù)進(jìn)行挖掘,進(jìn)而更好的對(duì)經(jīng)濟(jì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),更好的滿(mǎn)足社會(huì)對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的需求。

一、數(shù)據(jù)挖掘技術(shù)概論。

數(shù)據(jù)挖掘技術(shù)簡(jiǎn)單的說(shuō)就是對(duì)數(shù)據(jù)信息進(jìn)行深入挖掘的一種技術(shù),在實(shí)際的使用過(guò)程中,能夠?qū)?fù)雜的數(shù)據(jù)庫(kù)變得更加的簡(jiǎn)化,進(jìn)而從中發(fā)現(xiàn)能夠利用的數(shù)據(jù)信息,并加以分析和整理,進(jìn)而達(dá)到龐大且散亂的數(shù)據(jù)得到充分的利用。目前我國(guó)的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)信息量非常龐大,并且還帶有數(shù)據(jù)不完整、隨機(jī)性強(qiáng)的特點(diǎn),這些都造成常規(guī)的數(shù)據(jù)統(tǒng)計(jì)方式和系統(tǒng)無(wú)法充分的分析并統(tǒng)計(jì)經(jīng)濟(jì)數(shù)據(jù)。數(shù)據(jù)挖掘技術(shù)能夠?qū)⑦@些具備隨機(jī)性強(qiáng)、完整性低的原始數(shù)據(jù)進(jìn)行分析和統(tǒng)計(jì),最終形成一套能夠合理利用的統(tǒng)計(jì)數(shù)據(jù)形態(tài),以便于數(shù)據(jù)使用者更好的對(duì)數(shù)據(jù)進(jìn)行應(yīng)用和提取。這樣能夠?qū)?shù)據(jù)進(jìn)行更準(zhǔn)確、更全面的收集、分析和加工的技術(shù)被稱(chēng)為數(shù)據(jù)挖掘。

數(shù)據(jù)挖掘的特點(diǎn)是能夠自動(dòng)的將有價(jià)值的數(shù)據(jù)發(fā)現(xiàn)并收集,然后對(duì)其進(jìn)行處理、加工,將大量的信息處理、加工之后對(duì)其進(jìn)行分析和統(tǒng)計(jì),進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的有效性、準(zhǔn)確性和實(shí)用性。

二、數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用效果。

1.綜合性應(yīng)用能力較強(qiáng)。數(shù)據(jù)挖掘技術(shù)已經(jīng)被許多的統(tǒng)計(jì)工作所合理應(yīng)用,并且發(fā)揮著至關(guān)重要的作用,其中也包括經(jīng)濟(jì)統(tǒng)計(jì)。數(shù)據(jù)挖掘技術(shù)不僅僅是一種數(shù)據(jù)挖掘能力強(qiáng)、具備統(tǒng)計(jì)能力的技術(shù),還能夠根據(jù)數(shù)據(jù)使用者的要求將數(shù)據(jù)進(jìn)行分類(lèi)和統(tǒng)計(jì)。因此,數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中,能夠有效地將數(shù)據(jù)進(jìn)行開(kāi)發(fā)、整理和分類(lèi),給統(tǒng)計(jì)數(shù)據(jù)的使用者提供更好的便利服務(wù)。

2.較強(qiáng)的有效性。數(shù)據(jù)挖掘技術(shù)目前在我國(guó)應(yīng)用的實(shí)踐并不長(zhǎng),但是其在經(jīng)濟(jì)統(tǒng)計(jì)的工作中的實(shí)際應(yīng)用效果非常好,并且還具備穩(wěn)定的工作性能,不僅僅是能夠?qū)?jīng)濟(jì)數(shù)據(jù)進(jìn)行整理、分析和統(tǒng)計(jì),還能夠更加有效的對(duì)挖掘出更多有價(jià)值的信息,在實(shí)際的應(yīng)用中能夠表現(xiàn)出較高的有效性。

3.數(shù)據(jù)挖掘技術(shù)能夠更有效的應(yīng)用于宏觀(guān)型的數(shù)據(jù)庫(kù)。目前,我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)多數(shù)還是使用的傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方式,收集和統(tǒng)計(jì)的數(shù)據(jù)信息并不能形成一個(gè)有機(jī)整體,在進(jìn)行數(shù)據(jù)的管理時(shí),仍然會(huì)出現(xiàn)許多的問(wèn)題。對(duì)此,就需要利用新技術(shù)來(lái)提升經(jīng)濟(jì)統(tǒng)計(jì)的有效性。宏觀(guān)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)能夠給數(shù)據(jù)挖掘技術(shù)提供相當(dāng)合適的統(tǒng)計(jì)平臺(tái)。對(duì)于經(jīng)濟(jì)統(tǒng)計(jì)來(lái)說(shuō),其統(tǒng)計(jì)的數(shù)據(jù)必須要準(zhǔn)確無(wú)誤,這就需要有大量且可靠的數(shù)據(jù)資源,宏觀(guān)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)的特點(diǎn)便在于此,所以數(shù)據(jù)挖掘技術(shù)能夠更有效的應(yīng)用于宏觀(guān)型的數(shù)據(jù)庫(kù)。

三、數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)挖掘流程。

數(shù)據(jù)額挖掘的整個(gè)流程主要為在數(shù)據(jù)庫(kù)中中利用數(shù)據(jù)挖掘算法收集相關(guān)的數(shù)據(jù),然后圍繞著數(shù)據(jù)挖掘進(jìn)行的預(yù)處理,進(jìn)行多次重復(fù)的對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和處理。整個(gè)數(shù)據(jù)發(fā)掘過(guò)程是由多個(gè)挖掘步驟所組成的,數(shù)據(jù)挖掘僅僅是整個(gè)挖掘技術(shù)的一個(gè)主要步驟。數(shù)據(jù)挖掘收集的主要步驟有以下四個(gè)。(1)定義目標(biāo)階段。根據(jù)數(shù)據(jù)統(tǒng)計(jì)者的要求定義數(shù)據(jù)挖掘目標(biāo)。定義目標(biāo)的適配度會(huì)直接影響數(shù)據(jù)挖掘的最終效果,對(duì)此,就需要具有應(yīng)用領(lǐng)域知識(shí)的專(zhuān)家和數(shù)據(jù)挖掘經(jīng)驗(yàn)的技術(shù)人員共同寫(xiě)作對(duì)目標(biāo)進(jìn)行定義。一方面需要對(duì)各種算法進(jìn)行對(duì)比,最終確定最行之有效的算法之一,另一方面確定數(shù)據(jù)挖掘能夠充分的滿(mǎn)足實(shí)際工作要求。(2)數(shù)據(jù)準(zhǔn)備階段。數(shù)據(jù)準(zhǔn)備階段是數(shù)據(jù)挖掘技術(shù)中最為重要且過(guò)程最長(zhǎng)的階段。這個(gè)階段主要分為三個(gè)步驟:數(shù)據(jù)挑選,數(shù)據(jù)處理和數(shù)據(jù)變化。數(shù)據(jù)挑選主要是指從數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)庫(kù)中挑選所有相關(guān)的數(shù)據(jù),將這些數(shù)據(jù)定義為目標(biāo)數(shù)據(jù)。數(shù)據(jù)處理是指對(duì)目標(biāo)數(shù)據(jù)進(jìn)行初步的處理,然后挑選出挖掘出符合要求的數(shù)據(jù)。數(shù)據(jù)變換是指對(duì)挖掘出服務(wù)要求的數(shù)據(jù)進(jìn)行精簡(jiǎn),即從數(shù)據(jù)處理中挖掘出的數(shù)據(jù)進(jìn)行更深層次的挑選,最終挑選出完全符合數(shù)據(jù)統(tǒng)計(jì)要求的數(shù)據(jù)。(3)數(shù)據(jù)挖掘階段。這一階段是主要的數(shù)據(jù)挖掘階段。首先是預(yù)定算法,換而言之就是采用怎樣的條件挑選數(shù)據(jù),并進(jìn)行挖掘。

然后針對(duì)算法完成數(shù)據(jù)挖掘工作。在完成之后,便可以進(jìn)行數(shù)據(jù)挖掘模塊的計(jì)算。這個(gè)階段是相關(guān)領(lǐng)域?qū)<液蛿?shù)據(jù)挖掘分析者最為關(guān)注的一步,也能夠被稱(chēng)為實(shí)際上的數(shù)據(jù)挖掘。(4)評(píng)估階段和結(jié)果顯示。根據(jù)數(shù)據(jù)使用者的要求將數(shù)據(jù)進(jìn)行分析并將結(jié)果顯示,將有價(jià)值意義的數(shù)據(jù)顯示出來(lái),并且將挖掘出的數(shù)據(jù)進(jìn)行價(jià)值評(píng)估,對(duì)于無(wú)意義的或存在重復(fù)的數(shù)據(jù)刪除。如果最終挖掘出的數(shù)據(jù)無(wú)法滿(mǎn)足數(shù)據(jù)使用者的要求則返回到上一步,重新篩選。

四、數(shù)據(jù)挖掘在經(jīng)濟(jì)統(tǒng)計(jì)中的發(fā)展方向。

目前數(shù)據(jù)挖掘的發(fā)展方向可以從多個(gè)方面展開(kāi):(1)根據(jù)數(shù)據(jù)使用者的要求開(kāi)發(fā)出各種數(shù)據(jù)挖掘系統(tǒng)。具備較強(qiáng)功能性的數(shù)據(jù)挖掘系統(tǒng)仍然難以處理各種數(shù)據(jù),對(duì)此就需要針對(duì)要求制定出各式各樣的數(shù)據(jù)挖掘系統(tǒng),例如空間數(shù)據(jù)庫(kù)挖掘和關(guān)系數(shù)據(jù)庫(kù)挖掘等。(2)提升數(shù)據(jù)挖掘顯示結(jié)果的確定性、可表達(dá)性和有效性。需要已經(jīng)挖掘出來(lái)的數(shù)據(jù)能夠充分表明數(shù)據(jù)庫(kù)的主要內(nèi)容,并且能夠運(yùn)用于實(shí)際的相關(guān)領(lǐng)域當(dāng)中。對(duì)具備缺陷的數(shù)據(jù)需要進(jìn)行分析,以相似的數(shù)據(jù)或者有規(guī)律數(shù)據(jù)的形式展現(xiàn)出來(lái)。(3)數(shù)據(jù)挖掘結(jié)果簡(jiǎn)化。挖掘出的數(shù)據(jù)最終使用者并非是數(shù)據(jù)挖掘的專(zhuān)家,所以挖掘結(jié)果一定要簡(jiǎn)化。

(4)交互式、多抽象層數(shù)據(jù)挖掘。交互式數(shù)據(jù)挖掘能夠準(zhǔn)許用戶(hù)對(duì)數(shù)據(jù)進(jìn)行精確挖掘,數(shù)據(jù)的焦點(diǎn)具備動(dòng)態(tài)改變的特點(diǎn),從多個(gè)角度多個(gè)抽象的層次靈活的收集數(shù)據(jù)、挖掘數(shù)據(jù)。(5)數(shù)據(jù)挖掘的保密性和安全性。因?yàn)樽罱K的經(jīng)濟(jì)統(tǒng)計(jì)結(jié)果需要一定的安全性和保密性。對(duì)此,就需要加強(qiáng)數(shù)據(jù)挖掘結(jié)果的保密性和安全性,以免數(shù)據(jù)造成泄漏,隱私被別人侵犯。

五、結(jié)語(yǔ)。

經(jīng)濟(jì)統(tǒng)計(jì)工作對(duì)我國(guó)的經(jīng)濟(jì)發(fā)展有著至關(guān)重要的作用,伴隨著挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中的應(yīng)用,對(duì)數(shù)據(jù)統(tǒng)計(jì)的分析也更顯高標(biāo)準(zhǔn)化和高質(zhì)量化。對(duì)此,提升數(shù)據(jù)挖掘技術(shù)的應(yīng)用效果,能夠有效的提升統(tǒng)計(jì)工作的統(tǒng)計(jì)結(jié)果質(zhì)量,讓其具備可靠、真實(shí)的特點(diǎn),進(jìn)而給政府提供指定社會(huì)戰(zhàn)略發(fā)展目標(biāo)的有力證據(jù),幫助工業(yè)企業(yè)確定經(jīng)濟(jì)發(fā)展目標(biāo)。數(shù)據(jù)挖掘技術(shù)在經(jīng)濟(jì)統(tǒng)計(jì)中具備巨大的社會(huì)效益和經(jīng)濟(jì)效益。

參考文獻(xiàn):

[1]夏昌華。統(tǒng)計(jì)分析的新模式-數(shù)據(jù)挖掘技術(shù)[J].統(tǒng)計(jì)與咨詢(xún),2012,14(2):269 -270.

[2]張宗峰,姚猛,藤立臣等。數(shù)據(jù)額挖掘及英在官方統(tǒng)計(jì)中的應(yīng)用前景[J].江蘇統(tǒng)計(jì),2010,28(10):832.

[3]鄭建國(guó)。基于統(tǒng)計(jì)的數(shù)據(jù)挖掘技術(shù)在CRM系統(tǒng)中的應(yīng)用統(tǒng)計(jì)[J].河北工業(yè)大學(xué)。2010,10(03):11-13.

[4]王福根。數(shù)據(jù)挖掘技術(shù)在建模、優(yōu)化和故障診斷中的應(yīng)用[J].紅外與激光工程。2013,35(10):621-629.

第9篇:數(shù)據(jù)挖掘技術(shù)分析論文范文

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);成績(jī)管理

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是一個(gè)涉及多學(xué)科交叉的研究領(lǐng)域,綜合了人工智能、機(jī)器學(xué)習(xí)、數(shù)理統(tǒng)計(jì)等學(xué)科,它把對(duì)數(shù)據(jù)的應(yīng)用從較低層次的簡(jiǎn)單的查詢(xún)提升到從數(shù)據(jù)中挖掘知識(shí)。簡(jiǎn)單的說(shuō),數(shù)據(jù)挖掘就是從數(shù)據(jù)中獲取知識(shí)。從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘應(yīng)該更正確地命名為“從數(shù)據(jù)中挖掘知識(shí)”。

二、數(shù)據(jù)挖掘的過(guò)程

數(shù)據(jù)挖掘過(guò)程大概可以概括為三部分:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的表達(dá)和解釋。如圖1-1。

三、數(shù)據(jù)挖掘的特點(diǎn)

數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí),所得到的信息具有事先未知、有效、實(shí)用三個(gè)特征;用戶(hù)不必提出明確的要求,系統(tǒng)能夠根據(jù)數(shù)據(jù)本身的規(guī)律性,自動(dòng)地挖掘數(shù)據(jù)潛在的模式,或通過(guò)分析建立新的業(yè)務(wù)模型,幫助決策者調(diào)整市場(chǎng)策略,這有利于發(fā)現(xiàn)未知的事物。因此,它是由數(shù)據(jù)驅(qū)動(dòng)的一種真正的知識(shí)發(fā)現(xiàn)方法。

四、學(xué)生成績(jī)管理的現(xiàn)狀

隨著高校招生規(guī)模的擴(kuò)大使成績(jī)管理處理的數(shù)據(jù)量急劇增加,存放在數(shù)據(jù)庫(kù)中的大量的成績(jī)數(shù)據(jù),對(duì)于一般的查詢(xún)過(guò)程是有效的,管理人員能夠通過(guò)簡(jiǎn)單的統(tǒng)計(jì)或排序等功能獲得一些表面的信息,但隨著數(shù)據(jù)庫(kù)中存儲(chǔ)的數(shù)據(jù)量的增大,傳統(tǒng)的數(shù)據(jù)庫(kù)管理系統(tǒng)的數(shù)據(jù)管理和處理功能就不能滿(mǎn)足現(xiàn)實(shí)的需要,因?yàn)闊o(wú)論是查詢(xún)、排序還是方差,其處理方式都是對(duì)指定的數(shù)據(jù)進(jìn)行簡(jiǎn)單的數(shù)字處理,對(duì)于學(xué)生成績(jī)管理方面,往往只能做一些簡(jiǎn)單的功能,由于大量數(shù)據(jù)以不同的形式存儲(chǔ)在不同的計(jì)算機(jī)上,從而使隱藏在其中的大量有用信息無(wú)法得到有效的利用,無(wú)法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)聯(lián)和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。上述問(wèn)題直接導(dǎo)致教學(xué)管理部門(mén)無(wú)法進(jìn)行有效的評(píng)估,任課教師無(wú)法進(jìn)行有效的教學(xué)方法改進(jìn)。而如何將這些數(shù)據(jù)信息轉(zhuǎn)化為知識(shí)表示,為學(xué)校管理者提供決策依據(jù),科學(xué)指導(dǎo)教學(xué),提高教學(xué)管理水平,將是高校需要迫切解決的問(wèn)題。

五、將數(shù)據(jù)挖掘技術(shù)在成績(jī)管理中的應(yīng)用

1、學(xué)生成績(jī)分析方面

學(xué)生的學(xué)習(xí)成績(jī)是評(píng)估學(xué)生表現(xiàn)好壞的重要依據(jù),也是學(xué)生是否掌握好所學(xué)知識(shí)的重要標(biāo)志,目前高校使用的成績(jī)管理系統(tǒng)大部分只能做一些簡(jiǎn)單的數(shù)據(jù)管理和處理,例如:學(xué)生的平時(shí)成績(jī)輸入、考試成績(jī)輸入、畢業(yè)設(shè)計(jì)成績(jī)登記,進(jìn)行各類(lèi)統(tǒng)計(jì)報(bào)表和信息查詢(xún)、分析某一個(gè)班學(xué)生學(xué)習(xí)成績(jī)分布的情況等。目前大量的成績(jī)數(shù)據(jù)只是簡(jiǎn)單地存儲(chǔ)在數(shù)據(jù)庫(kù)中,隱藏在這些數(shù)據(jù)中的潛在信息被閑置,沒(méi)能被充分利用。在數(shù)據(jù)庫(kù)中學(xué)生成績(jī)分析從定性的角度考慮不是很精確,而數(shù)據(jù)挖掘是從定量的角度精確地分析學(xué)生成績(jī)分析的各個(gè)方面數(shù)據(jù)。

2、在考試方面

考試是對(duì)教師教學(xué)效果和學(xué)生學(xué)習(xí)效果的一個(gè)檢驗(yàn),是教學(xué)中必不可少的環(huán)節(jié),雖然按考試成績(jī)可以總體評(píng)價(jià)在一定時(shí)期內(nèi)學(xué)生取得的成績(jī),但這并不能有效地說(shuō)明成績(jī)的高低與哪些因素有關(guān),無(wú)法知道教師教學(xué)環(huán)節(jié)中的成功與不足之處,對(duì)教師教學(xué)方法的改進(jìn)和學(xué)生學(xué)習(xí)成績(jī)的提高都沒(méi)有實(shí)際意義上的幫助,而且,學(xué)生考試成績(jī)的高低也與試題的質(zhì)量有著很大的關(guān)系,因此探索有效的方法來(lái)評(píng)價(jià)試題的質(zhì)量如試題難易度,知識(shí)點(diǎn)全面度等在實(shí)際的教學(xué)過(guò)程中同樣具有重要的意義。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于試卷分析數(shù)據(jù)庫(kù)中,然后根據(jù)學(xué)生得分情況分析出每道題的難易度、區(qū)分度、相關(guān)度等指標(biāo),那么據(jù)此,教師可以對(duì)試題的質(zhì)量作出比較準(zhǔn)確的評(píng)價(jià),進(jìn)而可以用來(lái)檢查自己的教學(xué)情況及學(xué)生的掌握情況,并為今后的教學(xué)提供指導(dǎo)。

2、在教學(xué)評(píng)價(jià)方面

教學(xué)評(píng)價(jià)是教學(xué)中的一個(gè)重要環(huán)節(jié),是引導(dǎo)教育、培養(yǎng)高素質(zhì)人才,幫助社會(huì)充分利用教育成果和促進(jìn)教育健康發(fā)展的保證。傳統(tǒng)的教學(xué)評(píng)價(jià)大多是參考相關(guān)評(píng)價(jià)指標(biāo)體系和調(diào)查問(wèn)卷等方式實(shí)施的,而且更是注重評(píng)價(jià)的結(jié)果,以作為教師晉升、學(xué)生評(píng)優(yōu)等的依據(jù).高校每學(xué)期都要搞課堂教學(xué)評(píng)價(jià)調(diào)查,積累了大量的教學(xué)信息數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù),從教學(xué)評(píng)價(jià)數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,探討教學(xué)效果的好壞與教師的年齡、職稱(chēng)之間有無(wú)必然的聯(lián)系,課堂教學(xué)效果與教師整體素質(zhì)關(guān)系如何,合理配備班級(jí)的上課教師,使學(xué)生能夠較好的保持良好的學(xué)習(xí)態(tài)度,從而為教學(xué)部門(mén)提供了決策支持信息,促使更好地開(kāi)展教學(xué)工作,提高教學(xué)質(zhì)量。

3、選擇教師的教學(xué)方法方面

在教學(xué)過(guò)程中,教師可以采用多種方法來(lái)完成自己的教學(xué)任務(wù),比如講授法、多媒體演示、分組討論法、課程實(shí)習(xí)法等,在通常情況下,一般可以采取一種或幾種方法進(jìn)行.據(jù)此可用數(shù)據(jù)挖掘的方法來(lái)挖掘數(shù)據(jù)庫(kù)中的數(shù)據(jù),判定下一步應(yīng)采取什么樣的教學(xué)方法,以滿(mǎn)足教學(xué)的需要,更有利于學(xué)生對(duì)知識(shí)的吸收。

4、課程的合理設(shè)置方面

在學(xué)校,學(xué)生的課堂學(xué)習(xí)是循序漸進(jìn)的,而且課程之間有一定的關(guān)聯(lián)與前后順序關(guān)系,在學(xué)一門(mén)較高級(jí)課程之前必須先修一些先行課程,如果先行課程沒(méi)有學(xué)好,勢(shì)必會(huì)影響后續(xù)課程的學(xué)習(xí),此外,每一學(xué)期安排課程的多少,也會(huì)影響學(xué)生的學(xué)習(xí)效果。利用學(xué)校教務(wù)管理系統(tǒng)中存放的歷屆學(xué)生各門(mén)學(xué)科的考試成績(jī),結(jié)合數(shù)據(jù)挖掘技術(shù)的相關(guān)功能,得出一些有價(jià)值的規(guī)則和信息,最終找到影響學(xué)生成績(jī)的原因,在些基礎(chǔ)上,對(duì)課程設(shè)置做出合理安排。

六、結(jié)束語(yǔ)

隨著我國(guó)各高校管理信息化的不斷推進(jìn),各類(lèi)學(xué)校的數(shù)據(jù)庫(kù)建設(shè)不斷完善,在學(xué)校平時(shí)的教育教學(xué)管理中累積了大量的數(shù)據(jù)。在這些海量的數(shù)據(jù)中,隱藏著大量有用的知識(shí),如果利用好這些知識(shí),將能夠?qū)W(xué)校的教育教學(xué)工作起到積極的指導(dǎo)作用。數(shù)據(jù)挖掘技術(shù)正是為了解決如何從海量數(shù)據(jù)中挖掘出有用的知識(shí),因此,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到高校的教育教學(xué)中去是非常有必要的。

參考文獻(xiàn):

【1】吉根林,帥克,孫志揮.數(shù)據(jù)挖掘技術(shù)及其應(yīng)用.南京師大學(xué)報(bào)(自然科學(xué)版),2000,23(2):25-27

【2】李慶香.數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績(jī)分析中的應(yīng)用研究:碩士學(xué)位論文.重慶:西南大學(xué)教育技術(shù)系,2009