前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘在工商管理中的運用范文,希望能給你帶來靈感和參考,敬請閱讀。
網(wǎng)絡(luò)經(jīng)濟的關(guān)鍵在于能夠為商品的供應(yīng)商及其合作者之間提供一個交流的平臺,但是即便是最權(quán)威的搜索引擎也只能夠搜索到三分之一的web網(wǎng)頁,并且這些Web都是沒有結(jié)構(gòu)的、動態(tài)的、復(fù)雜的形式出現(xiàn)。人們要從各種各樣的文本網(wǎng)站中尋找自己想要的信息進而變得更加困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)就是用來解決這一問題的好辦法,利用數(shù)據(jù)挖掘技術(shù)能夠有效發(fā)現(xiàn)在web網(wǎng)頁中隱藏著的對用戶有力的數(shù)據(jù)信息,在對數(shù)據(jù)的分析中總結(jié)出規(guī)律。如何實現(xiàn)用戶對于Web上的有效數(shù)據(jù)的深度挖掘,使其成為工商管理領(lǐng)域中的重要應(yīng)用,成為了當(dāng)代許多網(wǎng)絡(luò)工作者所關(guān)注的話題。
一、數(shù)據(jù)挖掘概述
(一)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘(DataMining)指的是,在大量的、不規(guī)則的、隨機的、復(fù)雜的、有噪聲的實際應(yīng)用數(shù)據(jù)中,獲得一些信息和知識,能夠?qū)τ脩羝矶\潛在作用的效果的過程。將數(shù)據(jù)挖掘用通俗的話來描述就是在數(shù)據(jù)庫中發(fā)現(xiàn)潛在有用的知識發(fā)現(xiàn)(KDDKnowledgeDiscoveryinDatabase)。在這個定義中主要包含了以下幾方面的含義:首先數(shù)據(jù)源的特性是大量、隨機、不規(guī)則、噪聲;信息是客戶所感興趣的對象;選取的知識必須是在可接受、可理解、可運用的范圍內(nèi)的,并不是全部符合要求的都可以,對于問題要有一定的針對性。也就是說對于所發(fā)現(xiàn)的知識的篩選是有一定的約束和限制條件的,同時也要符合用戶的理解和學(xué)習(xí)能力,最好還能夠用通俗的語言來表達最終的結(jié)果。
(二)Web數(shù)據(jù)挖掘
Web數(shù)據(jù)挖掘?qū)嶋H上是屬于數(shù)據(jù)挖掘的范疇的。概括的來說,Web數(shù)據(jù)挖掘的數(shù)據(jù)庫特定的就是Web服務(wù)器上的數(shù)據(jù)文件,從中發(fā)現(xiàn)用戶感興趣并有所應(yīng)用潛能的知識。Web數(shù)據(jù)挖掘主要針對的就是頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)等內(nèi)在信息,通過數(shù)據(jù)挖掘技術(shù)來獲得有價值的信息。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫存在著很大的差異,傳統(tǒng)的數(shù)據(jù)庫都是在一定的數(shù)學(xué)模型范圍之內(nèi)的,通過模型來描述其中的數(shù)據(jù);但是web數(shù)據(jù)庫相對來講就要復(fù)雜許多,沒有通用的模型來描述數(shù)據(jù),每個網(wǎng)頁都有其獨特的數(shù)據(jù)描述方式,丙炔數(shù)據(jù)自身都是可變的、動態(tài)的。因而,Web數(shù)據(jù)雖然具有一定的結(jié)構(gòu)性,不能用架構(gòu)化的形式來表達,也可以稱其為半結(jié)構(gòu)化的數(shù)據(jù)。Web數(shù)據(jù)的最大特點就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個數(shù)據(jù)庫成為一個巨大的異構(gòu)數(shù)據(jù)庫。
二、網(wǎng)絡(luò)數(shù)據(jù)挖掘的類型
(一)網(wǎng)絡(luò)內(nèi)容挖掘
網(wǎng)絡(luò)內(nèi)容挖掘的對象是網(wǎng)頁的內(nèi)容、數(shù)據(jù)、文檔,這通常也是網(wǎng)頁在急性搜索的時候需要考察的訪問對象。由于網(wǎng)絡(luò)信息繁多,按照信息源的不同可以劃分為Gopher、FTP、Usenet等已經(jīng)隱藏到WWW形式之后的資源,我們稱之為WWW信息資源,存儲于數(shù)據(jù)庫管理信息系統(tǒng)中的數(shù)據(jù),以及不能直接訪問的私人數(shù)據(jù)。按照網(wǎng)絡(luò)資源的形式又可以劃分為文本、圖像、音頻、視頻等數(shù)據(jù)。
(二)網(wǎng)絡(luò)結(jié)構(gòu)挖掘
網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對象就是Web潛在的鏈接結(jié)構(gòu)模式。這種類型最早出現(xiàn)在引文分析,在建立web自身的鏈接結(jié)構(gòu)模型的時候借鑒了網(wǎng)頁鏈接和被鏈接數(shù)量以及對象。在網(wǎng)頁歸類的時候往往會采用這種模式,還能夠得到不同網(wǎng)頁間相似度及關(guān)聯(lián)度的相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘能夠幫助用戶在相關(guān)領(lǐng)域中找到最有分量的網(wǎng)站。
(三)網(wǎng)絡(luò)用法挖掘
網(wǎng)絡(luò)用法挖掘的目的在于掌握用戶的一系列網(wǎng)絡(luò)行為數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘針對的都是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘針對的是用戶在上網(wǎng)過程中的人機交互的第二手數(shù)據(jù),主要有用戶的網(wǎng)頁游覽記錄、服務(wù)器日志記錄、網(wǎng)頁維護信息、用戶簡介、注冊信息、聊天記錄、交易信息等等。
三、網(wǎng)絡(luò)經(jīng)濟環(huán)境下數(shù)據(jù)挖掘在工商管理中的運用步驟
(一)識別網(wǎng)站訪問者的特征信息
企業(yè)對電子商務(wù)網(wǎng)站的數(shù)據(jù)進行挖掘的第一步,就是要明確訪問者的特點,找出訪問者使用的條款特征。訪問者特征主要有入口統(tǒng)計、心理狀態(tài)和技術(shù)手段等要素。人口統(tǒng)計并不是一成不變的,比如家庭地址、收入、購買力等因素都會不斷改變。心理狀態(tài)指的是在心理調(diào)研中展現(xiàn)出的個性類型,比如對商品的選擇去世、價格優(yōu)惠心理、技術(shù)興趣等。隨著訪問者數(shù)量的增加,相關(guān)數(shù)據(jù)也會不斷累積。條款的交互信息主要包括購買歷史、廣告歷史和優(yōu)選信息。網(wǎng)站統(tǒng)計信息是指每次會話的相關(guān)要素。公司信息主要包括訪問者對接的服務(wù)器所包含的一系列要素信息。
(二)制定目標
開展網(wǎng)上交易的最大優(yōu)勢在于企業(yè)對于訪問者的反應(yīng)有著更好的前瞻性。當(dāng)廠商的目標是明確且具象的時候,就能夠通過數(shù)據(jù)挖掘技術(shù)得到較好的效果。企業(yè)通??梢栽O(shè)定以下的目標:網(wǎng)頁訪問者的增加量;類此網(wǎng)頁訪問的瀏覽時間增加;每次結(jié)賬的平均利潤;退換貨的減少;品牌知名度效應(yīng);回頭客的數(shù)量等等。
(三)問題描述
開展電子商務(wù)的企業(yè)最關(guān)鍵要面對的一個問題就是如何進行商品的傳播,要實現(xiàn)網(wǎng)頁的個性化又要將商品的信息完整的展現(xiàn)給顧客,就需要了解同一類訪問者的共有特征、估計貨物丟失的數(shù)據(jù)并預(yù)測未來行為。所有這一切都涉及尋找并支持各種不同的隱含模式。
(四)關(guān)聯(lián)分析
對顧客大量的交易數(shù)據(jù)進行關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)顧客購買組合商品的趨勢。關(guān)聯(lián)分析指的是在一次瀏覽或者會話中所涉及到的商品,也叫做市場分析。若電子商務(wù)網(wǎng)站能夠?qū)⑦@些商品放在同一個網(wǎng)頁中,就能夠提高顧客同時購買這些商品的概率。如果在關(guān)聯(lián)的一組商品中有某一項商品正在進行促銷,就能夠帶動其他組合產(chǎn)品的銷量。關(guān)聯(lián)也能夠用在靜態(tài)的網(wǎng)站目錄網(wǎng)頁。在這種情況下,網(wǎng)站排序的主要依據(jù)是廠商選擇的且是網(wǎng)站所要查看的第一頁內(nèi)容,將其以及其相關(guān)的商品信息放在網(wǎng)頁的首頁。
(五)聚類
聚類指的是將具有相同特征的商品歸為一類,將特征平均,以形成一個“特征矢量”。聚類技術(shù)能夠確定一組數(shù)據(jù)有多少類,并用其中一個聚類來表示其余大多數(shù)數(shù)據(jù)。通常在企業(yè)分析訪問者類型的時候使用聚類技術(shù)。
(六)決策樹
決策樹描繪的是都想決定在做出的一系列過程中的問題或數(shù)據(jù)點。比如做出購買電視機這一決定就要經(jīng)歷對于電視機的需求、電視機的品牌、尺寸等等問題,最終確定好買哪一臺電視機為止。決策樹能夠較一個決策過程進行系統(tǒng)的排序,以便選出最優(yōu)的路徑來盡可能減少決策的步驟,提高決定的質(zhì)量和速度。許多企業(yè)將決策樹體系添加到自己的產(chǎn)品選擇系統(tǒng)中,能夠幫助訪問者解決特定問題。
(七)估計和預(yù)測
估計是對未知量的判斷,預(yù)測是根據(jù)當(dāng)前的趨勢做出將來的判斷。估計和預(yù)測使用的算法類似。估計能夠?qū)蛻艨瞻椎捻椖孔龅筋A(yù)判。如果網(wǎng)站想知道某個訪問者的收入,就可以通過與收入密切相關(guān)的量估計得到,最后通過與其有相同特征的訪問者的收入來衡量這個訪問者的收入和信用值。預(yù)測是對未來事項的判斷。尤其是在某些個性化網(wǎng)頁中顯得尤為重要。企業(yè)通過數(shù)據(jù)的匯總增進對客戶的了解。即使是對以往事件的分析中也可以得到有效的信息。預(yù)測能夠?qū)υL問者的特征作出總結(jié)和匯總,以便企業(yè)能夠找出更有針對性的組合商品來滿足客戶的需求。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫存在著很大的差異,最大特點就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個數(shù)據(jù)庫成為一個巨大的異構(gòu)數(shù)據(jù)庫。能夠幫助用戶在特性是大量、隨機、不規(guī)則、噪聲的信息中發(fā)現(xiàn)感興趣的對象。
作者:黃嬿