公務員期刊網(wǎng) 論文中心 正文

軟件工程中數(shù)據(jù)挖掘技術的應用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了軟件工程中數(shù)據(jù)挖掘技術的應用范文,希望能給你帶來靈感和參考,敬請閱讀。

軟件工程中數(shù)據(jù)挖掘技術的應用

摘要:隨著科學技術的高速發(fā)展,人們的生活行為、個人喜好、出行軌跡甚至個人社交都能通過一連串復雜的數(shù)據(jù)來顯示。強大的數(shù)據(jù)網(wǎng)絡對人們的工作生活及科技發(fā)展產(chǎn)生了重要影響。因此,如何在龐大的數(shù)據(jù)網(wǎng)絡中找到有價值的、有需要的數(shù)據(jù),成為了數(shù)據(jù)信息技術的一個研究方向。數(shù)據(jù)挖掘技術在一定程度上解決了這個問題。文章結合數(shù)據(jù)挖掘的內(nèi)涵,分析數(shù)據(jù)挖掘技術在軟件工程中的作用,提出一些應用方法,旨在對我國軟件工程和科技發(fā)展提供參考。

關鍵詞:數(shù)據(jù)挖掘;軟件工程;應用分析

引言

每個數(shù)據(jù)背后都豐富的含義,不同數(shù)據(jù)之間也有著復雜的聯(lián)系,不加以利用的數(shù)據(jù)只是單純的數(shù)學符。數(shù)據(jù)挖掘技術能幫助企業(yè)更好的利用數(shù)據(jù),進行工作計劃、工作調(diào)整等。目前數(shù)據(jù)挖掘技術被廣泛應用在于軟件工程和科技生產(chǎn)當中,為人們的生產(chǎn)生活提供了便利。

1數(shù)據(jù)挖掘基本含義概述

數(shù)據(jù)挖掘技術是一項關于數(shù)據(jù)采集、數(shù)據(jù)選擇、數(shù)據(jù)存儲的科學技術,主要與現(xiàn)代信息技術相結合。相比于傳統(tǒng)數(shù)據(jù)技術,數(shù)據(jù)挖掘技術更加快捷、高效和便利。雖然數(shù)據(jù)挖掘技術具有如此豐富的功能,但是受經(jīng)濟條件和科學水平等條件的限制,目前我國大多數(shù)企業(yè)仍然采用傳統(tǒng)的數(shù)據(jù)信息技術,導致數(shù)據(jù)挖掘技術的應用普及度較低。傳統(tǒng)的數(shù)據(jù)技術在數(shù)據(jù)處理過程中要花費大量的時間和人力,而且對使用人員自身素質(zhì)要求很高。同時,傳統(tǒng)數(shù)據(jù)技術的使用范圍也相對狹隘。數(shù)據(jù)挖掘技術過程是一個對數(shù)據(jù)進行分析、轉(zhuǎn)換和評價的過程,將“數(shù)據(jù)理解”最終轉(zhuǎn)化為“商業(yè)理解”。具體挖掘過程如下圖1所示:圖1傳統(tǒng)數(shù)據(jù)挖掘過程數(shù)據(jù)挖掘技術能有效提高軟件工程中數(shù)據(jù)處理工作的效率,并提高準確性,減少失誤的出現(xiàn)。對于企業(yè)來說,數(shù)據(jù)挖掘技術能幫助企業(yè)全面提高業(yè)務數(shù)據(jù)的處理水平,為企業(yè)做出決策和工作計劃提供有效參考。一般的軟件工程應用數(shù)據(jù)挖掘技術過程中,先針對要處理的商業(yè)問題進行大量、真實的企業(yè)商業(yè)數(shù)據(jù)資料準備,然后通過數(shù)學手段對商業(yè)數(shù)據(jù)進行數(shù)字建模,更好的進行數(shù)據(jù)理解。最后將需要處理的商業(yè)問題與建模結果相對比,得出數(shù)據(jù)評價,從而得到處理商業(yè)問題的答案。因為數(shù)字模型不受時間、空間等條件限制,且具有完整科學的數(shù)學理論作為基礎,所以能保障商業(yè)數(shù)據(jù)處理的效率和正確性。為了保障數(shù)學建模的結果能應用到實際工作當中,在進行數(shù)學建模之前,工作人員可以將數(shù)據(jù)進行處理母的二次處理,提高數(shù)據(jù)結果的針對性和可行性。在我國大數(shù)據(jù)的背景下,一般的數(shù)據(jù)挖掘技術的流程更為復雜和全面,具體流程如下圖2所示:

2軟件工程應用數(shù)據(jù)挖掘的基本作用

(1)增強數(shù)據(jù)信息理解。每個人對于一條信息都有不同的理解,如果通過人力來進行數(shù)據(jù)采集和數(shù)據(jù)理解,不僅消耗時間、增加成本,而且問題結果受個人主觀意識影響極大,不具備一定權威性。數(shù)據(jù)挖掘技術能很好的解決這一問題。數(shù)據(jù)挖掘技術在先進的科學信息技術的作為基礎的條件上,針對不同數(shù)據(jù)分析目的,將數(shù)據(jù)進行科學分類和目標細化,從而提高數(shù)據(jù)結果的準確性和權威性。在軟件工程應用中,數(shù)據(jù)挖掘技術將采集到的廣泛、龐大的數(shù)據(jù)進行資源整合,形成完整的查詢和管理體系。企業(yè)可以通過這樣的管理體系,方便快速的查詢到所需要的信息,增強對數(shù)據(jù)信息的理解。(2)提升數(shù)據(jù)處理質(zhì)量。隨著科學技術水平的不斷提高,數(shù)據(jù)挖掘技術的數(shù)據(jù)功能也越來越專業(yè)化,尤其是在數(shù)據(jù)運算速度和準確程度方面。數(shù)據(jù)挖掘技術能幫助企業(yè)進行大規(guī)模的數(shù)據(jù)計算。在短時間內(nèi),數(shù)據(jù)挖掘技術能將混亂數(shù)據(jù)和無效數(shù)據(jù)進行多次篩選和處理,保障數(shù)據(jù)處理的質(zhì)量。與傳統(tǒng)數(shù)據(jù)技術相比,數(shù)據(jù)挖掘技術在更大的程度能避免數(shù)據(jù)丟失,減少對企業(yè)的損失。(3)提高數(shù)據(jù)利用率。數(shù)據(jù)挖掘技術能幫助軟件工程企業(yè)提高數(shù)據(jù)利用率。針對混亂無序和看似無用的數(shù)據(jù)信息,數(shù)據(jù)挖掘技術從多個角度對數(shù)據(jù)重新進行分類和整理,得出數(shù)據(jù)結果。企業(yè)可以將數(shù)據(jù)結果直接應用到實際工作中,根據(jù)實踐效果選擇合適的數(shù)據(jù),提高數(shù)據(jù)的利用效率。這種方法使企業(yè)可以通過數(shù)據(jù)挖掘技術獲取更多的策略選擇,充分利用數(shù)據(jù)作用。其次,數(shù)據(jù)挖掘技術將抽象的企業(yè)數(shù)據(jù)變成可以理解的信息資源,這種轉(zhuǎn)換對企業(yè)數(shù)據(jù)分析及商業(yè)決策產(chǎn)生了極大的影響。不僅縮短了商業(yè)數(shù)據(jù)應用的運算時間,而且使數(shù)據(jù)變得更加真實、有效。

3數(shù)據(jù)挖掘在軟件工程中的實際應用探討

(1)挖掘結構。數(shù)據(jù)的挖掘結構能在企業(yè)軟件運行、軟件維護和軟件優(yōu)化中得到廣泛應用。企業(yè)可以根據(jù)實際需要,進行數(shù)據(jù)挖掘的代碼克隆,即將部分代碼進行直接復制。需要注意的是,復制代碼的過程要符合軟件工程的規(guī)范和標準。在復制代碼的基礎上,企業(yè)可以對代碼流程進行改進和創(chuàng)新,完善系統(tǒng)維護和運行。目前常見的克隆代碼的方法有結構程序、度量程序、對比文本和標識符比較等。根據(jù)實際需求可以采用不同的代碼克隆方式。(2)項目管理。在具體的數(shù)據(jù)挖掘技術應用中,軟件工程企業(yè)可以針對組織關系和版本控制數(shù)據(jù)進行數(shù)據(jù)挖掘。組織關系數(shù)據(jù)雖然相對繁瑣,但有利于軟件工程企業(yè)進行企業(yè)和項目的管理,梳理組織系統(tǒng)和組織管理,保障資源調(diào)配和應用的系統(tǒng)性和有效性。而版本控制數(shù)據(jù)是指數(shù)據(jù)挖掘技術中對數(shù)據(jù)進行控制和調(diào)整變化的數(shù)據(jù)部分。通過對這方面數(shù)據(jù)的應用,能更好的控制企業(yè)信息,出現(xiàn)混亂的流程和問題時能及時調(diào)整,提高軟件運行的穩(wěn)定性。根據(jù)這一特點,企業(yè)還能將數(shù)據(jù)挖掘應用到對問題進行提前預警和及時解決的過程中去,全面提高項目管理質(zhì)量。(3)開發(fā)應用。軟件工程的開發(fā)應用是指針對不同項目目標,研發(fā)出符合不同用戶需求的創(chuàng)新軟件產(chǎn)品,是一個復雜、繁瑣且應用廣泛的過程。這個過程中需要大量的項目數(shù)據(jù)和項目指標作為依據(jù)。數(shù)據(jù)挖掘技術將大量的數(shù)據(jù)進行整合、分類、傳遞和儲存后,輸出高質(zhì)量和高價值的數(shù)據(jù),能幫助縮短軟件開發(fā)時間,提高軟件處理效率。其次,軟件產(chǎn)品在設計與應用過程中,要根據(jù)不同的客戶需求進行產(chǎn)品功能劃分。(4)故障檢測。通過對軟件產(chǎn)品的執(zhí)行情況進行監(jiān)控,數(shù)據(jù)挖掘技術能應用到軟件工程產(chǎn)品故障檢測當中。數(shù)據(jù)挖掘技術對出現(xiàn)問題的進行分析和檢測后,幫助企業(yè)解決軟件工程故障,優(yōu)化產(chǎn)品結構和流程,保障相關工作的正常進行。除了軟件產(chǎn)品,數(shù)據(jù)挖掘技術還能對網(wǎng)絡客戶端軟件進行故障檢測。通過對網(wǎng)絡客戶端軟件的實時記錄,幫助技術人員監(jiān)控網(wǎng)絡情況、解決軟件漏洞,及時更新軟件補丁。

4數(shù)據(jù)挖掘技術在軟件工程中的主要應用方法

(1)關聯(lián)法。關聯(lián)法是指著重關注兩個事物之間內(nèi)在和外在聯(lián)系的研究方法。根據(jù)數(shù)據(jù)挖掘技術,常被應用到數(shù)據(jù)處理和數(shù)學采集當中。關聯(lián)法的使用中要體現(xiàn)在相關關聯(lián)和有趣關聯(lián)的應用。在實際應用過程中,相關人員要注意發(fā)現(xiàn)數(shù)據(jù)挖掘技術與軟件工程之間的關系,包括數(shù)據(jù)屬性中的支持度與置信度,通過關鍵指標之間的關系幫助數(shù)據(jù)挖掘技術與軟件工程的融合。(2)分類法。軟件工程關于數(shù)據(jù)挖掘技術應用的分類法就是對于可用于分類符號預測的分類,是一種具體的執(zhí)行動作。分類法在實際應用過程中,要與相應的分析基礎模型相結合,而且分析模型也要有相關應用基礎。分析基礎模式也就是相對于分類法的建構模型。目前,在軟件工程領域中,分類法的具體類型包括:決策樹法、K-最臨近分類法、貝葉斯法、神經(jīng)網(wǎng)絡分類法、支持向量機法等。其中決策樹中很重要的一點就是選擇一個屬性進行分枝,因此要注意一下信息增益的計算公式,并深入理解它。其中的n代表有n個分類類別(比如假設是2類問題,那么n=2)。分別計算這2類樣本在總樣本中出現(xiàn)的概率p1和p2,這樣就可以計算出未選中屬性分枝前的信息熵?,F(xiàn)在選中一個屬性xi用來進行分枝,此時分枝規(guī)則是:如果xi=vx的話,將樣本分到樹的一個分支;如果不相等則進入另一個分支。很顯然,分支中的樣本很有可能包括2個類別,分別計算這2個分支的熵H1和H2,計算出分枝后的總信息熵H’=p1H1+p2H2.,則此時的信息增益H=H-H’。以信息增益為原則,把所有的屬性都測試一邊,選擇一個使增益最大的屬性作為本次分枝屬性。決策樹的優(yōu)點:計算量簡單,可解釋性強,比較適合處理有缺失屬性值的樣本,能夠處理不相關的特征;缺點:容易過擬合(后續(xù)出現(xiàn)了隨機森林,減小了過擬合現(xiàn)象)。(3)聚類法。在數(shù)據(jù)挖掘技術中,聚類法是將數(shù)據(jù)對象根據(jù)相應的要求和標準,劃分成更加細致的不同種類和性質(zhì)的過程。聚類法的分類原則是,相同類型或性質(zhì)的信息數(shù)據(jù)之間必須仍然保持較高的相似程度,不同類型和性質(zhì)的信息數(shù)據(jù)在過程中也要使差異性不變。聚類法目前在信息技術和數(shù)據(jù)處理領域中得到廣泛利用。信息獨立分析特點幫助軟件工程進行關于商品和運行過程的欺詐檢測,有效保護運行過程的安全性和有效性,提高信息結果反饋的準確率。具體的數(shù)據(jù)挖掘算法如下圖3所示:除了上述的三種應用方法外,還有粗糙集法、模糊集法、遺傳算法等。其中粗糙集法是一種針對數(shù)據(jù)中含義不清晰、條件不完備和目的不準確的部分進行綜合處理的方法。這種方法能幫助企業(yè)在信息挖掘過程中,使信息更加簡化、集中,有效建立數(shù)學模型。

5結語

數(shù)據(jù)挖掘技術在現(xiàn)代科技發(fā)展中發(fā)揮了重要作用。不僅能保障軟件工程企業(yè)的設備運行的安全性和準確性,還能促進軟件產(chǎn)品的優(yōu)化進程,幫助更好的為客戶服務。因此,企業(yè)可以在實際工作中用數(shù)據(jù)挖掘技術代替?zhèn)鹘y(tǒng)的信息處理技術,憑借其優(yōu)異的數(shù)據(jù)處理能力和數(shù)據(jù)分析能力,降低企業(yè)科技研發(fā)成本和維護成本,保障企業(yè)的發(fā)展。

參考文獻:

[1]張小軍,任帥,申丹丹.淺析4G環(huán)境下數(shù)據(jù)挖掘在移動通信網(wǎng)絡優(yōu)化中的運用[J].電子技術與軟件工程,2014(08):208-209.

[2]李濤,曾春秋,周武柏,周綺鳳,鄭理.大數(shù)據(jù)時代的數(shù)據(jù)挖掘——從應用的角度看大數(shù)據(jù)挖掘[J].大數(shù)據(jù),2015,1(04):57-80.

[3]李艷,呂鵬,李瓏.基于大數(shù)據(jù)挖掘與決策分析體系的高校圖書館個性化服務研究[J].圖書情報知識,2016(02):60-68.

[4]阮弘毅.軟件工程數(shù)據(jù)挖掘技術應用研究[J].數(shù)碼世界,2018(02):126.

[5]黃斌,許舒人,蒲衛(wèi).基于MapReduce的數(shù)據(jù)挖掘平臺設計與實現(xiàn)[J].計算機工程與設計,2013,1(2):152-153.

作者:黃俊 單位:中國航發(fā)貴州紅林航空動力控制科技有限公司