前言:想要寫出一篇引人入勝的文章?我們特意為您整理了軟件工程數(shù)據(jù)挖掘技術(shù)探討范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文將從軟件工程中數(shù)據(jù)挖掘的概述角度出發(fā),對相關(guān)定義進行介紹,同時闡述其主要特征,并且分析數(shù)據(jù)挖掘技術(shù)的常用方式,進而列舉此項技術(shù)在軟件工程中的應(yīng)用途徑,指出其未來應(yīng)用趨勢,以期為有關(guān)部門提供可靠參考。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);軟件工程;信息數(shù)據(jù)庫
當(dāng)今社會已經(jīng)進入了信息化時代,互聯(lián)網(wǎng)與計算機技術(shù)的持續(xù)發(fā)展,帶動了數(shù)據(jù)挖掘技術(shù)的全面提升,尤其是軟件工程中此項技術(shù)已經(jīng)得到了廣泛應(yīng)用。在如今數(shù)據(jù)挖掘技術(shù)中,有關(guān)部門正致力于智能化、自動化技術(shù)的研發(fā)和應(yīng)用領(lǐng)域中,以便使相關(guān)技術(shù)潛力被挖掘出來,有效處理龐大的信息系統(tǒng)。
1軟件工程中數(shù)據(jù)挖掘概述
1.1數(shù)據(jù)挖掘定義。所謂數(shù)據(jù)挖掘,即從相應(yīng)大數(shù)據(jù)庫當(dāng)中將可以為人理解、具備很大可利用性、正確性以及新穎性模式的一類高等處理流程,其屬于發(fā)現(xiàn)知識的新形式,重點依靠計算機來檢索數(shù)據(jù),進而發(fā)現(xiàn)新趨勢以及新模式。在此過程中,應(yīng)當(dāng)多次提取相關(guān)知識,隨后把有關(guān)數(shù)據(jù)全面篩選出來,以最科學(xué)的方式加以處理,使學(xué)習(xí)效率得到全面提升。而挖掘數(shù)據(jù)的主要任務(wù)便是獲得更加實用、優(yōu)秀的邏輯思維,并且有效拓展、驗證現(xiàn)有知識。1.2軟件工程中數(shù)據(jù)挖掘定義。在大規(guī)模數(shù)據(jù)當(dāng)中將所需數(shù)據(jù)信息充分挖掘出來,即傳統(tǒng)數(shù)據(jù)挖掘。而在當(dāng)前的軟件工程當(dāng)中,借助自動搜尋功能取得想要得到的信息數(shù)據(jù),也就是軟件工程中的數(shù)據(jù)挖掘。1.3軟件工程中數(shù)據(jù)挖掘特征。與傳統(tǒng)數(shù)據(jù)挖掘相比,軟件工程中的數(shù)據(jù)挖掘特色較為明顯。在傳統(tǒng)數(shù)據(jù)挖掘技術(shù)當(dāng)中,主要包括了版本信息以及軟件報告等有關(guān)的結(jié)構(gòu)數(shù)據(jù);而在軟件工程中的數(shù)據(jù)挖掘技術(shù)對應(yīng)系統(tǒng)信息數(shù)據(jù)當(dāng)中,包括了極多注釋、代碼等非結(jié)構(gòu)化的信息數(shù)據(jù),二者算法并不相同,然而卻具備較為緊密的關(guān)聯(lián),所以,軟件工程中數(shù)據(jù)挖掘技術(shù)最大特征,便是數(shù)據(jù)復(fù)雜性。在傳統(tǒng)數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,其主要功能便是將報表系統(tǒng)處理結(jié)果提供給相應(yīng)用戶;而在軟件工程中數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,并不需要此類結(jié)果,其重點需要的便是將推翻或者符合結(jié)果的軟件缺陷、實例等的定位信息。
2數(shù)據(jù)挖掘技術(shù)常用方式
2.1神經(jīng)網(wǎng)絡(luò)方式。此類方式主要是對人腦神經(jīng)元加以模擬,并且將Hebb的學(xué)習(xí)規(guī)則以及MP模型當(dāng)作重要基礎(chǔ),同時以神經(jīng)網(wǎng)絡(luò)的連接權(quán)值對知識加以表示,有關(guān)學(xué)習(xí)主要體現(xiàn)在逐步計算相應(yīng)權(quán)值的過程中。在此方式中,最常用到的模型包含了自組織網(wǎng)絡(luò)、前饋式網(wǎng)絡(luò)以及反饋式網(wǎng)絡(luò),而各類模型又會分別被用在聚類、預(yù)測以及聯(lián)想記憶等。2.2遺傳算法應(yīng)用。此類方式主要是以生物自然的篩選以及遺傳激勵隨機搜索的算法為基礎(chǔ),屬于數(shù)據(jù)挖掘技術(shù)當(dāng)中最常見的操作模式之一。在遺傳算法的應(yīng)用過程中,其最大的優(yōu)勢便在于能夠促使許多表面聯(lián)系不大的各類事物,可以在各個模型之間構(gòu)建有關(guān)聯(lián)系,確保各事物得以協(xié)同、全面發(fā)展。與此同時,由于生物界對遺傳基因越發(fā)重視,也使得此方法得以被更有效的應(yīng)用。2.3可視化技術(shù)應(yīng)用。數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用文/楊品軍(云南師范大學(xué)實驗中學(xué)云南省昆明市650031)此項技術(shù)主要是借助某些圖表來表現(xiàn)出相應(yīng)數(shù)據(jù),例如,借助簡單的圖形將數(shù)據(jù)庫各項數(shù)據(jù)展示出來,能夠很直觀地呈現(xiàn)給研究人員,形象化單調(diào)數(shù)據(jù),使得研究人員可以更加容易地對相關(guān)數(shù)據(jù)信息加以全面掌握。2.4統(tǒng)計分析法運用。在此方法的應(yīng)用過程中,技術(shù)人員通常會借助主成分分析以及回歸分析等方式來對大數(shù)據(jù)庫各個字段間關(guān)系加以全面分析,其中的關(guān)系主要涵蓋了多重關(guān)系,可函數(shù)關(guān)系屬于極為重要的一種關(guān)系,各類函數(shù)關(guān)系往往能夠以公式的方式加以表示,但是相關(guān)的關(guān)系卻難以借助某些特定公式進行表示,而應(yīng)用統(tǒng)計分析法便可以合理利用此類關(guān)系。2.5決策樹技術(shù)應(yīng)用。此項技術(shù)通常會被應(yīng)用到分類、整合各類信息數(shù)據(jù),特別是在處理大量數(shù)據(jù)信息時,不僅可以幫助研究人員在較短時間中將關(guān)鍵信息找出來,更能夠簡單化、快速化信息分類,同時確保信息分類更加精準。然而此項技術(shù)也有一些缺陷,主要體現(xiàn)在其抗噪性能相對較差,且無法全方位對更復(fù)雜理念加以表述。
3數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用途徑
3.1信息數(shù)據(jù)軟件的建立。3.1.1大數(shù)據(jù)庫系統(tǒng)。所謂大數(shù)據(jù)倉庫,主要是面向穩(wěn)定的、主體的以及集成的一類數(shù)據(jù)信息集合,經(jīng)由構(gòu)建倉庫的方式來對經(jīng)營管理制定決策的過程予以全力支持。從本質(zhì)上來看,此過程重點包含了以下階段:(1)源數(shù)據(jù)階段:在此階段當(dāng)中,重點需要收集綜合數(shù)據(jù)、歷史數(shù)據(jù)以及當(dāng)前數(shù)據(jù)。(2)預(yù)處理源數(shù)據(jù)階段:此階段主要包含了軟件數(shù)據(jù)文檔以及關(guān)系數(shù)據(jù)庫等。(3)倉庫管理階段:重點包含了數(shù)據(jù)信息倉庫管理的工具、數(shù)據(jù)建模工具、抽取、元數(shù)據(jù)庫、裝載以及轉(zhuǎn)換等。(4)知識DM分析工具,主要包含了序列分析工具、分類分析工具、關(guān)聯(lián)分析工具以及聚類分析工具等。(5)可視化軟件領(lǐng)域?qū)I(yè)知識,將能夠?qū)浖|(zhì)量產(chǎn)生影響的關(guān)鍵因素揭示出來。以上五點便全面組成了整體大數(shù)據(jù)倉庫的管理體系。3.1.2大數(shù)據(jù)庫建模。此項工作的主要任務(wù)便是把現(xiàn)有數(shù)據(jù)信息全面歸納到一起,從而構(gòu)建出科學(xué)的大數(shù)據(jù)資源信息庫。信息庫當(dāng)中重點包含的信息有可行性研究報告、客戶需求信息、軟件系統(tǒng)信息以及客戶評估信息等:(1)可行性研究報告:研究技術(shù)應(yīng)用是否具備運行可行性,以及法律、經(jīng)濟、使用與技術(shù)等能否達到預(yù)期效果。(2)客戶需求信息:技術(shù)人員應(yīng)當(dāng)把客戶需求信息及時進行整理、歸納,以便確定系統(tǒng)數(shù)據(jù)、功能以及界面等。(3)軟件系統(tǒng)信息:此類信息屬于應(yīng)用軟件的重要基礎(chǔ),重點包含了系統(tǒng)總體需求、支撐環(huán)境、規(guī)模和范圍等。(4)客戶評估信息:此類信息重點會被應(yīng)用到軟件測試工作中,這些測試包括了形式化測試、動態(tài)測試以及靜態(tài)測試等,從而收獲對應(yīng)信息,進而把客戶需求信息和客戶評估信息全面匯總,以便在應(yīng)用軟件的質(zhì)量加以合理權(quán)衡,將各種存在錯誤及時發(fā)現(xiàn)出來,并且進行合理修改。3.2應(yīng)用于開發(fā)開源軟件。此類軟件主要屬于開放源代碼的一類應(yīng)用軟件。當(dāng)前此類軟件對于廣大用戶而言都屬于免費應(yīng)用的,因此導(dǎo)致軟件的管控工作很難順利進行下去。但是在軟件工程當(dāng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),能夠使開源軟件整體質(zhì)量得到有效提升。比如在某大學(xué)所設(shè)計的信息數(shù)據(jù)挖掘平臺當(dāng)中,便可以確保跟蹤管理平臺的使用者以及開發(fā)者,這能夠在很大程度上使開源軟件整體質(zhì)量得到全面提升,進而使相應(yīng)損失率被降低。3.3應(yīng)用于對程序代碼與結(jié)構(gòu)的挖掘。在對程序結(jié)構(gòu)、代碼等進行挖掘的過程中,克隆代碼檢測法屬于一類較為常用的數(shù)據(jù)挖掘技術(shù),其又會被細分成以下四種方法,即標識符對比、度量、程序結(jié)構(gòu)以及文本對比。上述方法各自具備不同特征,在實際應(yīng)用過程中,一般都需要對現(xiàn)實狀況加以確定,從而篩選出最合理挖掘技術(shù)。在克隆代碼的檢測過程中,往往會對某個主要代碼進行復(fù)制和粘貼,而在特殊需求之下,會按照實際需求對一部分代碼進行改正,對這部分代碼進行檢測,重點是避免出現(xiàn)大面積的故障,以便對系統(tǒng)安全進行有效維護,將可靠環(huán)境提供給軟件的日常工作。除此之外,Aspect技術(shù)也屬于當(dāng)今世界上較為常見挖掘技術(shù)之一,此項技術(shù)屬于日常研究過程中提到的“橫切關(guān)注點”挖掘技術(shù)。在軟件工程當(dāng)中,對于改造面向軟件的工作,重點便是將Aspect挖掘技術(shù)相關(guān)問題解決好。在解決過程中,技術(shù)人員雖然擁有許多解決方式,然而度量分析法才是最核心的解決方式。3.4應(yīng)用到軟件項目管理。在實際工作過程中,對軟件項目的日常管理工作,一般擁有系統(tǒng)化、復(fù)雜化的特征。因此,在軟件項目管理工作當(dāng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),主要的任務(wù)包括了:(1)挖掘組織關(guān)系:例如某公司在舉辦年會活動的過程中,一旦沒有妥善處理好人員分配問題,便極易引發(fā)諸多混亂局面。所以,為了科學(xué)配置公司的人力資源,一般都會借助數(shù)據(jù)挖掘技術(shù)對全體職員職責(zé)進行科學(xué)區(qū)分,以便使項目實現(xiàn)有序化的管理,進而使其辦事效率得到全面提升。(2)對版本的控制信息進行有效挖掘:在系統(tǒng)面對外部系統(tǒng)侵入的時候,數(shù)據(jù)挖掘技術(shù)會提出相應(yīng)的警告;與此同時,此項技術(shù)還能夠?qū)ο到y(tǒng)修復(fù)狀況進行全面檢測。而版本控制信息最重要的作用,便是使民眾能夠更加順利地查看軟件的版本信息,將數(shù)據(jù)挖掘技術(shù)應(yīng)用其中,便能夠有效確保系統(tǒng)得以安全工作,最終提升軟件項目管理整體水準。3.5記錄傳輸信息的路徑。數(shù)據(jù)挖掘技術(shù)對于傳輸信息的路徑而言,可以對其進行更有效的記錄,并且以之為基礎(chǔ),保證信息與軟件間得以良好互動,從而防止時間被浪費,也更加便于實際操作。在尋找數(shù)據(jù)信息的過程中,重點是借助分析程序執(zhí)行途徑來完成的,隨后將探尋到的信息傳輸途徑當(dāng)作重要基礎(chǔ),從而展開持續(xù)跟蹤,有效整合信息數(shù)據(jù),建立健全信息數(shù)據(jù)系統(tǒng),促使信息數(shù)據(jù)得以被高效傳輸?shù)墓δ茉趯?yīng)系統(tǒng)內(nèi)部被充分實現(xiàn)。3.6應(yīng)用于對版本信息的檢測。對于軟件運行信息數(shù)據(jù)來說,每代軟件都各有區(qū)別,一旦新版本問世,老一代版本內(nèi)部便會存在難以兼容的狀況。雖然從整體上來看,軟件版本的迭代更新往往會使軟件的使用功能趨于完善,然而也會常常出現(xiàn)丟失用戶個人數(shù)據(jù)信息的問題。截止到目前,能夠?qū)ι鲜鰻顩r有效規(guī)避的關(guān)鍵方式,便是應(yīng)用數(shù)據(jù)挖掘技術(shù),此技術(shù)除了可以在第一時間檢測到軟件版本的更新信息,還可以及時對用戶個人數(shù)據(jù)信息進行備份,同時把采集到的有效數(shù)據(jù)信息備份到云端,也不會加大軟件負荷,進而確保數(shù)據(jù)信息保持完整性以及精準性。3.7運用到檢測漏洞。在日常開發(fā)軟件的過程中,時常會出現(xiàn)各種各樣的漏洞,此現(xiàn)象十分常見。在通常狀況中,以傳統(tǒng)檢測技術(shù)展開漏洞檢測工作,雖然能夠在檢測時發(fā)現(xiàn)大多數(shù)的系統(tǒng)漏洞,然而依然很難檢測出那些小漏洞,從而致使檢測并不徹底、全面,最終對整體系統(tǒng)產(chǎn)生不良影響。在實踐過程中得知,數(shù)據(jù)挖掘技術(shù)在應(yīng)用于對上述系統(tǒng)漏洞進行檢測的時候,能夠使檢測更加有效、精準,這主要是由于,數(shù)據(jù)挖掘技術(shù)在系統(tǒng)全面管控系統(tǒng)數(shù)據(jù)信息時,可以充分掌握運輸數(shù)據(jù)信息的主要路徑。一旦數(shù)據(jù)異常,此項技術(shù)便可以在第一時間有所察覺,走動記錄發(fā)現(xiàn)的異常數(shù)據(jù)信息,并且檢測數(shù)據(jù)信息自身問題,對多余信息數(shù)據(jù)以及缺少的信息數(shù)據(jù)加以及時處理,隨后重新排列被整理之后的信息數(shù)據(jù),并且將數(shù)據(jù)位置記下來。在此條件之下,軟件系統(tǒng)便不會再存在系統(tǒng)漏洞。
4數(shù)據(jù)挖掘技術(shù)在軟件工程中的未來應(yīng)用趨勢
在研究部門詳細劃分數(shù)據(jù)挖掘技術(shù)的各個方向之后,相應(yīng)的研發(fā)工作進展較為順利,研究人員的熱情處于高漲狀態(tài),而各領(lǐng)域研發(fā)成果也比較大,這些成果會極大影響到軟件工程開發(fā)的整體質(zhì)量以及效率。當(dāng)前部分軟件工程所應(yīng)用的數(shù)據(jù)挖掘技術(shù)較為陳舊,亟需技術(shù)人員及時轉(zhuǎn)變傳統(tǒng)發(fā)展觀念,學(xué)習(xí)掌握更新穎、更先進以及更合理的計算方法(如主動學(xué)習(xí)以及流行學(xué)習(xí))。除此之外,相應(yīng)檢索方式改變也很大,在過去,檢索往往需要輸入精準關(guān)鍵詞,得到的反饋也多為簡單語句,而在應(yīng)用數(shù)據(jù)挖掘技術(shù)之后,可幫人們使用自然語言展開檢索操作,最終獲得完整文檔。
5結(jié)論
總體而言,在軟件工程當(dāng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),其應(yīng)用價值很大。因此,對數(shù)據(jù)挖掘技術(shù)強化研究,對于軟件工程的全面發(fā)展意義深遠。所以,有關(guān)部門需要全面擴大研究范圍,加大研究深度,確保數(shù)據(jù)挖掘技術(shù)可以更可靠、成熟地被應(yīng)用到軟件工程當(dāng)中,促使其應(yīng)用效果得到全面強化。
參考文獻
[1]程志平,徐涢基.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用探究[J].信息技術(shù)與信息化,2018(12):210-212.
[2]張宇.數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用與研究[J].現(xiàn)代信息科技,2018,2(05):25-26.
[3]段彬,魏巍.數(shù)據(jù)挖掘在軟件工程領(lǐng)域中的應(yīng)用淺析[J].信息系統(tǒng)工程,2018(04):89.
[4]朱楠.淺析數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用與研究[J].信息系統(tǒng)工程,2018(01):40.
[5]劉銘,呂丹,安永燦.大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術(shù)的應(yīng)用[J].科技導(dǎo)報,2018(9).
作者:楊品軍 單位:云南師范大學(xué)實驗中學(xué)