公務員期刊網(wǎng) 論文中心 正文

分類器組合增量集成的遠程教育論文

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了分類器組合增量集成的遠程教育論文范文,希望能給你帶來靈感和參考,敬請閱讀。

分類器組合增量集成的遠程教育論文

1引言

基于上述分析,為了更好地在遠程教育系統(tǒng)中對學生的表現(xiàn)進行預測,本文提出使用投票方法結合樸素貝葉斯的增量版本、1-NN和WINNOW算法。實驗結果表明,本文提出的算法應用于預測學生表現(xiàn)方面非常有用,能夠識別出學生的不良表現(xiàn),還能使老師在較早階段采取預防措施。甚至在學年一開始,為了對有危險的群體提供額外的幫助,更加準確地診斷出學生表現(xiàn)的能力會隨著學期中加入新的課程數(shù)據(jù)而提升,為老師提供了更加有效的結果。

2背景

本章給出為預測學生表現(xiàn)進行的教育數(shù)據(jù)挖掘、在線學習算法和增量集成分類器的一些基本理論。

2.1教育數(shù)據(jù)挖掘

分類、分簇、可視化、關聯(lián)規(guī)則和統(tǒng)計挖掘通?;趯W生們的使用數(shù)據(jù)發(fā)掘新的、有趣且有用的知識,主要應用于電子學習問題或?qū)ο罂商幚砼c評估學生的學習表現(xiàn)、基于學生的學習表現(xiàn)提供適應性課程和學習建議、處理與評估學習材料和基于網(wǎng)頁的教育課程、提供教師和學生的電子學習課程反饋、監(jiān)督非典型學生的學習表現(xiàn)。分類(電子學習中最有用的教育數(shù)據(jù)挖掘任務之一)可用作不同的教育目標,例如:將提示驅(qū)動或錯誤驅(qū)動的那些學生分組,找出這些學生通常有的錯誤觀念;使用智能教學系統(tǒng)時預測/分類學生等。還有,使用不同數(shù)據(jù)挖掘方法預測學生學習成績(分出低、中、高等級)、使用來自Moodle日志的神經(jīng)網(wǎng)絡模型。

2.2在線學習算法和增量集成分類

在線學習任務是為了從標記的隨時間分布的訓練數(shù)據(jù)中獲得一組概念描述,這類學習對許多應用都是重要的,如計算機安全、智能用戶接入和市場購物籃分析,客戶的喜好會隨著新產(chǎn)品而變化,服務變得可用。應對概念漂移算法必須快速并精確地收斂到新的目標概念,而且在時間和空間上都有效。在不斷變化的環(huán)境中增量學習系統(tǒng)理想的特征有:•無明顯關于系統(tǒng)環(huán)境變化的信息進入系統(tǒng)時監(jiān)測環(huán)境變化的能力。•從變化環(huán)境中迅速恢復的能力和調(diào)整假設滿足新環(huán)境的能力。•舊環(huán)境重復出現(xiàn)時在環(huán)境中利用先驗經(jīng)驗的能力。在線學習算法處理每個訓練實例一次,不需要存儲和預處理,維護當前的影響目前所有訓練實例的假說,這類算法對大型數(shù)據(jù)集也是有用的,對大數(shù)據(jù)使用要求多次遍歷的批算法代價非常昂貴。批神經(jīng)網(wǎng)絡學習算法會多次遍歷數(shù)據(jù)集,但在線學習的神經(jīng)網(wǎng)絡僅需遍歷一次數(shù)據(jù),然而,僅遍歷一次數(shù)據(jù)可能會有一些相關損失。所有這些算法都有一個已知的缺點,一次進行幾個例子的學習非常困難,為了解決這個問題,一些技術依賴于窗口技術,它包括存儲的最后n個例子,當新例子加進來時才執(zhí)行一次學習任務。加權多數(shù)算法(WM)是許多在線算法的基礎,WM維護專家集的權重向量,通過專家之間的加權多數(shù)投票預測輸出。投票感知在訓練期間能存儲更多的信息,然后使用這個精細的信息在測試集上產(chǎn)生更好的預測。為了計算一個預測,算法計算了每個預測向量的二進制預測,通過加權多數(shù)投票合并所有這些預測,使用的權重是上述的幸存次數(shù),這產(chǎn)生了直觀的感受,“優(yōu)秀”的預測向量幸存時間長,在多數(shù)投票中有較大的權重。合并分類器的概念是改進分類器性能的一個新方向,然而,在線設置中不是很明白如何直接應用集成方法。一個解決辦法是依靠用戶指定每個基本學習者輸入流中例子的數(shù)目,但該方法假設已知很多關于數(shù)據(jù)流結構的情況。也存在重新加權分類器的在線升級算法,但是這些算法假設分類器數(shù)目是固定的,此外,當基本模型由少量例子訓練時在線升級最初可能會有很大的損失,算法可能再也無法恢復。

3算法

提出眾所周知分類器優(yōu)化集的選擇是多分類器系統(tǒng)的一個重要部分,通常把分類器輸出的獨立性當作獲得更好的多分類器系統(tǒng)的優(yōu)勢。分類器合并項中,投票方法要求分類器無任何先決條件。當使用投票方法合并多個分類器時,如果大多數(shù)專家同意他們的觀點就會做出正確的決策,基于對這一點的信任,本文期待能獲得更好的結果。目前,有三種集成學習算法備受關注:•WINNOW算法的核心類似于感知。如果∑ixiwi>θ,它分類一個新的實例x到類2,否則分類至類1。然而,如果預測的類是正確的,WIN-NOW如下更新它的權重,如果預測的值是y′=0,且實際值為y=1,則權重太?。灰虼?,對于每個xi=1,權重wi=wi•β這類的特征,其中,推廣參數(shù)β大于1。如果y′=1且y=0,則權重太大;因此,對于每個特征xi=1,會通過設定權重wi=wi•β中0<β<1來降低對應的權重,稱為降級參數(shù)。WIN-NOW是指數(shù)更新算法的一個實例,相關特征的權重呈指數(shù)增長,但是不相關特征的權重呈指數(shù)縮小,基于這個原因,WINNOW能迅速適應目標函數(shù)中的變化(概念漂移)。•1-最近鄰(1NN)是基于這樣的原則:一般會存在與數(shù)據(jù)集內(nèi)實例很靠近的實例,且這些實例有類似的屬性。如果把實例打上類標簽,則未分類實例的標簽值可以通過觀察它的最近鄰居類而確定。這個空間內(nèi)實例的絕對位置不如實例之間相對位置那么重要,使用距離度量標準確定相對距離,理想的距離度量標準一定是兩個相似類的實例之間的最小距離,而不同類的實例之間的最大距離。•樸素貝葉斯分類器是最簡單的貝葉斯網(wǎng)絡形式,因為它認定了每個特征與其他特征都是獨立的假設,給定類特征的狀態(tài)。獨立性的假設顯然幾乎總是錯誤的,然而,簡單的樸素貝葉斯方法仍然很有競爭力,盡管它提供了對真實基礎概率很差的估計。樸素貝葉斯算法用于“批模式”,意味著算法見到它的訓練實例之后還不能執(zhí)行它絕大部分計算,而是在所有訓練實例上累積特定信息,然后在整個群里或者實例的“批”上執(zhí)行最終的計算,然而,需要注意的是,算法中沒有固定任何東西去阻止使用它進行增量式的學習。例如,考慮增量式樸素貝葉斯算法可以運行,假設它只遍歷一次訓練數(shù)據(jù)。第1步,初始化所有的計數(shù)和總和為0,然后貫穿訓練實例,一次一個,對于每個訓練實例,給定特征向量x和它的標簽值,算法貫穿特征向量并遞增合適的計數(shù);第2步,用每個計數(shù)值除以同一類訓練實例的數(shù)目轉(zhuǎn)化這些計數(shù)和總數(shù)為概率;最后,計算之前的概率p(k),當作類k所有訓練實例的分數(shù)。本文提出的集成算法以創(chuàng)建三個算法(NB、WINNOW、1-NN)的集為起點,當新的實例到達時,算法經(jīng)過它,并接收每個專家的預測。在線設置中,算法連續(xù)修改它使用的假說,重復接收模式,基于專家預測的多數(shù)投票預測它的分類,找出正確的分類,可能因此更新它的假說。本文提出的集成方法的整體框圖如圖1所示,其中,hi是每個分類器產(chǎn)生的假說,x是分類的實例,y*是提出的在線集成方法的預測。模型的數(shù)目或運行時間參數(shù)由用戶調(diào)整,這也是算法的一個易用性指標,對于非專業(yè)性數(shù)據(jù)挖掘,本文提出的集成方法無用戶調(diào)整參數(shù),將更吸引人。本文使用這三個具體的算法是因為它們很容易適應在線環(huán)境,不僅同一個WRI的新標記可利用,而且下一個WRI的標記也變得可用。對這三個算法使用簡單的多數(shù)投票方法是因為它在在線環(huán)境中使用簡單。增量訓練學習者成為新實例的打包升級實現(xiàn)是可用的,但是沒有新特征變得可用。本文提出的集成方法能輕松的實現(xiàn)每臺機器并行使用學習算法。并行和分布式計算對機器學習(ML)執(zhí)行者來說很重要,ML系統(tǒng)并行或是分布執(zhí)行的優(yōu)點有:

1)提高速度;

2)增加可使用的應用范圍(例如它可以處理更多數(shù)據(jù))。

4實驗

4.1數(shù)據(jù)集

本文以希臘遠程教育大學“信息”課程提供的訓練集HOU為研究目標,HOU的基本教育單元是模塊,一個學生每年可以注冊高達三個模塊,“信息”課程由12個模塊組成,可得到學士學位。HOU的INF10模塊中,每學年學生必須上交四份書面作業(yè),參加與老師面對面的四個可選會議,11個月后應考最終的測試。希臘的大學成績系統(tǒng)是10分制系統(tǒng),學生分數(shù)大于等于5,則通過課程或模塊,而小于5則意味著掛科。共有1347個實例(學生的記錄)注冊INF10,如表1所示。從兩個不同資源中收集數(shù)據(jù),HOU的學生注冊和老師的記錄,幾乎收集到了所有學生的有關數(shù)據(jù)。“類屬性”(因變量)表示導致期末考試測試結果的兩個值,“失敗”表示學生表現(xiàn)差,“差表現(xiàn)”表示學年內(nèi)暫停學業(yè)的學生(由于個人或?qū)I(yè)原因或沒能力上交兩份書面作業(yè))及不參加期末考試或參加了期末考試但分數(shù)低于5分的學生,“通過”表示完成了INF10模塊,在期末考試中得到的分數(shù)超過5分。

4.2實驗結果及分析

第一階段(訓練階段)使用2006~2007學年收集的數(shù)據(jù)訓練每個算法,將訓練階段劃分成四個連續(xù)步驟,第1步包括來自第一份書面作業(yè)和得到的類中的數(shù)據(jù),第2步包括第1步使用的數(shù)據(jù)和第二份書面作業(yè)的數(shù)據(jù),第3步包括第2步使用的數(shù)據(jù)和第三份書面作業(yè)的數(shù)據(jù),第4步包括第3步使用的數(shù)據(jù)和第4份書面作業(yè)的數(shù)據(jù)。隨后,收集新學年(2007~2008)的一組數(shù)據(jù),這組數(shù)據(jù)用于測量預測值精度(測試階段),測試階段也分成四個步驟,第1步,為了預測類,使用第一份書面作業(yè)。剩余的步驟以上述相同的方式使用新學年的數(shù)據(jù)。實驗一:將本文提出的算法與每個在線學習算法(樸素貝葉斯、1-NN、WINNOW)進行比較。本文通過調(diào)整任一算法的特定數(shù)據(jù)集來最小化任一專家系統(tǒng)偏見的影響,盡可能使用學習參數(shù)的缺省值,這樣可能導致較低的估計誤差率,但可能會影響所有學習算法的偏置,表中的WRI-1標記的行表示預測精度。從表可以明顯看出,依照p<0.05的t-測試,本文提出的集成算法的分類精度優(yōu)于其它各個分類器??偟膩碚f,本文提出的集成算法在四個測試步驟的四個輸出上明顯比WINNOW算法更精確,此外,本文提出的算法在四個測試步驟的兩個輸出上明顯比1-NN算法更精確,而且,本文提出的算法在四個測試步驟的一個輸出上明顯比NB算法更精確。實驗二:將本文提出的集成方法與每一批先進的機器學習技術的代表性算法進行了比較。批算法是用于測量學習算法精度的上層算法,大部分批算法的增量版本都不是無損的,無損在線學習算法就是當給定同一個訓練集時,這個算法會返回一個假說,與它對應的批算法返回的相同。C4.5算法是一個決策樹代表性算法,RBF算法是一個眾所周知的估計神經(jīng)網(wǎng)絡權重值的學習算法,是神經(jīng)網(wǎng)絡的代表性算法,本研究中,3-NN算法結合了強魯棒性噪聲,RIPPER是規(guī)則的代表性學習者,最后,序貫最小優(yōu)化算法(SMO)是SVMs的代表性算法,表中WRI-2、WRI-3、WRI-4標記的行表示每個算法的預測精度。表明顯地表示出本文提出的集成方法在四個測試步驟的一個輸出上明顯比RBF、BP和SMO算法更精確,此外,本文提出的算法在四個測試步驟的兩個輸出上明顯比3NN算法更精確,本文提出的算法在四個測試步驟的一個輸出上明顯比RIPPER和C4.5算法更精確,最后,本文提出的算法在四個測試步驟的四個輸出上也明顯比投票感知方法更精確。實驗三:將本文提出的方法與幾個眾所周知的集成分類器進行了比較,必須提到的是其他集成方法只能用于批模式,本文使用批集成作為測量集成方法精確度的上層算法。第三個實驗用于比較:

1)Adaboost決策樹樁算法和10次迭代算法,

2)有10顆樹的隨機森林集成算法,

3)投票感知器算法,

4)帶C4.5的旋轉(zhuǎn)森林算法和10次迭代算法。表4明顯地表示出本文提出的集成方法在四個測試步驟的一個輸出上明顯比其他測試的批集成方法更精確。從表可以看出,正如之前提到的,本文提出的集成方法的主要優(yōu)點是它能很容易地適用于在線環(huán)境,不僅相同WRI的新標記變得可用,而且下一個WRI的標記也可用,如果本文已經(jīng)使用了另一個測試學習者和集成方法,那么當下一個WRI的標記變成可用時,應該從零開始重新訓練分類器。實驗四:將本文的數(shù)據(jù)集中所有算法都用于批學習者,表5給出了訓練時間。從表5可以明顯看出,增量更新將比在目前所見的所有數(shù)據(jù)上返回一個批算法快得多,它甚至可能是僅有的辦法,如果不能存儲目前所見的所有數(shù)據(jù)或者如果實時時間內(nèi)需要執(zhí)行在線預測和更新,至少它是非常迅速的。最大限度減小所需的訓練時間是學者們非常感興趣的事,正如前面提到的,數(shù)據(jù)分析主要的研究領域是可用于數(shù)以百計訓練實例問題的精確度技術的探索。

5結語

本文提出了一種使用投票方法結合三個在線分類器的集成算法:樸素貝葉斯、1-NN和WIN-NOW算法,通過非常精確的預測,老師有能力知道哪些學生能完成模塊或課程,這個預測初始精度為73%,基于學生的人數(shù)統(tǒng)計數(shù)據(jù),在期末考試前達到82%。數(shù)據(jù)集來自模塊“信息介紹”,但結論是可推廣的,目前引起了學者們對HOU大部分模塊廣泛的研究興趣。實驗結果表明,相比幾種較為先進的分類器,本文提出的分類集成算法能夠更加準確地預測學生的表現(xiàn)。

作者:馮莉 單位:廈門城市職業(yè)學院人文社科與藝術系動漫教研室