网站首页
教育杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
医学杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
经济杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
金融杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
管理杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
科技杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
工业杂志
CSSCI期刊 北大期刊 CSCD期刊 统计源期刊 知网收录期刊 维普收录期刊 万方收录期刊 SCI期刊(美)
SCI杂志
中科院1区 中科院2区 中科院3区 中科院4区
全部期刊
公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘下的慕課學(xué)習(xí)需求特征分析

【摘要】本文通過挖掘慕課數(shù)據(jù)來研究學(xué)習(xí)者對課程需求的特征。首先構(gòu)建了非線性回歸的學(xué)習(xí)人數(shù)預(yù)測模型和基于隨機(jī)森林的學(xué)習(xí)人數(shù)分類模型,得到開課時(shí)間、課程類別、開課學(xué)校這三個(gè)變量對學(xué)習(xí)人數(shù)有影響。然后用TF-IDF提取關(guān)鍵詞并進(jìn)行可視化以及基于Gibbs抽樣建立主題個(gè)數(shù)為9的LDA主題模型,發(fā)現(xiàn)學(xué)習(xí)者對高等數(shù)學(xué)這門課的講解思路、習(xí)題答疑、課程內(nèi)容以及開課學(xué)校都有較強(qiáng)的關(guān)注點(diǎn)。

【關(guān)鍵詞】非線性回歸;隨機(jī)森林;課程特征;可視化;LDA主題模型

1引言

現(xiàn)階段國內(nèi)有許多提供慕課學(xué)習(xí)資源的平臺,如中國大學(xué)MOOC、智慧樹等,覆蓋大部分學(xué)科,且資源充足,授課形式各式各樣。但是海量的慕課資源也帶來一定的問題,如慕課質(zhì)量參差不齊,這給慕課學(xué)習(xí)者在選擇課程時(shí)帶來一定的困擾,并且造成資源的浪費(fèi)。因此,如何制作出高質(zhì)量且能滿足絕大部分學(xué)習(xí)者需求的慕課成為一大重點(diǎn),本文將從數(shù)據(jù)挖掘角度去建立學(xué)習(xí)人數(shù)預(yù)測模型以及分類模型,推斷影響學(xué)習(xí)者選擇的課程特征;并對評論進(jìn)行文本挖掘來研究學(xué)習(xí)者所期望的課程特征。

2數(shù)據(jù)采集與預(yù)處理

本文用Python工具爬取中國大學(xué)MOOC平臺的十五類課程數(shù)據(jù),每類課程數(shù)據(jù)包括學(xué)習(xí)人數(shù)、開課時(shí)間、學(xué)時(shí)安排、開課學(xué)校以及課程評論五個(gè)變量。然后清洗數(shù)據(jù),剔除異常值。接著對變量進(jìn)行賦值,定義學(xué)習(xí)人數(shù)為因變量y,課程類別為自變量x1,開課時(shí)間為自變量x2,學(xué)時(shí)安排為自變量x3,開課學(xué)校為自變量x4。將所有課程匯總為86種搭配,對每一種搭配的學(xué)習(xí)人數(shù)取均值,來反映某一特征課程的受歡迎程度。

3學(xué)習(xí)人數(shù)預(yù)測模型與分類模型

3.1預(yù)測模型的建立——多元回歸模型

將預(yù)處理后的數(shù)據(jù)隨機(jī)拆分為75%的訓(xùn)練集和25%的測試集,然后對訓(xùn)練集分別建立線性回歸模型與非線性回歸模型,并對測試集進(jìn)行預(yù)測。首先,通過參數(shù)檢驗(yàn)剔除不顯著變量后,最終擬合的線性回歸方程為:y=597.10χ1+596.56χ4此時(shí)模型相對誤差較大,擬合效果較差,接下來通過非線性對回歸模型做進(jìn)一步改進(jìn)。分別擬合y對每個(gè)自變量的單因素最佳一元非線性回歸模型,得到最終擬合的非線性回歸模型的方程:y=326.28χ1-8493.14χ2+1951.45χ22+2142.69χ4+2968.25e1/χ4將兩個(gè)模型的擬合結(jié)果、預(yù)測結(jié)果以及顯著性檢驗(yàn)情況進(jìn)行對比,根據(jù)擬合模型的R2a以及預(yù)測結(jié)果的RRMSE,認(rèn)為非線性回歸模型優(yōu)于線性回歸模型。

3.2分類模型的建立——支持向量機(jī)與隨機(jī)森林

對某一類型的課程學(xué)習(xí)人數(shù)取均值,均值小于等于3000的課程賦值為0,均值大于3000的課程賦值為1,然后將數(shù)據(jù)集按照7:3的比例隨機(jī)分為訓(xùn)練集和測試集。利用RBF核函數(shù)建立支持向量機(jī)模型,并假設(shè)RBF核函數(shù)的模型參數(shù)cost=100,gamma=1,得到的模型分類效果,效果較為一般。為改進(jìn)支持向量機(jī)模型的不足,使用默認(rèn)參數(shù)建立隨機(jī)森林模型。準(zhǔn)確率結(jié)果可以看出,隨機(jī)森林模型(準(zhǔn)確率76.92%)比支持向量機(jī)模型(準(zhǔn)確率69.23%)的分類模型效果更好,且從準(zhǔn)確率和特異性的角度分析發(fā)現(xiàn),開課時(shí)間和課程類別這兩個(gè)特征相對較為重要。

4課程評論的文本挖掘

4.1特征選擇與可視化

以高等數(shù)學(xué)課程評論為對象,利用ROSTCM軟件做初步處理,刪除重復(fù)評論、空行、英文字符。然后用R的tm包對初步處理后的評論中文分詞和去除停用詞。對預(yù)處理后的評論建立語料庫,約束每個(gè)詞最少2個(gè)字符,生成TF-IDF權(quán)重矩陣,并調(diào)整稀疏性,然后將同一個(gè)詞的權(quán)重值相加,并用詞云圖進(jìn)行可視化,結(jié)果發(fā)現(xiàn)該門課程學(xué)生關(guān)注的焦點(diǎn),“內(nèi)容”、“清晰”、“講解”,“詳細(xì)”“知識”等詞匯突出,權(quán)重值較大,說明學(xué)生對課程內(nèi)容的安排以及老師講課的思路重視程度大。對評論進(jìn)行情感分析,對情感分析的好評提取關(guān)鍵詞,其中“思路”、“時(shí)間”、“細(xì)致”、“全面”這幾個(gè)詞的權(quán)重大,說明該門課程的時(shí)長、內(nèi)容安排比較合理。對情感分析的差評提取關(guān)鍵詞,其中“在念”、“解析”、“考試”、“作業(yè)”、“口音”等詞權(quán)重大,說明有些課程尚存在講解者口音重、念ppt以及考試題目安排難度不合理的現(xiàn)象。

4.2基于Gibbs抽樣的文本主題建模

設(shè)定主題先驗(yàn)參數(shù)α=0.1,β=0.1,主題數(shù)K的范圍為3到30,基于Gibbs抽樣算法,使用最大似然估計(jì)得到最優(yōu)主題個(gè)數(shù)為9個(gè)。根據(jù)詞語在不同主題上的最大概率分布,將模型生成的九個(gè)主題中的前五個(gè)高頻詞取出,結(jié)果說明主題一、二、五、六、七、九能反映學(xué)習(xí)者在慕課學(xué)習(xí)過程中的關(guān)注點(diǎn),主要有以下四點(diǎn):(1)授課老師的講解思路;(2)習(xí)題的講解;(3)課程內(nèi)容的合理安排;(4)開課的學(xué)校。

5結(jié)語

非線性回歸預(yù)測模型得到開課時(shí)間、課程類別以及開課學(xué)校對學(xué)習(xí)人數(shù)有顯著影響,并且寒假期間開課的課程學(xué)習(xí)人數(shù)最少,所以平臺可以在暑假時(shí)多推出新課程。分類模型的分類結(jié)果顯示,文學(xué)文化、計(jì)算機(jī)以及理學(xué)類的學(xué)習(xí)人數(shù)相對較多,這與當(dāng)今時(shí)代的行業(yè)潮流發(fā)展有莫大關(guān)系,所以課程的數(shù)量比要跟時(shí)代相結(jié)合。對于高等數(shù)學(xué)這門課的慕課,學(xué)習(xí)者對課程的內(nèi)容設(shè)置、授課老師的思路以及開課學(xué)校這四個(gè)方面關(guān)注點(diǎn)高,建議平臺設(shè)置階梯式課程以適應(yīng)不同水平的學(xué)習(xí)者。

【參考文獻(xiàn)】

[1]王江榮,文暉.基于多元非線性回歸理論的坦克蓄電池剩余容量非線性回歸預(yù)測研究[J].電氣自動化,2015,37(06):109-110,113.

[2]于韜,王洪巖.基于TF-IDF算法的文本信息提取[J].科技視界,2018(16):117-11.

作者:林媛 葉幸 郭桂璇 肖莉 周燕 單位:華南農(nóng)業(yè)大學(xué)

免责声明

本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。

AI写作,高效原创

在线指导,快速准确,满意为止

立即体验
文秘服务 AI帮写作 润色服务 论文发表