前言:想要寫出一篇引人入勝的文章?我們特意為您整理了高校大數(shù)據(jù)分析平臺設計實現(xiàn)范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著高校各類應用系統(tǒng)的發(fā)展,信息化建設將轉向大數(shù)據(jù)服務階段。如何有效利用分散在各系統(tǒng)中的數(shù)據(jù),為學校的管理與決策提供數(shù)據(jù)支撐,是迫切需要解決的問題。文章闡述了數(shù)據(jù)采集整合過程和分布式存儲技術,設計了大數(shù)據(jù)分析平臺基礎架構和功能模塊,分析了相關數(shù)據(jù)模型。通過搭建大數(shù)據(jù)分析平臺,測試了數(shù)據(jù)采集功能和各分析模塊的展示情況。
關鍵詞:大數(shù)據(jù)分析平臺;Hadoop;數(shù)據(jù)采集
引言
隨著高校信息化建設快速推進,國內(nèi)高?;就瓿筛黝惢A應用系統(tǒng)的建設,在應用系統(tǒng)中也存儲了大量的數(shù)據(jù),包括教師和學生的工作、生活、學習、教學和科研等數(shù)據(jù),以及個系統(tǒng)的日志數(shù)據(jù)。由于各系統(tǒng)相對獨立無法進行系統(tǒng)間的數(shù)據(jù)共享,使得這些系統(tǒng)數(shù)據(jù)都閑置在各應用系統(tǒng)中。因為在學校的管理與決策中缺乏真實可靠的數(shù)據(jù)做支撐,所以研究如何將閑置的數(shù)據(jù)有效利用起來,對高校的信息化建設會更有意義。大數(shù)據(jù)分析平臺是在現(xiàn)有各應用系統(tǒng)的基礎上,對各系統(tǒng)匯集起的海量數(shù)據(jù)資源進行清洗、整理、挖掘、分析等操作后,數(shù)據(jù)標準化程度提高其利用價值也更大。大數(shù)據(jù)分析平臺的基礎是數(shù)據(jù),核心是分析模型,目標是應用。本文將整合校園內(nèi)各應用系統(tǒng)數(shù)據(jù),并對其進行挖掘、整理、分析,然后通過構建數(shù)據(jù)模型,搭建統(tǒng)一的大數(shù)據(jù)分析平臺,實現(xiàn)對零散的數(shù)據(jù)進行整合分析,分析結果可以為學校及各部門的管理和決策提供數(shù)據(jù)支撐,數(shù)據(jù)的利用價值也更高。對師生在工作、生活、學習、教學和科研方面提供行為分析,分析結果為學校優(yōu)化管理方式,提升服務水平提供指導,勾畫“千人千面”,讓學校真正了解師生。
1關鍵技術簡介
Hadoop[1]是一個分布式系統(tǒng)基礎架構,充分利用集群的優(yōu)勢對數(shù)據(jù)進行運算和存儲。Hadoop由許多元素構成,底層是分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS),用來存儲集群中所有存儲節(jié)點中的文件。HDFS上一層是Ma-pReduce引擎,為海量的數(shù)據(jù)提供高速計算。ETL(Extract-Transform-Load)[2]是用來描述將數(shù)據(jù)從源端經(jīng)過抽?。‥xtract)、轉換(Transform)、加載(Load)到目的端的過程。使用ETL目的是將學校中分散、零亂、標準不統(tǒng)一的數(shù)據(jù)整合到一起,為學校管理決策提供數(shù)據(jù)支撐。Sqoop[3]是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞,可以將一個關系型數(shù)據(jù)庫中的數(shù)據(jù)導入HDFS,也可以將HDFS的數(shù)據(jù)回流到關系型數(shù)據(jù)庫中。Sqoop也為NoSQL數(shù)據(jù)庫它也提供了連接器。Nutch[4]是一個開源的高度可擴展和可伸縮性的分布式爬蟲框架。Nutch主要由爬蟲Crawler和查詢Searcher組成,Craw-ler主要用于從網(wǎng)絡上抓取網(wǎng)頁并建立索引,Searcher主要利用這些索引檢索用戶的查找關鍵詞來產(chǎn)生查找結果。兩者之間的接口是索引,所以除去索引部分,兩者之間的耦合度很低。
2基礎架構設計
2.1數(shù)據(jù)采集
大數(shù)據(jù)分析應用采用Hadoop平臺及生態(tài)工具,從校園卡數(shù)據(jù)、上網(wǎng)日志數(shù)據(jù)、教學數(shù)據(jù)、師生管理數(shù)據(jù)和安防數(shù)據(jù)等結構化數(shù)據(jù)庫,以及網(wǎng)絡和相關表格文件等非結構化數(shù)據(jù)中,采集師生相關業(yè)務數(shù)據(jù)到分布式數(shù)據(jù)中心進行存儲、挖掘、分析和展示。確保數(shù)據(jù)采集對應用系統(tǒng)運行不產(chǎn)生影響的情況下,可實時或定時增量采集數(shù)據(jù)。為了便于擴展,架構還支持從其它關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫中采集結構化、非結構化數(shù)據(jù),挖掘關聯(lián)性更多的數(shù)據(jù)關系。數(shù)據(jù)采集架構如圖1。數(shù)據(jù)采集是大數(shù)據(jù)分析中最重要的一部分。結構化的數(shù)據(jù)通過統(tǒng)一數(shù)據(jù)集成管道對業(yè)務系統(tǒng)數(shù)據(jù)進行抽取,按照數(shù)據(jù)分析模型要求對各應用系統(tǒng)數(shù)據(jù)利用經(jīng)過抽取,轉換,加載至主數(shù)據(jù)庫;表格數(shù)據(jù)通過填報或導入的方式進入主數(shù)據(jù)庫;日志數(shù)據(jù)通過日志處理工具讀入主數(shù)據(jù)庫;互聯(lián)網(wǎng)中的社交、科研、輿情、Web等數(shù)據(jù)通過爬蟲工具采集至主數(shù)據(jù)庫。
2.2數(shù)據(jù)清洗整合
數(shù)據(jù)質(zhì)量是大數(shù)據(jù)分析效果的基礎,數(shù)據(jù)質(zhì)量的管理,是發(fā)揮數(shù)據(jù)價值的基石,也是大數(shù)據(jù)分析的重要前提。在數(shù)據(jù)分析平臺的建設過程中數(shù)據(jù)的清洗整合的工作占70%以上。大數(shù)據(jù)分析平臺從數(shù)據(jù)使用的角度管理數(shù)據(jù)的質(zhì)量,以可視化的形式反映數(shù)據(jù)質(zhì)量問題,數(shù)據(jù)也可以利用可視化的界面對質(zhì)量檢測規(guī)則進行配置。通過數(shù)據(jù)采集存入主數(shù)據(jù)庫中的數(shù)據(jù)質(zhì)量較差,容易出現(xiàn)空字段,數(shù)據(jù)標準不一致,數(shù)據(jù)描述不統(tǒng)一。數(shù)據(jù)的清洗整合主要通用數(shù)據(jù)質(zhì)量規(guī)則進行自定義配置,根據(jù)規(guī)則對主數(shù)據(jù)庫中存在異常的數(shù)據(jù)通過缺值填寫、無效值重復值刪除、異常值優(yōu)化等方法提高數(shù)據(jù)質(zhì)量,根據(jù)數(shù)據(jù)分析模型整合已抽取的數(shù)據(jù)。
2.3分布式存儲及數(shù)據(jù)分析
分布式存儲主要是通過Hadoop分布式文件系統(tǒng)(HDFS)以及MapReduce框架將數(shù)據(jù)分散存儲在多臺獨立的設備上[5],具有可擴展、低成本、高性能、易用等特征。傳統(tǒng)的網(wǎng)絡存儲是將所有數(shù)據(jù)集中存儲到存儲服務器上,存儲服務器的性能對存儲數(shù)據(jù)的影響較大,也成為平臺性能的瓶頸,不能滿足大規(guī)模數(shù)據(jù)存儲及使用的需要。在大數(shù)據(jù)分析平臺上使用分布式存儲,不但可以提高系統(tǒng)的可靠性、可用性和存取效率,還易于擴展。高校存儲的大量數(shù)據(jù)應用價值非常高,通過對抽取的數(shù)據(jù)進行標準化處理,搭建分析模型,實現(xiàn)用數(shù)據(jù)對師生的行為進行畫像,實時了解學生學習、教師教課等情況。
2.4平臺架構體系設計
大數(shù)據(jù)分析平臺主要向用戶展示師生行為,綜合數(shù)據(jù)分析,校情信息,教學及學習情況等。在平臺架構設計中要充分了解學校各系統(tǒng)目前運行情況,學校各單位對數(shù)據(jù)的需求,以及學校目前的數(shù)據(jù)重量情況,在架構設計和數(shù)據(jù)存儲空間設計時充分考慮平臺發(fā)展的需要。底層數(shù)據(jù)抽取、清洗整合、分析建模等基礎工作并不能向用戶展示,數(shù)據(jù)的準確性和模型的合理性決定了分析結果的可靠性。大數(shù)據(jù)分析平臺架構體系如圖2:此架構體系可以兼容多數(shù)高校已經(jīng)建設的數(shù)字校園結構體系,可以與已有的平臺和數(shù)據(jù)中心相輔相成,建設效率更快的情況下還能節(jié)省成本。讓原來的建設成果發(fā)揮更大的價值。
3大數(shù)據(jù)分析平臺功能設計
大數(shù)據(jù)分析平臺的場景應用是指通過數(shù)據(jù)建模把數(shù)據(jù)從各種維度、特征進行分析,然后根據(jù)不同的場景應用對分析結果進行展示。各應用場景的分析模型搭建需要充分了解各系統(tǒng)數(shù)據(jù),以便于從多維度區(qū)分數(shù)據(jù)需求程度。在高校大數(shù)據(jù)分析中,數(shù)據(jù)的來源主要從學生綜合系統(tǒng),人力資源,教務管理,圖書管理,校園卡系統(tǒng),安防,上網(wǎng)管理,科研管理、資產(chǎn)管理和醫(yī)院管理等系統(tǒng)中獲取。大數(shù)據(jù)深入分析時,還要對非結構化表格數(shù)據(jù)和互聯(lián)網(wǎng)數(shù)據(jù)進行采集,如通過表格填寫進行管理數(shù)據(jù)采集,利用爬蟲程序對互聯(lián)網(wǎng)中期刊數(shù)據(jù)庫、微博數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)、以及微信公眾號文章等數(shù)據(jù)進行采集,再結合學校其它相對變化不大的數(shù)據(jù),能搭建出更有價值的分析模型。各高校都有自己的特點,現(xiàn)有的各種分析模型并不能通用,必須根據(jù)本校實際情況對已有的分析模型進行優(yōu)化或重新搭建。其中行為軌跡主要通過對各系統(tǒng)中定時定點的數(shù)據(jù)進行串聯(lián),形成一條行為路線。
3.1學生數(shù)據(jù)分析
高校管理中對學生的管理十分重要,對學生的數(shù)據(jù)分析需要站在學生的角度進行思考,如學生上課考勤分析,首先針對學生的課表、學生請銷假、教室考勤機、校園卡記錄、上網(wǎng)記錄、圖書借閱、安防數(shù)據(jù)、校醫(yī)院系統(tǒng)等可以分析出有哪些學生沒有上課。根據(jù)學生日常行為軌跡或習慣,以及消費情況分析該生是否在談戀愛。根據(jù)學生上數(shù)據(jù)分析該生是否沉迷于網(wǎng)游。通過分析學生上課情況、教師情況、行為軌跡或習慣、以及相似課程成績等數(shù)據(jù)對學生的學習情況進行預警,并對產(chǎn)生預警的原因進行分析。通過數(shù)據(jù)分析使學生管理者輕松的掌握學生狀態(tài),同時也可得到出現(xiàn)該狀態(tài)的原因。在貧困生鑒別和精準扶貧方面,根據(jù)學生每月在校消費情況、家庭情況、助學貸款等數(shù)據(jù)篩選學生,并將男女分析算法區(qū)別設計。學生宿舍安全方面,通過宿舍智能電表實時監(jiān)測用電情況,對違規(guī)使用大功率、高電流及電表高溫等情況進行實時預警并將預警信息推送給相關人員進行處理。另外還可以通過數(shù)據(jù)分析對學生異常消費、上網(wǎng)時長,上網(wǎng)行為、心理健康、學業(yè)、學生軌跡等情況進行預警,可以對突發(fā)事件處理給予指導。通過用戶畫像從不同靜態(tài)屬性標簽勾畫學生人群進行展示,并支持深入挖掘學生消費行為信息,輔助學校在勤工助學、助學貸款、貧困生評定、價格調(diào)整、餐廳分流、超市分布、浴室建設等方面提供數(shù)據(jù)支撐。
3.2教師數(shù)據(jù)分析
在教學管理方面,通過教學數(shù)據(jù)、學生評教、學生到課率、教師備課、科研、圖書借閱等數(shù)據(jù)可以分析出教師所適合的優(yōu)勢課程,為教學管理人員課程安排提供指導,將數(shù)據(jù)推送至教師可以為其發(fā)展提供指導。通過教師的校園卡消費、行為軌跡、上網(wǎng)數(shù)據(jù)等數(shù)據(jù)分析教師是否存在離職風險,如校園卡消費方面出現(xiàn)有意清零或提現(xiàn),經(jīng)常瀏覽招聘網(wǎng)站或投遞簡歷等行為。
3.3其他數(shù)據(jù)分析
大數(shù)據(jù)分析能夠對學生和教師分析外,還可以從其他方面進行分析用來服務于校領導、后勤管理、校園卡管理、校園安全管理等??蒲蟹治龇矫妫ㄟ^對年度科研項目立項和科研成果等科研數(shù)據(jù)的分析,可以預測學??蒲邪l(fā)展情況,結合學校發(fā)展目標對發(fā)現(xiàn)的問題及時進行干預。教學管理方面,通過對不同專業(yè)、不同年級學生的選課情況和課程成績等數(shù)據(jù)的分析,是否需要對學校開設的選修課信息通信王樹國等:高校大數(shù)據(jù)分析平臺設計與實現(xiàn)進行調(diào)整,以適應學校的培養(yǎng)目標和學生的學習興趣。學生管理方面,通過校園卡、安防終端、相關賬號等數(shù)據(jù)可以進行身份識別,可以通過數(shù)據(jù)分析獲得實時在校人數(shù),以及早出晚歸、夜不歸宿的學生,在綜合學生數(shù)據(jù)后對學生的行為進行安全預警。餐飲消費、行為軌跡等數(shù)據(jù)與學習成績進行分析,分析結果可以指導輔導員對學生進行分類管理。餐廳管理方面,通過對師生消費時間、季節(jié)、窗口人流量、消費金額等數(shù)據(jù)分析,后勤和餐飲經(jīng)營者可以清楚的知道每個餐廳、每個窗口消費及收入情況,便于后勤對餐廳的管理,并及時對餐廳或窗口進行優(yōu)化調(diào)整??赏ㄟ^結合消費人群信息對消費用戶數(shù)據(jù)深入挖掘,獲得不同地方的人喜歡的口味,不同年級學生的餐飲習慣等情況。上網(wǎng)管理方面,通過對上網(wǎng)數(shù)據(jù)進行分類匯總、關鍵詞提取、應用程序分類、安全設備日志分析、用戶信息分類等數(shù)據(jù)進行分析,可以為學校網(wǎng)絡保障、網(wǎng)絡用戶管理、網(wǎng)絡安全預警、個人信息保護等提供數(shù)據(jù)支撐。圖書館管理方面,通過對學生和教師借閱時間、借閱書籍類型、借閱人類型、館藏圖書、在線期刊數(shù)據(jù)庫瀏覽等數(shù)據(jù)分析,以及學生進出圖書館的次數(shù)與成績之間的關系,為圖書館管理和圖書需求情況提供數(shù)據(jù)支撐,更便于師生了解圖書館進出高峰時間段、哪個區(qū)域人流量較多、哪種書籍更受人喜歡等信息。校園安全方面,通過對校園安防平臺中進出校門、進出校內(nèi)各樓宇、視頻邊界和人員密度報警等數(shù)據(jù)的分析,為學校安全管理提供指導。對校園卡及財務數(shù)據(jù)分析,可以讓校園卡管理老師了解學生、老師、臨時卡等在消費、充值、使用等方面的情況,為師生進一步提高服務質(zhì)量和主動服務意識提供指導。大數(shù)據(jù)分析平臺主要功能設計如圖3。大數(shù)據(jù)分析平臺可對用戶進行功能和數(shù)據(jù)授權。數(shù)據(jù)權限可分為全局、院系、輔導員和普通老師等級別,模塊權限可根據(jù)角色對功能模塊進行授權。可為師生提供大數(shù)據(jù)報告,可在PC和手機端訪問。學生和老師可了解食堂擁擠、窗口美食、洗澡高峰、充值趨勢、消費水平等等。數(shù)據(jù)智能管理方面,可以把數(shù)據(jù)庫中的數(shù)據(jù)根據(jù)自己想要的結果輕松配置出來,功能強大,操作簡單,用戶可自己操作。
4平臺實現(xiàn)
數(shù)據(jù)分析平臺基于JAVA框架,使用在智能代碼助手、重構、JUnit、CVS整合、代碼分析等方面功能優(yōu)越的IntelliJIDEA進行開發(fā),數(shù)據(jù)庫使用Oracle。在數(shù)據(jù)源管理中,利用Sqoop工具在Hadoop與關系型數(shù)據(jù)庫間進行數(shù)據(jù)的傳遞,也可以實現(xiàn)數(shù)據(jù)雙向流通,其底層實現(xiàn)就是MapReduce。對某些NoSQL數(shù)據(jù)庫利用Sqoop連接器,同樣可以實現(xiàn)數(shù)據(jù)流。新建數(shù)據(jù)源如圖4所示。權限管理在大數(shù)據(jù)分析平臺管理中主要進行組織管理,角色管理,用戶管理等。其中用戶角色定義中,根據(jù)不同用戶的需求分別定義管理員、校領導、院處領導、辦公室、教師、輔導員、學生等角色,根據(jù)不同角色劃分不同權限,每種角色都可以訂閱本角色范圍內(nèi)的需求信息,也可以根據(jù)學校管理需要給特定人推送相關信息。在用戶管理中對不同角色用戶可以進行批量權限劃分,通過對前臺的編碼實現(xiàn)對分析結果的展示,個人畫像展示如圖5。
5結語
闡述了高校在數(shù)據(jù)管理方面存在的問題,構建了大數(shù)據(jù)分析平臺技術架構,功能模塊?;贖adoop技術對大數(shù)據(jù)分析平臺的部分功能進行了測試。平臺試運行后為在校師生提供了統(tǒng)一的數(shù)據(jù)推送服務,并為相關部門的管理提供了數(shù)據(jù)支撐。平臺在對數(shù)據(jù)抽取和分析模型搭建方面還有進一步提升的空間,例如在學生健康狀況分析和學習情況分析,可以通過進一步數(shù)據(jù)挖掘,分析出質(zhì)量更高的結果。
參考文獻:
[2]陳鋒.ETL數(shù)據(jù)治理在高校信息化建設中的研究與應用.中國教育信息化[J].2020(13):68-70.
[3]王建軍,張英成,戰(zhàn)非,趙侃.基于Sqoop的高校海量結構化數(shù)據(jù)導入研究[J].無線互聯(lián)科技.2018(20):52-53.
[4]周飚.網(wǎng)絡數(shù)據(jù)采集框架Nutch及其應用研究[J].中國管理信息化,2019,22(18):167-169.
[5]王立友.高校智慧校園大數(shù)據(jù)平臺的設計與實現(xiàn)[J].河北民族師范學院學報,2020,40(2):88-93.
作者:王樹國 皮宗輝 付文豪 單位:喀什大學網(wǎng)絡與信息管理中心
本站为第三方开放式学习交流平台,所有内容均为用户上传,仅供参考,不代表本站立场。若内容不实请联系在线客服删除,服务时间:8:00~21:00。