前言:想要寫出一篇引人入勝的文章?我們特意為您整理了有線電視網(wǎng)絡(luò)運營商平臺建設(shè)研究范文,希望能給你帶來靈感和參考,敬請閱讀。
【摘要】根據(jù)企業(yè)實際業(yè)務(wù)需求,梳理大數(shù)據(jù)平臺所需具備的能力以及具體建設(shè)目標(biāo),按照滿足海量數(shù)據(jù)存儲、高性能計算、應(yīng)用豐富等企業(yè)級大數(shù)據(jù)平臺能力要求,從數(shù)據(jù)采集與預(yù)處理、計算與存儲、平臺運維和管理等方面構(gòu)建企業(yè)級大數(shù)據(jù)平臺的功能架構(gòu)及其配套的硬件架構(gòu),為建設(shè)企業(yè)級大數(shù)據(jù)平臺提供參考。
【關(guān)鍵詞】大數(shù)據(jù);數(shù)據(jù)平臺;系統(tǒng)架構(gòu);數(shù)據(jù)管理
0前言
江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司(以下簡稱江蘇有線)通過這些年的信息化發(fā)展,各個業(yè)務(wù)領(lǐng)域都構(gòu)建了完善的信息系統(tǒng)支撐,沉淀了巨大的數(shù)據(jù)資源。數(shù)據(jù)資源不僅涉及業(yè)務(wù)受理信息、行為日志等結(jié)構(gòu)化數(shù)據(jù),還包括圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。從數(shù)據(jù)質(zhì)量來說,這些數(shù)據(jù)涵蓋了全業(yè)務(wù)、全用戶和全渠道,信息完整度較好。如何充分利用這些蘊含巨大價值的數(shù)據(jù)資源,反哺于各個業(yè)務(wù)領(lǐng)域,使之成為推動業(yè)務(wù)發(fā)展、提升市場競爭能力的強大推動力,是當(dāng)前迫切需要解決的問題。通過一段時間的探索,江蘇有線大數(shù)據(jù)資源的開發(fā)利用和數(shù)據(jù)價值的呈現(xiàn)已初見成效,但面對日益增長的業(yè)務(wù)發(fā)展趨勢,以及快速的響應(yīng)市場能力的需求,傳統(tǒng)的數(shù)據(jù)倉庫和經(jīng)營分析系統(tǒng)不足以支撐未來業(yè)務(wù)應(yīng)用的價值化數(shù)據(jù)需求。主要表現(xiàn)在多個子系統(tǒng)的數(shù)據(jù)資源未進(jìn)行融合、開發(fā)和利用,從而使數(shù)據(jù)價值的挖掘和利用受到了限制;傳統(tǒng)的數(shù)據(jù)系統(tǒng)平臺架構(gòu)擴(kuò)展性難以滿足業(yè)務(wù)應(yīng)用發(fā)展的需求。因此,需要基于主流大數(shù)據(jù)平臺框架,構(gòu)建匯聚業(yè)務(wù)、終端、用戶收視行為、消費習(xí)慣、客戶服務(wù)等多維度的數(shù)據(jù)分析平臺,遵循行業(yè)內(nèi)統(tǒng)一的數(shù)據(jù)處理技術(shù),管理等相關(guān)標(biāo)準(zhǔn),提供融合數(shù)據(jù)存儲、統(tǒng)一數(shù)據(jù)訪問等跨平臺的數(shù)據(jù)能力,通過數(shù)據(jù)資源的開發(fā)和利用,實現(xiàn)價值的發(fā)掘。
1企業(yè)級大數(shù)據(jù)平臺的建設(shè)目標(biāo)
企業(yè)級大數(shù)據(jù)平臺作為江蘇有線唯一、統(tǒng)一的數(shù)據(jù)采集、處理、服務(wù)和運營的平臺,按照統(tǒng)一匯聚、統(tǒng)一存儲、集中計算、集中管控的原則,形成總公司及各分公司“多節(jié)點”“網(wǎng)狀網(wǎng)”形態(tài)的數(shù)據(jù)和服務(wù)共享能力,實現(xiàn)數(shù)據(jù)集中化、能力化、資產(chǎn)化的目標(biāo)。具體建設(shè)目標(biāo)如下:1)建立江蘇有線統(tǒng)一數(shù)據(jù)中心。實現(xiàn)企業(yè)內(nèi)外全網(wǎng)型數(shù)據(jù)、跨域數(shù)據(jù)的采集和整合,搭建可管、可控、可用的數(shù)據(jù)管理和運營體系。對內(nèi)是數(shù)據(jù)化經(jīng)營決策的唯一依據(jù),對外是數(shù)據(jù)變現(xiàn)經(jīng)營的唯一載體。2)海量數(shù)據(jù)的安全存儲。實現(xiàn)江蘇有線PB級客戶、業(yè)務(wù)、網(wǎng)絡(luò)、行為等結(jié)構(gòu)化和非結(jié)構(gòu)化海量數(shù)據(jù)的存儲,實現(xiàn)數(shù)據(jù)安全備份、歷史明細(xì)數(shù)據(jù)隨查隨用、擴(kuò)容靈活不停機、擴(kuò)容成本低廉的目標(biāo)。3)高性能數(shù)據(jù)計算處理能力。具備離線批量處理、準(zhǔn)實時處理、內(nèi)存處理和交互式探索等多種計算能力,實現(xiàn)高并發(fā)下PB級數(shù)據(jù)的高效處理和應(yīng)用。有效提升各類經(jīng)營指標(biāo)、統(tǒng)計報表的數(shù)據(jù)處理效率(月度數(shù)據(jù)任務(wù)處理時間不超過6h),支撐江蘇有線全省經(jīng)營工作,各分公司、子公司數(shù)據(jù)化運營的高效開展。4)豐富的數(shù)據(jù)應(yīng)用中心。具備海量數(shù)據(jù)挖掘、靈活的數(shù)據(jù)可視化/交互能力,打造實時查詢、業(yè)務(wù)預(yù)測、精準(zhǔn)營銷等數(shù)據(jù)應(yīng)用,把數(shù)據(jù)應(yīng)用能力下放至一線人員使用,快速有效各分公司、子公司和業(yè)務(wù)單位在市場經(jīng)營決策、節(jié)目采購編排、收視率分析、產(chǎn)品設(shè)計分析、一線精確化營維工作的開展。5)大數(shù)據(jù)能力開放體系。以數(shù)據(jù)開放方式實現(xiàn)數(shù)據(jù)能力輸出、數(shù)據(jù)服務(wù)共享。對內(nèi)作為數(shù)據(jù)中心向其他各類系統(tǒng)輸送統(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)或者平臺的計算和存儲資源;對外是江蘇有線數(shù)據(jù)資產(chǎn)變現(xiàn)經(jīng)營的統(tǒng)一數(shù)據(jù)資源。6)建立數(shù)據(jù)資產(chǎn)運營體系。建立一體化的數(shù)據(jù)管控和數(shù)據(jù)資產(chǎn)運營管理體系,包括數(shù)據(jù)統(tǒng)一規(guī)劃、統(tǒng)一定義、安全管控、運營模式、運營平臺等,實現(xiàn)企業(yè)數(shù)據(jù)的有效治理和運營。
2企業(yè)級大數(shù)據(jù)平臺功能架構(gòu)
企業(yè)級大數(shù)據(jù)平臺采用分層架構(gòu)設(shè)計,充分體現(xiàn)協(xié)同一體、敏捷高效、智能精準(zhǔn)、開放共享的愿景,以及“小前臺、大中臺、厚后臺”的原則要求,大數(shù)據(jù)平臺核心部分為PaaS平臺,大數(shù)據(jù)基礎(chǔ)平臺功能架構(gòu)包括數(shù)據(jù)采集與預(yù)處理、計算與存儲、平臺運維和管理。大數(shù)據(jù)平臺功能架構(gòu)如圖1所示。
2.1數(shù)據(jù)采集與預(yù)處理
為批量數(shù)據(jù)采集、流式采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分發(fā)、數(shù)據(jù)同步/加載提供底層技術(shù)支撐[1]:1)批量數(shù)據(jù)采集。基于x86服務(wù)器集群,使用FTP、SFTP、HTTP、Sqoop、DataX等協(xié)議或技術(shù),實現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)批量離線數(shù)據(jù)采集。2)流式采集?;趚86服務(wù)器集群,使用SDTP消息、Kafka消息中間件、Flume等開源技術(shù),將數(shù)據(jù)按照消息、文件、數(shù)據(jù)庫適配等方式進(jìn)行數(shù)據(jù)接入。3)數(shù)據(jù)同步/加載。支撐PB級數(shù)據(jù)同步的同步,加載目標(biāo)包括結(jié)構(gòu)化與非結(jié)構(gòu)化多種DB/DW(如Hive、Oracle、DB2、MPP數(shù)據(jù)庫、MySQL數(shù)據(jù)庫)。
2.2計算與存儲
計算與存儲包括數(shù)據(jù)存儲、批量計算、實時計算、Redis內(nèi)存存儲[2]:1)數(shù)據(jù)存儲。負(fù)責(zé)存儲數(shù)據(jù)采集層發(fā)送過來的數(shù)據(jù)、數(shù)據(jù)計算/分析結(jié)果的數(shù)據(jù),數(shù)據(jù)根據(jù)業(yè)務(wù)應(yīng)用場景可存儲在適用的存儲服務(wù)器上,如傳統(tǒng)關(guān)系型數(shù)據(jù)庫、Nosql、MPP、HDFS等。使用HDFS/Hbase/Redis/GreenPlum/MySQL/DB2等技術(shù)構(gòu)建海量數(shù)據(jù)存儲能力。2)批量計算。負(fù)責(zé)數(shù)據(jù)收集過程中的批量處理,形成不同數(shù)據(jù)組織的基礎(chǔ)數(shù)據(jù)資產(chǎn),完成基礎(chǔ)數(shù)據(jù)準(zhǔn)備工作。并能夠支持不同分布式計算框架的數(shù)據(jù)分析工作,使用MapReduce、Hive、Spark、SparkSQL、Impala、Kylin、Mahout、SparkR開源技術(shù)構(gòu)建批量數(shù)據(jù)加工處理及數(shù)據(jù)挖掘能力。3)實時計算?;趚86服務(wù)器集群,使用Spark-Streaming、Redis、Hbase、Kafka等開源技術(shù),負(fù)責(zé)實時性要求高的數(shù)據(jù)加工處理。4)Redis內(nèi)存存儲?;趚86服務(wù)器集群,構(gòu)建Redis內(nèi)存存儲集群,實現(xiàn)實時訪問要求高的用戶行為數(shù)據(jù)、實時位置數(shù)據(jù)、實時集團(tuán)上報數(shù)據(jù)等各類實時計算結(jié)果數(shù)據(jù)存儲,并打通Redis與實時計算引擎、Hadoop、RDB、MPP無縫銜接及交互能力。
2.3平臺運維與管理
1)通過界面進(jìn)行向?qū)降牟渴鹌脚_組件,可視化對HDFS、Hbase、Hive、Spark等Hadoop生態(tài)進(jìn)行部署和完成相關(guān)的配置。2)采用可視化的圖表指標(biāo)方式,監(jiān)控Hadoop組件、主機CPU、磁盤I/O、網(wǎng)絡(luò)I/O等硬件指標(biāo)。3)具備完善的日志抓取和下載能力。在統(tǒng)一的企業(yè)級管理界面,可以查看平臺所有主機運行日志的詳情,并且可以在大數(shù)據(jù)平臺界面進(jìn)行日志的瀏覽或者下載,方便運維人員對問題進(jìn)行定位。
3企業(yè)級大數(shù)據(jù)平臺
硬件架構(gòu)企業(yè)級大數(shù)據(jù)平臺硬件架構(gòu)由數(shù)據(jù)管理平臺、能力服務(wù)平臺、數(shù)據(jù)計算中心和展現(xiàn)平臺等4部分組成[3]。其中數(shù)據(jù)計算中心是整個系統(tǒng)的核心,用來部署Hadoop集群和關(guān)系型數(shù)據(jù)庫。數(shù)據(jù)管理平臺、能力服務(wù)平臺和展現(xiàn)平臺對應(yīng)不同的應(yīng)用部署。外部各業(yè)務(wù)系統(tǒng)通過核心交換機接入Hadoop集群交互通信。數(shù)據(jù)生產(chǎn)集群與數(shù)據(jù)理平臺、能力服務(wù)平臺部署分離,將生產(chǎn)與管理影響降到最小。生產(chǎn)中心主節(jié)點、計算節(jié)點等各類節(jié)點在同一個集群內(nèi),提升節(jié)點間通信效率。企業(yè)級大數(shù)據(jù)平臺硬件架構(gòu)如圖2所示。為滿足企業(yè)級大數(shù)據(jù)平臺的數(shù)據(jù)計算并發(fā)能力,完成對歷史數(shù)據(jù)的遷移及新數(shù)據(jù)的存儲,經(jīng)測算按照30%的能力冗余。企業(yè)級大數(shù)據(jù)平臺的硬件配置如表1所示。
4企業(yè)級大數(shù)據(jù)平臺應(yīng)用
4.1企業(yè)級大數(shù)據(jù)平臺集群監(jiān)控
通過AmbariDashboard頁面展示集群的整體情況,可以點擊各個圖表查看具體信息。服務(wù)級別監(jiān)控管理包括HDFS、MapReduce、Storm、Spark等,通過左邊導(dǎo)航點擊對應(yīng)的服務(wù),可以查看該服務(wù)的使用情況。Heatmaps展示了服務(wù)各個角色使用磁盤I/O、網(wǎng)卡I/O、CPU以及JVM等性能狀況。企業(yè)級大數(shù)據(jù)平臺集群監(jiān)測如圖3所示。
4.2平臺任務(wù)開發(fā)與調(diào)度管理
通過企業(yè)級大數(shù)據(jù)平臺數(shù)據(jù)中臺工具實現(xiàn)便捷式數(shù)據(jù)可視化開發(fā),即開發(fā)流程采用直觀、可視的方式,從布局設(shè)計、數(shù)據(jù)源配置到組件配置及開發(fā)效果全過程均可查看。主要包括元數(shù)據(jù)管理、數(shù)據(jù)采集、數(shù)據(jù)稽核、數(shù)據(jù)標(biāo)準(zhǔn)制定、數(shù)據(jù)加工、數(shù)據(jù)分發(fā)、業(yè)務(wù)流程管理、接口管理、調(diào)度一體化等工具。其中,調(diào)度監(jiān)控可以實時呈現(xiàn)平臺JOB執(zhí)行情況,且對于執(zhí)行失敗的JOB可以進(jìn)行查看日志、重做當(dāng)前、重做后續(xù)等操作。企業(yè)級大數(shù)據(jù)平臺數(shù)據(jù)任務(wù)執(zhí)行情況監(jiān)控如圖4所示。
5結(jié)語
綜上所述,通過企業(yè)級大數(shù)據(jù)平臺的建設(shè),實現(xiàn)企業(yè)內(nèi)外全網(wǎng)型數(shù)據(jù)、跨域數(shù)據(jù)的采集和整合,搭建可管、可控、可用的數(shù)據(jù)管理和運營平臺??焖儆行е喂芾韺优c業(yè)務(wù)部門在經(jīng)營管理、市場經(jīng)營決策、數(shù)據(jù)化運營、產(chǎn)品設(shè)計分析、一線精確化營維等工作的開展。
參考文獻(xiàn)
[1]曹逸知.大數(shù)據(jù)的發(fā)展與技術(shù)應(yīng)用[J].通訊世界,2019(1):51—52.
[2]范家寧.基于Spark的多數(shù)據(jù)源大數(shù)據(jù)治理平臺研究[D].北京:中國地質(zhì)大學(xué)(北京),2020.
[3]劉盛學(xué).電信大數(shù)據(jù)探索平臺關(guān)鍵技術(shù)及其實現(xiàn)研究[D].長沙:湖南大學(xué),2018.
作者:丁云強 單位:江蘇省廣電有線信息網(wǎng)絡(luò)股份有限公司