前言:想要寫出一篇引人入勝的文章?我們特意為您整理了企業(yè)數(shù)據(jù)中心業(yè)務(wù)保障體系建設(shè)實踐范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:為適應(yīng)市場需求,企業(yè)陸續(xù)開始數(shù)字化轉(zhuǎn)型,數(shù)據(jù)不只在生產(chǎn)控制和企業(yè)運營中發(fā)揮著重大作用,甚至作為業(yè)務(wù)的一部分向用戶開放,為企業(yè)創(chuàng)造價值。企業(yè)數(shù)據(jù)中心作為承載信息化系統(tǒng)的基礎(chǔ),對確保業(yè)務(wù)連續(xù)性有著重要作用。該文以某集團(tuán)公司的數(shù)據(jù)中心為例,在明確組織和指導(dǎo)方針的前提下,經(jīng)過分析、設(shè)計、實施、驗證[1]四個過程,在IT層面構(gòu)建業(yè)務(wù)連續(xù)性保障體系,為企業(yè)信息化業(yè)務(wù)提供可靠的支撐。
關(guān)鍵詞:數(shù)據(jù)中心;業(yè)務(wù)連續(xù)性;應(yīng)急預(yù)案;災(zāi)備
隨著數(shù)字化技術(shù)的不斷推進(jìn),某集團(tuán)公司高度重視信息化建設(shè),在集團(tuán)總部新建數(shù)據(jù)中心,將各分公司分散的信息化系統(tǒng)整合,統(tǒng)一管理維護(hù)。數(shù)據(jù)中心承載了企業(yè)ERP、OA、MES、網(wǎng)站、財務(wù)管理等各類應(yīng)用系統(tǒng)業(yè)務(wù),同時,企業(yè)正在研發(fā)智能平臺,準(zhǔn)備對外提供信息化服務(wù)。隨著業(yè)務(wù)系統(tǒng)的增加,對數(shù)據(jù)中心的可靠性要求越來越高,如果發(fā)生中斷,將對企業(yè)的正常生產(chǎn)運營工作帶來重大損失。因此,企業(yè)決定在數(shù)據(jù)中心構(gòu)建業(yè)務(wù)連續(xù)性保障體系,確保數(shù)據(jù)中心運行穩(wěn)定。業(yè)務(wù)連續(xù)性保障體系不只是簡單的備份和恢復(fù)操作,而是包括事前的風(fēng)險評估、BCP(業(yè)務(wù)連續(xù)性計劃)制定和演練,儲備應(yīng)急物資,事中的監(jiān)測和巡視,事發(fā)時的障礙處理,人員協(xié)調(diào),匯報等制度流程,以及事后的總結(jié)改善等一系列內(nèi)容。
1數(shù)據(jù)中心基本情況
該企業(yè)數(shù)據(jù)中心按照《數(shù)據(jù)中心設(shè)計規(guī)范》GB50174-2017的A級機(jī)房標(biāo)準(zhǔn)進(jìn)行設(shè)計建造,配置了電源、服務(wù)器、存儲、通信設(shè)備、安全設(shè)備和環(huán)境監(jiān)控設(shè)備,符合等級保護(hù)2.0三級防護(hù)要求,租用運營商互聯(lián)網(wǎng)出口以及至各分公司的VPN專線??偛亢透鞣止緝?nèi)部通過光纖組建局域網(wǎng)。計劃與運營商合作采用5G技術(shù)替代原先的光纖或無線WIFI組網(wǎng),實現(xiàn)智能工廠現(xiàn)場設(shè)備數(shù)據(jù)的鏈接。數(shù)據(jù)中心配套建有統(tǒng)一的監(jiān)控中心,有專門的運維團(tuán)隊負(fù)責(zé)信息系統(tǒng)的維護(hù)工作并實行24小時監(jiān)控管理。“災(zāi)備系統(tǒng)”計劃通過租用某公司云服務(wù)器業(yè)務(wù)實現(xiàn),只對關(guān)鍵系統(tǒng)通過云端進(jìn)行熱備份,其余系統(tǒng)進(jìn)行定期的數(shù)據(jù)備份,以降低“災(zāi)備系統(tǒng)”建設(shè)成本。
2現(xiàn)狀分析
制定保障體系方案前,需要對現(xiàn)有業(yè)務(wù)的使用情況、業(yè)務(wù)可用性要求、網(wǎng)絡(luò)抗風(fēng)險能力以及可能發(fā)生的風(fēng)險進(jìn)行了解和分析,確保應(yīng)急處置方案能夠順利實施。同時,也能夠通過區(qū)分維護(hù)等級,按照不同的標(biāo)準(zhǔn)進(jìn)行防護(hù)和處置,降低成本。
2.1業(yè)務(wù)和影響分析
首先對需要進(jìn)行保障的內(nèi)容進(jìn)行分類,例如:“動環(huán)”監(jiān)控系統(tǒng)、互聯(lián)網(wǎng)業(yè)務(wù)、供配電系統(tǒng)、ERP等,便于后期保障方案的制定。通過調(diào)研,了解業(yè)務(wù)系統(tǒng)的現(xiàn)狀和影響。包括數(shù)據(jù)中心所承載的業(yè)務(wù)使用情況,業(yè)務(wù)占用的資源,業(yè)務(wù)涉及的部門或用戶,明確上級對業(yè)務(wù)重要性的定位,了解系統(tǒng)維護(hù)現(xiàn)狀。通過假設(shè)分析,列出業(yè)務(wù)中斷或異常時,在使用流程中各環(huán)節(jié)的影響情況,估算RTO和RPO,但也需要找出重要的時間段加急處理,以“動環(huán)”系統(tǒng)為例,具體內(nèi)容如表1所示。
2.2威脅分析
分析該業(yè)務(wù)可能受到的威脅,以便針對威脅制定相應(yīng)的風(fēng)險應(yīng)對方案。以“動環(huán)”監(jiān)控系統(tǒng)業(yè)務(wù)為例,如表2所示。2.3抗風(fēng)險能力分析該部分需要了解以下三個方面的內(nèi)容:一是管理層重視程度。該企業(yè)從高層就高度重視數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性體系建設(shè),要求各部門相關(guān)人員在方案制定和應(yīng)急處置時積極配合各項工作。二是應(yīng)急物資儲備情況。該企業(yè)信息化負(fù)責(zé)人要求按照配置管理的規(guī)定,對現(xiàn)有備件、材料、工具儀表等保障資源的種類、數(shù)量、放置位置等信息進(jìn)行核查,定期檢查維護(hù)資料的可用性和準(zhǔn)確性,確保能夠準(zhǔn)確定位故障。三是技術(shù)防護(hù)能力。從系統(tǒng)設(shè)計時,就考慮到了冗余架構(gòu),通過雙鏈路、雙設(shè)備、雙板卡等方式進(jìn)行保護(hù)。評估中心所承載的軟、硬件的備份能力,了解其恢復(fù)方法。對廠家的支持能力進(jìn)行了評估,明確支持細(xì)則。
3保障方案設(shè)計
保障方案的設(shè)計是針對突發(fā)的系統(tǒng)安全事件提出的,需要從監(jiān)測開始,對業(yè)務(wù)的全過程進(jìn)行管理,包括監(jiān)測、備份、應(yīng)急預(yù)案等,應(yīng)用技術(shù)與管理等手段,確保業(yè)務(wù)的持續(xù)性運行[2]。
3.1監(jiān)測與預(yù)警
監(jiān)測與預(yù)警作為確保業(yè)務(wù)連續(xù)性最常用的環(huán)節(jié)。雖然不能阻止障礙的發(fā)生,但可以通過及時發(fā)現(xiàn)以降低突發(fā)事件造成的影響。監(jiān)控方案需要明確監(jiān)控人員的職責(zé)、監(jiān)控內(nèi)容、記錄規(guī)則、告警閾值,以及通知流程等事項[3],使其作為安全防護(hù)的第一道防線。現(xiàn)場的設(shè)備巡檢也同樣重要,需要明確維護(hù)人員巡檢的周期、巡檢內(nèi)容,以及對應(yīng)指標(biāo)等。同樣,對巡檢中發(fā)現(xiàn)的問題,也需要有明確的報告機(jī)制、指定人員和權(quán)限。
3.2備份方案
數(shù)據(jù)中心中的各類設(shè)備可進(jìn)行整機(jī)備份、板卡備份、鏈路備份、軟件備份等,根據(jù)保障級別的不同,也可以分為熱備份,冷備份和溫備份[4]。熱備份方案用于對連續(xù)性要求高的業(yè)務(wù),不允許業(yè)務(wù)中斷。備份系統(tǒng)也處于工作狀態(tài),通過同步、鏡像等方式保持與在用系統(tǒng)的同步性。冷備份方案用于一般業(yè)務(wù),中斷后,根據(jù)RTO/RPO的要求,制定備份計劃,對于硬件或軟件安裝包,可放置于備件庫內(nèi)保管,對于數(shù)據(jù),可做好離線備份計劃,確定周期,并做好版本登記。溫備份比較折中,備份系統(tǒng)處于帶電運行狀態(tài),但不參與系統(tǒng)運行,需要定期同步數(shù)據(jù)。溫備份系統(tǒng)中可根據(jù)實際安裝多個業(yè)務(wù)系統(tǒng),作為應(yīng)急使用。對于系統(tǒng)的重大變更操作,無論選擇哪種備份方案,都需提前將數(shù)據(jù)進(jìn)行備份,并做好版本登記。
3.3應(yīng)急預(yù)案
應(yīng)急預(yù)案是業(yè)務(wù)連續(xù)性保障的關(guān)鍵環(huán)節(jié),幾乎涵蓋確保業(yè)務(wù)連續(xù)性管理所需的全部工作內(nèi)容,為應(yīng)急響應(yīng)工作提供重要的指導(dǎo)[2]。對于應(yīng)急預(yù)案的內(nèi)容,國家有相應(yīng)的標(biāo)準(zhǔn)[5]提供參考。詳細(xì)的內(nèi)容以及業(yè)務(wù)影響分析結(jié)果、威脅分析和應(yīng)急資源情況和應(yīng)急演練方案模板等內(nèi)容,均可作為應(yīng)急預(yù)案的附件,以便更好地指導(dǎo)實際工作。應(yīng)急預(yù)案大致包括以下幾個部分:(1)角色及職責(zé)該部分明確應(yīng)急事件在企業(yè)內(nèi)部和外協(xié)組織中,明確管理、實施及運維的組織設(shè)置和職責(zé)分工,可通過建立呼叫樹的方式使人員和職責(zé)更加清晰地展現(xiàn)。(2)預(yù)防和預(yù)警機(jī)制明確應(yīng)急事情發(fā)生前的各項預(yù)防工作,詳細(xì)見3.2和3.1章節(jié)。(3)應(yīng)急響應(yīng)流程一是事件通報機(jī)制,明確事件發(fā)生時的通知規(guī)則。二是事件分類和定級機(jī)制,將系統(tǒng)各類安全事件明確類別和優(yōu)先級,對應(yīng)不同的保護(hù)模式。三是現(xiàn)場處置內(nèi)容。發(fā)生應(yīng)急事件后,進(jìn)行何種操作等。四是恢復(fù)流程。需將為搶通業(yè)務(wù)而做的應(yīng)急操作,及時恢復(fù)正常,使系統(tǒng)具備持續(xù)保障的能力。(4)應(yīng)急響應(yīng)保障措施需要高層明確的支持內(nèi)容,包括制度、人員、獎懲、物資、電力保障、輔助軟件、甚至移動應(yīng)急保障系統(tǒng)的建設(shè)等,使應(yīng)急預(yù)案能夠順利實施。
4保障方案的實施
4.1培訓(xùn)
該企業(yè)面向IT運維人員,組織了兩種類型的培訓(xùn)。一是安全教育。通過案例,講解安全的重要性,提高企業(yè)IT“運維”人員的憂患意識和危機(jī)意識,并在安全教育,介紹企業(yè)的業(yè)務(wù)連續(xù)性保障制度。二是技術(shù)培訓(xùn)。有針對性地提高維護(hù)人員的業(yè)務(wù)水平,使其在應(yīng)急處置時,能夠準(zhǔn)確判斷障礙并及時恢復(fù)業(yè)務(wù)。
4.2應(yīng)急物資儲備
企業(yè)對應(yīng)急物資的購置較為及時,每年有針對應(yīng)急物資的采購預(yù)算。企業(yè)應(yīng)急物資種類涉及設(shè)備、輔材、軟件、工具儀表等,規(guī)格和數(shù)量龐大,且定期更新,為降低障礙處理歷時,常用物資甚至放置在了現(xiàn)場,使物資較為分散。因此,企業(yè)對應(yīng)急物資儲備庫,實行了電子化管理,詳細(xì)記錄了物資的情況,并做好出入庫的登記,便于緊急情況時快速定位資源。對應(yīng)急物資,還需要定期進(jìn)行功能測試,確保其可用性。
4.3按照方案實施
按照業(yè)務(wù)連續(xù)性保障體系中的各方案要求,做好事前,事中,事發(fā),以及事后的各項工作,并在實踐中隨時發(fā)現(xiàn)問題,及時提出整改意見。
5保障能力驗證
5.1應(yīng)急演練
應(yīng)急演練是驗證業(yè)務(wù)連續(xù)性保障能力的有效途徑,沒有演練過的應(yīng)急預(yù)案,因無法驗證其有效性,甚至不能作為正式版本的預(yù)案推行。該企業(yè)要求公司全部人員每年均參與應(yīng)急演練。涉及指揮能力、技術(shù)能力及業(yè)務(wù)方面的應(yīng)急水平。每次演練反復(fù)論證演練方案,確保演練有效,但風(fēng)險最小。應(yīng)急演練方案一般包括目的和預(yù)期、范圍、人員和職責(zé)、時間地點、詳細(xì)步驟和方法,演習(xí)前的準(zhǔn)備工作,演練異常的處理措施,注意事項等內(nèi)容。演練的模式分為了虛擬型、突襲型、計劃型三類。虛擬型為邀請專家和相關(guān)人員對方案進(jìn)行論證。突襲型為控制演練方案的知曉范圍,驗證企業(yè)的真實應(yīng)急處理能力。計劃型為傳統(tǒng)的演練,涉及范圍廣,人員多,頻率高,目的是真正出現(xiàn)障礙時,能夠有序開展處置工作。演練后,該企業(yè)會進(jìn)行復(fù)盤,及時總結(jié)并處理演練中發(fā)現(xiàn)的問題。
5.2方案審查
對各項業(yè)務(wù)連續(xù)性保障方案,需要定期進(jìn)行符合性檢查,驗證方案涉及面是否完整,是否在公司有效推行。也要進(jìn)行實質(zhì)性檢查,測試相關(guān)因素是否正常,確保方案的可行性。
6結(jié)語
企業(yè)數(shù)據(jù)中心業(yè)務(wù)連續(xù)性保障體系的建設(shè),為IT“運維”人員提供了完備的應(yīng)急響應(yīng)措施,減輕各類突發(fā)事件對業(yè)務(wù)的影響。體系的建立是個復(fù)雜的過程,需要循序漸進(jìn)的推進(jìn),甚至在信息系統(tǒng)整體架構(gòu)設(shè)計時,就開始規(guī)劃,給“災(zāi)備”部分預(yù)留資源。后期可由IT系統(tǒng)擴(kuò)展為構(gòu)建業(yè)務(wù)連續(xù)性體系,涉及公司生產(chǎn)運營各個領(lǐng)域,有效提升企業(yè)的管理水平。
參考文獻(xiàn):
[1]國際業(yè)務(wù)持續(xù)協(xié)會,余紹強(qiáng)譯.良好實踐指南[M].第一版,北京:中國標(biāo)準(zhǔn)出版社,2014.
[2]姜琪,李亞龍,張潔,馬犇.基于業(yè)務(wù)連續(xù)性管理的應(yīng)急管理體系建設(shè)研究[J].電腦知識與技術(shù)(學(xué)術(shù)版),2019(8Z):42-45.
[3]信息技術(shù)安全技術(shù)信息安全管理體系要求GBT22080-2016[S].
[4]柳鵬,何瀟銳.備份技術(shù)研究[J].中國科技信息,2011(8):124-125.
[5]信息安全應(yīng)急響應(yīng)計劃規(guī)范.GB/T24363-2009[S].
作者:黃碩 單位:山東省專用通信局