前言:想要寫出一篇引人入勝的文章?我們特意為您整理了集團公司信息系統(tǒng)運維工作思考探析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文闡述了中國鐵路哈爾濱局集團有限公司信息系統(tǒng)運維工作現(xiàn)狀,分析了運維工作取得的成績和存在的不足,提出了改善信息系統(tǒng)運維工作的七點建議。
關鍵詞:信息系統(tǒng);運維平臺
1引言
隨著信息技術在中國鐵路哈爾濱局集團有限公司(以下簡稱“集團公司”)安全生產、運輸組織、客貨營銷等領域的廣泛應用,信息系統(tǒng)逐漸成為各項業(yè)務活動的重要組成部分,信息系統(tǒng)一旦發(fā)生故障,將嚴重影響正常的生產和經營活動,造成重大社會影響或經濟損失。為適應各項業(yè)務開展高度依賴信息化現(xiàn)狀,有效防范化解信息系統(tǒng)故障風險,保障業(yè)務的連續(xù)性,提升對信息安全事件的處置能力,確保信息系統(tǒng)安全穩(wěn)定運行,需要切實提高信息系統(tǒng)運行維護水平。隨著集團公司不斷整治信息系統(tǒng)及基礎運行環(huán)境設施,信息系統(tǒng)故障頻率大幅降低,故障處置效率不斷提升,為重要信息系統(tǒng)安全穩(wěn)定運行奠定了堅實的基礎。
2信息化運維工作基本情況
信息系統(tǒng)是運維主要服務對象,信息化基礎設備、設施是運維工作的基礎,集團公司目前已經對信息化設備、設施和信息系統(tǒng)進行了清理,建立了管理臺賬,并明確了各信息系統(tǒng)的運維負責單位和運維方式。
2.1集團公司信息化設備設施情況
(1)信息機房情況集團公司共有94處重要信息機房,其中:集團公司數(shù)據中心(信息機房)2處,車務信息機房58處,機務信息機房6處,車輛信息機房5處,工務信息機房10處,電務信息機房4處,房產信息機房3處,客運信息機房3處,供電信息機房3處。
(2)重要信息系統(tǒng)情況集團公司目前正在應用的重要信息系統(tǒng)共299個,其中235個信息系統(tǒng)由信息技術所運維,其余由站段負責運維。
(3)信息設備情況集團公司信息機房部署設備共計1498臺,其中小型機和服務器629臺、存儲108臺。各站段部署設備共計2769臺,其中小型機和服務器557臺、存儲20臺。
2.2集團公司信息系統(tǒng)運維體系
集團公司信息系統(tǒng)由集團公司、站段兩級負責運行維護,日常維護工作按照職責分工分級負責,信息技術所負責集團公司級信息系統(tǒng)運行維護工作,站段負責本單位信息系統(tǒng)日常維護工作。
2.3集團公司運維工作情況
信息系統(tǒng)運維工作采用信息部門自行維護和委外維護相結合的方式。
(1)硬件設備采取三種方式進行維護小型機、重要服務器、存儲、核心交換機、UPS、空調等采取委外運維方式,由專業(yè)維保商進行維護;部分服務器、終端、打印機采取故障修方式,由維修公司進行維修;其余設備采用自主維修維護或者設備故障更換方式。
(2)系統(tǒng)軟件采取兩種方式進行維護對于重要信息系統(tǒng)數(shù)據庫采用委外維護方式,由維保商進行維護;操作系統(tǒng)、中間件和非核心系統(tǒng)數(shù)據庫采用自主維護方式,由信息技術所和站段運維人員自主維護,信息技術所對站段提供技術支持。
(3)應用軟件采用三種方式進行維護部分重要信息系統(tǒng)采用委外維護方式,由維保商進行維護;部分系統(tǒng)由系統(tǒng)研發(fā)單位負責免費維護;其余采取自主維護方式,由信息技術所和站段運維人員負責維護,信息技術所對站段提供技術支持。
3系統(tǒng)運維工作存在的不足
集團公司信息化工作基本保持平穩(wěn)有序,近三年來未出現(xiàn)重大運維安全故障,較好的保障了集團公司各項業(yè)務的開展,但運維工作仍然存在一些不足,有很大的改進空間。
(1)運維規(guī)章制度落實不徹底信息系統(tǒng)運維管理辦法沒有得到有效執(zhí)行,雖然制定了年度運維計劃,但沒有起到應急演練作用,僅僅隨著施工進行局部演練,同時信息系統(tǒng)故障存在隱匿不報現(xiàn)象,這些都給信息系統(tǒng)運維工作帶來安全隱患。
(2)信息設備部署過于分散當前信息化設備部署分散情況非常普遍,基本每個基層站段都有信息機房,都有專人維護,由于機房過多,造成部分機房質量不達標,不能滿足信息化設備運行的基本條件,同時信息技術所機房存在大量空閑空間,因此優(yōu)化信息化設備部署結構是今后一個時期的重點工作。
(3)運維人員能力無法滿足需求隨著信息系統(tǒng)在集團公司業(yè)務領域的應用不斷深入,規(guī)模逐步擴大,對運維人員的專業(yè)水平要求越來越高,目前運維人員不能完全掌握相關專業(yè)知識,無論是小型機、服務器等硬件,還是數(shù)據庫、中間件等系統(tǒng)軟件,甚至旅服系統(tǒng)、防災系統(tǒng)、客票系統(tǒng)等應用軟件都依賴外部維保商提供運維服務,對維保商的依賴性極強,核心系統(tǒng)運維不掌握在自己手中,給我們的信息系統(tǒng)運維工作帶來極大困難。
(4)交付運維環(huán)節(jié)存在欠缺現(xiàn)行信息系統(tǒng)在投入運用、交付運維方面存在問題,信息工程竣工驗收和信息系統(tǒng)研發(fā)完成交付運維單位運行維護前,普遍存在竣工資料和交接手續(xù)不完善,項目文檔資料嚴重缺失,缺少必要的培訓,系統(tǒng)存在安全隱患等問題,給后期系統(tǒng)維護及日常管理工作造成很大困難,運維單位缺乏網絡拓撲圖、系統(tǒng)構成圖、機房配線圖、軟件維護手冊等資料,無法高質量開展運維工作,給信息系統(tǒng)安全運行帶來威脅。
(5)對站段業(yè)務指導不夠信息技術所承擔對基層站段的信息化專業(yè)指導職能,但隨著武清數(shù)據中心的啟用和鐵科院承擔鐵路主要信息系統(tǒng)研發(fā)職能的轉變,信息技術所對信息系統(tǒng)的掌握程度逐步下降,且信息系統(tǒng)逐漸增多后,信息技術所的技術支持人員力量不足問題凸顯,對站段的技術指導弱化,不能滿足站段在技術支持方面的需求,影響信息系統(tǒng)的運維質量。
(6)運行環(huán)境監(jiān)控能力不足信息技術所的運行環(huán)境監(jiān)控能力相對較好,站段對信息機房運行環(huán)境日常監(jiān)控能力普遍不足,部分站段信息機房沒有環(huán)境監(jiān)控系統(tǒng),機房日常環(huán)境監(jiān)控主要依靠人工值班巡檢,有環(huán)境監(jiān)控系統(tǒng)的站段也存在運用水平不高問題,運行環(huán)境監(jiān)控問題大大降低機房環(huán)境巡檢質量及安全事件應急處置能力。
4對運維工作的幾點建議
為了提高集團公司信息系統(tǒng)運維工作質量,有效提升信息系統(tǒng)運行穩(wěn)定性,對信息系統(tǒng)運維工作提出七點建議。
(1)從運維結構角度推行集中化隨著兩網融合工作的推進,網絡帶寬大幅提升,為集團公司信息化設備集中部署創(chuàng)造了網絡條件。集團公司信息技術所新信息機房投入運用,原有信息機房空閑大量空間,為信息化設備集中部署創(chuàng)造了設備設施條件。當前完全具備將站段信息化設備上移至集團公司信息技術所機房的條件,下一步建議把設備集中部署作為運維重點工作,通過設備的集中化部署,既可大幅減少站段機房和運維人員數(shù)量,優(yōu)化信息系統(tǒng)運維結構,實現(xiàn)信息化運維集約化管理,又可利用信息技術所標準化機房和運維人員專業(yè)能力強的客觀優(yōu)勢,提升設備運行環(huán)境和運維質量,提高信息系統(tǒng)運行穩(wěn)定性。
(2)從運維管理角度推行臺帳化信息系統(tǒng)運維的基礎是設備、設施、網絡、電源的底數(shù)要清晰,信息化設備種類較多,不同設備的檢查、維護周期不同,需要對信息化設備建立設備臺賬和巡檢臺賬,對信息化網絡建立拓撲圖和配線圖,對機房機架建立設備部署示意圖,對電源、UPS、PDU建立布線圖和檢修臺賬,對動環(huán)系統(tǒng)建立巡檢臺賬,這些是信息化運維的基礎性工作。建議對運維進行臺賬化管理,建立信息化運維管理信息系統(tǒng),實施信息化設備設施的全面信息化管理,對設備的型號、配置參數(shù)、廠商、運維方式、維保商、巡檢記錄、維修記錄、故障應急方案等進行全面管理,從而為運維工作奠定堅實基礎。
(3)從設備應用角度推行虛擬化集團公司現(xiàn)有信息化設備4000余臺,其中服務器、小型機和存儲設備1200余臺,這些設備需要大量的機房空間并配合雙路電源、空調以滿足設備運行需求,對集團公司無論是投資還是運維都是較大負擔,而且這些設備平時使用率往往低于10%,存在大量浪費情況。虛擬化和私有云平臺是提高設備利用率、減少設備使用量的有效方式。集團公司采用小型機虛擬化技術,1臺小型機可以虛擬出4至8臺小型機,采用服務虛擬化技術,1臺服務器可以虛擬出16至32臺服務器,不僅有效節(jié)省了集團公司有限的信息化投資,而且節(jié)省了大量機房和配套設施,建議加大虛擬化云平臺建設力度,充分利用私有云技術打造集團公司云數(shù)據中心。
(4)從日常維護角度推行平臺化各信息部門需要運維的設備和系統(tǒng)數(shù)量較大,而且隨著信息系統(tǒng)不斷整合,系統(tǒng)越來越復雜,如果還依賴傳統(tǒng)的人工巡檢方式已經很難滿足信息系統(tǒng)運維要求。建議建設集團公司信息系統(tǒng)運維管理平臺,采用成熟技術將日常巡檢、運行狀態(tài)監(jiān)控、故障監(jiān)控、性能監(jiān)控、資源監(jiān)控、運行環(huán)境監(jiān)控等大量重復性工作由過去的人工執(zhí)行逐步轉變?yōu)樽詣踊僮鳎瑢崿F(xiàn)自動報警,從而做到及時發(fā)現(xiàn)問題,減少運維中的延遲,降低故障發(fā)生幾率,減少故障處置時間。同時運維管理平臺應具備運維知識庫功能,將歷史故障處理案例進行詳細描述和記載,為后續(xù)信息化設備故障處理提供參考,提高運維工作效率。
(5)從故障處理角度推行清單化重要信息系統(tǒng)都建立了應急預案,對信息系統(tǒng)的故障處理有詳細的處理流程,可以在故障發(fā)生時按照預案進行處置,但預案一般更強調故障處理過程,對故障處理的具體操作指導性不強,當故障發(fā)生時,運維人員往往比較緊張,容易犯一些常見錯誤,給故障處理帶來不必要的損失。建議借鑒外科手術清單方式,給每個信息系統(tǒng)建立故障處理清單,清單按照“簡單至上”原則列出故障處置的步驟和注意事項,并確定故障處置核對人,在運維人員進行故障處置時,一方面可以提醒運維人員不要錯過關鍵步驟,另一方面有專人核對提醒,避免由于處置不當,而將故障人為放大,錯過故障處理最佳時機。
(6)從人員能力角度推行專業(yè)化現(xiàn)階段信息系統(tǒng)運維人員一般都是系統(tǒng)的開發(fā)或者實施人員,這些人參與了系統(tǒng)的研發(fā)建設,對系統(tǒng)比較熟悉,能夠勝任運維工作,但是研發(fā)人員往往承擔多項任務,隨著多年來不斷參與研發(fā),需要負責運維的項目會很多,造成沒有精力負責所有系統(tǒng)的維護,一方面造成對負責運維的系統(tǒng)維護不及時,另一方面也由于精力分散而不能全力投入應用軟件研發(fā)工作中,弊端很大。建議推行專業(yè)化運維隊伍建設,負責研發(fā)的人員僅負責研發(fā)和系統(tǒng)功能性升級,將日常運維工作交由專業(yè)運維人員負責,研發(fā)轉運維階段通過詳細的交接文檔和專項培訓,確保運維人員具備系統(tǒng)運維能力,通過推行運維人員專業(yè)化,一方面可以將研發(fā)人員從日常運維工作中解放出來,專心從事研發(fā)工作,另一方面運維人員可以負責多個項目的維護工作,做到分工負責、各司其職,提高運維工作質量。(7)從應急指揮角度推行調度化重要信息系統(tǒng)一旦出現(xiàn)故障,需要組織多方面的力量進行應急處置,信息部門按照應急預案啟動應急程序,調動相關人員判斷故障原因,甚至需要請行業(yè)專家參與故障排查,進行必要的處置,業(yè)務管理部門啟動專業(yè)應急方案,組織人員脫離信息系統(tǒng)進行業(yè)務組織,這個過程是緊張且時間緊迫的,需要各部門做好協(xié)調。一旦故障排除,也需要信息部門確認并第一時間通知業(yè)務部門,其間一旦溝通協(xié)調不到位,就會發(fā)生應急指揮失誤,造成業(yè)務損失和經濟損失。建議建立信息系統(tǒng)應急調度指揮機制,通過統(tǒng)一的調度管理,實現(xiàn)運維人員、應急資源、應急協(xié)調的統(tǒng)一指揮,并指揮進行統(tǒng)一應急評估,啟動應急預案等工作,通過統(tǒng)一調度,使信息系統(tǒng)故障應急工作有序開展。
5結束語
信息系統(tǒng)運維是信息系統(tǒng)應用的重要組成部分,決定信息系統(tǒng)應用效果,如果沒有運維好,建得再好的系統(tǒng)也產生不了業(yè)務價值。因此需要信息技術部門高度重視信息系統(tǒng)運維工作,通過加強信息系統(tǒng)運維,提高系統(tǒng)運行穩(wěn)定性,降低系統(tǒng)故障發(fā)生率,縮短故障處置時間,并以適當方式建立應急備份和容災系統(tǒng),保障信息系統(tǒng)不間斷運行,加強信息系統(tǒng)對集團公司各項業(yè)務的支持和保障,為集團公司各項業(yè)務開展提供優(yōu)質、穩(wěn)定的信息化服務。
作者:劉其韜 陳國劍 單位:中國鐵路哈爾濱局集團有限公司數(shù)據分析中心