公務員期刊網(wǎng) 論文中心 正文

智慧運維平臺設計與分析

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了智慧運維平臺設計與分析范文,希望能給你帶來靈感和參考,敬請閱讀。

智慧運維平臺設計與分析

摘要:為建設自主可控的數(shù)據(jù)中心智慧運維管理平臺,系統(tǒng)調(diào)研國產(chǎn)化數(shù)字產(chǎn)品及服務研發(fā)現(xiàn)狀,以數(shù)據(jù)中心業(yè)務需求、設施需求、管理需求、自助服務管理及事件管理為目標,以物理層、資源抽象層、云服務層與云安全防護層構建管理頂層平臺架構,從分別以業(yè)務管理及運行監(jiān)控為中心進行了平臺詳細功能設計、資源池設計與安全設計,最后綜合分析了國產(chǎn)化智慧運維管理平臺的效益。國產(chǎn)化智慧運維管理平臺可將數(shù)據(jù)中心局域資源納入統(tǒng)一管理范圍,建立科學合理的管理體系,建立標準規(guī)范的運維管理流程,實現(xiàn)數(shù)據(jù)資源主動的、靈活的、集中的、高效的管理和運維。

關鍵詞:數(shù)字化;數(shù)據(jù)中心;運維平臺;國產(chǎn)化

面對快速增長的IT基礎設施和應用系統(tǒng),業(yè)務系統(tǒng)規(guī)模日趨龐大、架構日趨復雜,各類企業(yè)對業(yè)務系統(tǒng)的穩(wěn)定性、可靠性要求也越來越高。為提高業(yè)務系統(tǒng)日常運維的可視化、提高運行效率、量化運行質(zhì)量,建設智慧運維平臺已迫在眉睫。然而,我國在基礎軟件、高端芯片、專用設備、測試儀器、關鍵工藝等核心技術方面都存在短板,整個IT產(chǎn)業(yè)鏈中最核心的芯片、CPU硬件和操作系統(tǒng)軟件大多數(shù)依賴國外技術或直接進口。自主創(chuàng)新、自主可控,兩者的落實和發(fā)展都離不開國家的政策支持與引導。2003年中共中央辦公廳、國務院辦公廳聯(lián)合轉(zhuǎn)發(fā)的《國家信息化領導小組關于加強信息安全保障工作的意見》明確指出要重點保護基礎信息網(wǎng)絡和關系國家安全、經(jīng)濟命脈、社會穩(wěn)定等方面的重要信息系統(tǒng),抓緊建立信息安全等級保護制度,制定信息安全等級保護的管理辦法和技術指南。2016年,網(wǎng)絡安全被正式劃入“十三五”規(guī)劃重點建設方向,包括《網(wǎng)絡安全法》、《國家網(wǎng)絡空間安全戰(zhàn)略》及近期的《戰(zhàn)略性新興產(chǎn)業(yè)重點產(chǎn)品和服務指導目錄》在內(nèi)的多項重磅政策密集出臺,加速推動信息安全產(chǎn)品需求釋放。因此,為建立安全可控、運維高效的數(shù)據(jù)中心運維管理平臺,本文全面分析國產(chǎn)化設備與技術與微軟技術體系的適配性與兼容性,采用國產(chǎn)化設備與技術服務搭建數(shù)據(jù)中心運維平臺,為企業(yè)數(shù)智化發(fā)展提供安全可控保障,對指導國產(chǎn)化數(shù)字產(chǎn)品的推廣應用具有現(xiàn)實意義。

1國產(chǎn)化產(chǎn)品現(xiàn)狀

1.1CPU

我國服務器芯片自主研發(fā)主要有以下五種方向:Alpha架構、ARM架構、MIPS架構、X86架構、Power架構。涌現(xiàn)出了基于MIPS的龍芯、基于X86的海光、基于MAR的飛騰和鯤鵬以及基于Alpha架構的申威等,不同芯片參數(shù)對比為提高與既有數(shù)據(jù)中心設備及系統(tǒng)的兼容性,從架構層次來說采用X86生態(tài)的芯片兼容性最佳,其他的廠商需要構建自己的生態(tài)系統(tǒng)。慮到單核性能和核心數(shù)的差異,不同芯片會存在較大差距。從擁有自主知識產(chǎn)權和芯片安全可控方面考慮,國產(chǎn)芯片可選擇種類較少。

1.2操作系統(tǒng)

操作系統(tǒng)是平臺連接軟硬件的紐帶,在自主安全上處于核心地位。國產(chǎn)操作系統(tǒng)多為以Linux為基礎二次開發(fā)的操作系統(tǒng)。國內(nèi)基于Linux二次開發(fā)的國產(chǎn)化服務器操作系統(tǒng)目前有很多家,主要包括麒麟、普華中科方德、深度等操作系統(tǒng)。國產(chǎn)操作系統(tǒng)情況上述國產(chǎn)操作系統(tǒng)中,兩類國產(chǎn)操作系統(tǒng)在服務器端的應用發(fā)展較為成熟,通過了多個國家權威部門的測評,可支持龍芯、飛騰、申威、鯤鵬等多種主流國產(chǎn)化芯片,其產(chǎn)品支撐著國防、政府、企業(yè)、電力和金融等各領域的應用,滿足政府部門、國防、金融、電力、機要、保密等領域?qū)Σ僮飨到y(tǒng)的高安全性需求。

1.3數(shù)據(jù)庫

代表性的國產(chǎn)化數(shù)據(jù)庫廠商有:神通、金倉、達夢、南大通用等。主流國產(chǎn)化數(shù)據(jù)庫技術路線

2平臺頂層設計

智慧運維管理平臺建設整體分為四大部分,分別是:物理層、資源抽象層、云服務層與云安全防護層。以上架構設計可以實現(xiàn)各個模塊在保證各自獨立性的前提下獨立運行,還可以實現(xiàn)各模塊深度融合、自動化運營,從而保證整體技術架構的靈活性、先進性、合理性、高可用、高安全和可擴展性。物理層包括智慧運維管理平臺所需的機房運行環(huán)境,以及計算、存儲、網(wǎng)絡、安全等設備。通過部署國產(chǎn)化交換機、防火墻、服務器等設備,為智慧運維管理平臺提供基礎的物理運行環(huán)境。資源抽象層通過虛擬化技術,負責對底層硬件資源進行抽象,對底層硬件故障進行屏障,統(tǒng)一調(diào)度資源池。核心是計算虛擬化技術,該技術提供主機CPU、內(nèi)存、IO的虛擬化,并通過共享文件系統(tǒng)保證虛擬主機的遷移、HA集群和動態(tài)資源調(diào)度。云服務層是依托于原數(shù)據(jù)中心云平臺具備的云計算IaaS服務能力,為智慧運維管理平臺提供云存儲、云防火墻、云網(wǎng)絡等多種類型的云服務。云安全防護層為物理層、資源抽象層、云服務層提供全方位的安全防護。包括應具備的漏洞掃描、主機防御、網(wǎng)站防御、租戶隔離、認證與審計、數(shù)據(jù)安全等模塊。

3平臺功能設計

3.1平臺功能架構

功能架構劃分為兩個層次及兩大模塊,各層形成一個統(tǒng)一的整體,為數(shù)據(jù)中心提供云內(nèi)資源的統(tǒng)一運維、監(jiān)控及管理服務。智慧運維管理平臺的整體功能架構最底層是IT基礎設施層,即平臺的被管理對象,它包含數(shù)據(jù)中心范圍內(nèi)運行使用的對象,包括網(wǎng)絡設備、服務器、計算存儲資源、系統(tǒng)應用軟件、虛擬化資源等。運行監(jiān)控管理模塊實現(xiàn)對IT基礎架構統(tǒng)一監(jiān)控,通過代理或免代理的方式實現(xiàn)數(shù)據(jù)采集和數(shù)據(jù)處理,實現(xiàn)對被管理運行對象的監(jiān)控,掌握運行資源的配置狀況、監(jiān)控對象的運行狀態(tài)和性能參數(shù)。業(yè)務服務管理模塊基于運行監(jiān)控管理模塊的數(shù)據(jù)采集及數(shù)據(jù)處理信息,按照業(yè)務進行建模,展現(xiàn)業(yè)務的整體運行情況,進行業(yè)務預警和快速發(fā)現(xiàn)IT系統(tǒng)的根源故障。業(yè)務展示層,提供了多種展示視圖和方式,為不同的用戶提供不同的管理視圖,包括領導視圖、運維門戶、自服務門戶、業(yè)務展示視圖等。

3.2平臺詳細功能設計

具體功能包括業(yè)務管理、應用資源管理、容量管理、用戶體驗管理、自動化運維管理、告警管理、報表管理等功能。

(1)業(yè)務管理:實時展示各個業(yè)務系統(tǒng)當前的用戶體驗層狀態(tài),IT基礎架構層運行狀態(tài),IT架構層指標包括:健康狀態(tài)、繁忙程度、可用狀態(tài)、業(yè)務告警總覽。

(2)應用資源管理:對不同的業(yè)務系統(tǒng)、應用和網(wǎng)絡服務進行遠程監(jiān)控和管理,從而充分滿足用戶對各種關鍵業(yè)務和數(shù)據(jù)中心的監(jiān)控管理需求。

(3)網(wǎng)絡設備管理:提供設備的詳細信息,包括設備地址、運行時間、設備型號、版本、接口數(shù)量、登入方式、路徑拓撲展示、會話連接數(shù)、CPU利用率、內(nèi)存利用率、端口流量速率、告警信息等監(jiān)控,起到網(wǎng)絡性能管理、網(wǎng)絡配置管理、網(wǎng)絡資源管理等作用。

(4)存儲管理:平臺支持對業(yè)內(nèi)主流存儲設備的監(jiān)控與管理功能,可對支持并開啟相關協(xié)議的存儲設備進行統(tǒng)一管理。

(5)自動化運維管理:預先構建的合規(guī)性基準,合規(guī)性部署模板和修復措施,基于現(xiàn)有合規(guī)內(nèi)容創(chuàng)建符合外部(如國資委、公安部、網(wǎng)信辦)監(jiān)管要求的行業(yè)基準和策略。

(6)告警管理:通過實時告警關聯(lián)分析,屏蔽重復無效告警,分析生成根因告警;通過實時告警與拓撲提示、通過告警板聲光提示、通過手機短信及Email、微信等遠程提示,快速通知網(wǎng)絡管理員詳細準確的故障信息。

(7)報表管理:提供集中的報表管理平臺,實現(xiàn)對報表模板管理、Web報表設計管理、周期性報表管理和報表模板的發(fā)布,同時提供實時報表和周期性報表的查看。

3.3安全設計

安全設計包括鏈路安全上的防火墻、入侵防御、防病毒等以及日志審計、運維審計、漏洞掃描、數(shù)據(jù)庫審計等能力,從而使得智慧運維平臺能夠滿足國家安全等級保護三級的部署要求。為了完善國產(chǎn)化資源池與數(shù)據(jù)中心環(huán)境之間的安全隔離,國產(chǎn)化資源池接入?yún)^(qū)部署一臺國產(chǎn)化防火墻,實現(xiàn)國產(chǎn)化區(qū)域與非國產(chǎn)化區(qū)域之間的信息交互的安全可靠。

4技術路線

在滿足需求的前提下,采用應用國家創(chuàng)新的安全可靠的信息化設備;在滿足安全可靠要求的前提下,優(yōu)先選擇成熟度高、適配性強的產(chǎn)品,確保系統(tǒng)的穩(wěn)定性、可靠性;選擇符合相關標準協(xié)議的產(chǎn)品,確保產(chǎn)品間可互聯(lián)互通及今后的可擴展;軟件產(chǎn)品優(yōu)先選用開放式體系架構的成熟產(chǎn)品,盡量減少自行開發(fā)工作,確保系統(tǒng)工作穩(wěn)定。具體技術路線選擇上可以從平臺軟件、基礎硬件、兼容性和適配性四方面進行分析確認。

4.1平臺軟件選擇

針對國產(chǎn)化技術改造平臺類軟件進行國產(chǎn)化分析,所涉及的運維平臺、虛擬化等基礎平臺軟件,還包括國產(chǎn)化操作系統(tǒng),數(shù)據(jù)庫,成品軟件相關。對于核心技術使用開源項目的軟件,需要進行分析,如對開源技術已進行深度定制開發(fā),同時不受閉源影響,則可以選用。

4.2基礎硬件選擇

基礎硬件設施選用包括服務器、存儲、網(wǎng)絡、安全等硬件產(chǎn)品,按照核心部件和相關軟件的設計研發(fā)情況進行選擇,優(yōu)先選擇獲得國家對安全可靠認證的產(chǎn)品。其他相關國產(chǎn)化產(chǎn)品需要進行可研分析,核心部件選用自主設計生產(chǎn)的產(chǎn)品;對于核心部件使用國外產(chǎn)品,而國內(nèi)沒有可替代的產(chǎn)品,則需要進行專項分析。

4.3軟硬件兼容性

需要充分考慮所選擇的軟硬件產(chǎn)品與既有數(shù)據(jù)中心平臺環(huán)境的兼容性與適配問題。在對各廠商軟硬件產(chǎn)品分析,平臺軟件、基礎硬件選型過程中,需要充分論證各產(chǎn)品及其技術路線與現(xiàn)有數(shù)據(jù)中心平臺環(huán)境是否兼容適配。

4.4適配性測試

為確保軟硬件適配性及運行的穩(wěn)定性,從需求分析審查、設計審查、代碼審查、單元測試、功能測試、性能測試、可恢復性測試、資源消耗測試、并發(fā)測試、健壯性測試、安全測試、安裝配置測試、可移植性測試、文檔測試以及最終的驗收測試等內(nèi)容進行測試,及時發(fā)現(xiàn)平臺缺陷,分析錯誤產(chǎn)生的原因和錯誤的分布特征,提升平臺運行穩(wěn)定性。

5平臺實踐

通過業(yè)務狀態(tài)分布圖直觀呈現(xiàn)業(yè)務系統(tǒng)整體運行情況,核心業(yè)務卡片實時展示各個業(yè)務系統(tǒng)當前的用戶體驗層狀態(tài),IT基礎架構層運行狀態(tài),IT架構層指標包括:健康狀態(tài)、繁忙程度、可用狀態(tài)、業(yè)務告警總覽。管理設備類型:除了傳統(tǒng)的路由器、交換機外,更能對網(wǎng)絡中的無線、安全、語音、存儲、監(jiān)控、服務器、打印機、UPS等設備進行管理,實現(xiàn)設備資源的集中化管理。可以根據(jù)網(wǎng)絡情況設置多種選項和自動化配置;可以設置多套設備訪問參數(shù),運維平臺將自動適配每個設備使用的參數(shù);通過網(wǎng)段過濾設置可以更加有選擇性地發(fā)現(xiàn)網(wǎng)絡設備;結合定時發(fā)現(xiàn)設置可以周期性的掃描指定網(wǎng)絡,自動管理新加入網(wǎng)絡的設備。平臺還提供了豐富的故障檢測工具,例如ping、tracert、telnet等。當鼠標懸浮在某個網(wǎng)絡設備或者網(wǎng)絡鏈路上時,顯示網(wǎng)絡設備和網(wǎng)絡鏈路名稱、IP地址、物理位置、網(wǎng)絡互聯(lián)端口、物理跳線連接、負責人等基本信息,網(wǎng)絡鏈路雙向?qū)崟r流量、網(wǎng)絡帶寬使用率、網(wǎng)絡時延、丟包率、錯包率和CPU利用率等性能信息。自動對管理的網(wǎng)絡設備資源進行周期性的狀態(tài)輪詢和配置輪詢,缺省的狀態(tài)輪詢周期是1分鐘,缺省的配置輪詢周期是2小時,用戶可以修改每個設備的狀態(tài)輪詢周期和配置輪詢周期。在輪詢的過程中,如果發(fā)現(xiàn)設備不可達、接口DOWN/UP等重要事件,平臺將產(chǎn)生相關告警通知用戶,同時會反映在設備的狀態(tài)上。平臺可以從存儲組、存儲設備,存儲池,存儲卷等多個層級對存儲設備進行監(jiān)控與管理。所實現(xiàn)的功能包括將多個存儲設備組織成一個存儲組、在存儲設備上劃分存儲池,在一個存儲池中劃分存儲卷等。平臺提供了豐富的預定義報表模板,提供多種報表模板和圖表類型,能夠滿足大部分用戶的日常報表需求。并且可以基于預定義報表進行自定義設計,大大簡化了用戶自定義報表的工作量??梢远喾N形式展現(xiàn)網(wǎng)絡性能監(jiān)控報表。

6總體效益分析

智慧運維平臺能夠從單一管理控制臺上獲取整個數(shù)據(jù)中心的運維狀況,更有效地了解各項服務的運行狀態(tài)、及時解決系統(tǒng)故障,從而提高整個數(shù)據(jù)中心的運維水平,并且提高計算資源利用率。

6.1提高業(yè)務應用管理水平

能夠感知業(yè)務應用系統(tǒng)整體運行狀態(tài),發(fā)現(xiàn)業(yè)務系統(tǒng)存在的問題,定位業(yè)務故障根因,及時解決相關問題,保障業(yè)務系統(tǒng)的正常運行。并且提供領導決策分析、運維監(jiān)控歷史數(shù)據(jù)分析依據(jù),確保數(shù)據(jù)的真實性與有效性。通過分析歷史數(shù)據(jù),生成性能、故障等的量化分析報告,為決策分析提供可靠依據(jù)。同時還可通過可視化的監(jiān)控中心完成對信息系統(tǒng)的全面管理、數(shù)據(jù)保護、成本管理和風險控制,極大地提升了運營能力。

6.2提升業(yè)務運維能力

提供業(yè)務服務狀態(tài)和用戶體驗詳情綜合分析,實現(xiàn)業(yè)務故障早發(fā)現(xiàn)、早報告、早預警、早處置,保障業(yè)務高可用性??梢灾鲃拥卦诩褐g均衡工作負載,并且提供容量規(guī)劃功能,讓管理員更準確地分配資源,并且及時回收不再使用的資源。極大地提高了服務器的利用率,在滿足總體容量需求的同時減少了每年的硬件采購支出。

6.3加速國產(chǎn)化產(chǎn)品適配

實現(xiàn)對國產(chǎn)化計算資源的靈活調(diào)度與彈性分配,充分使用了網(wǎng)絡、服務器、安全、操作系統(tǒng)、數(shù)據(jù)庫、虛擬化等國產(chǎn)化產(chǎn)品,極大促進了國產(chǎn)化產(chǎn)品在交通行業(yè)內(nèi)的影響力。

6.4保障信息系統(tǒng)自主可控

依靠自身研發(fā)設計,全面掌握產(chǎn)品核心技術,實現(xiàn)信息系統(tǒng)從硬件到軟件的自主研發(fā)、生產(chǎn)、升級、維護的全程可控,實現(xiàn)對信息系統(tǒng)安全監(jiān)控管理,防止非法利用信息系統(tǒng)。直觀展現(xiàn)業(yè)務運行狀態(tài),以可視化的方式進行故障定位分析,運維人員可以關注核心告警,快速解決現(xiàn)場問題,大大提升運維工作效率。

7展望

基于國產(chǎn)化數(shù)字產(chǎn)品及服務構建國產(chǎn)化資源池,兼容并適配既有軟硬件,建立數(shù)據(jù)中心智慧運維管理平臺,為數(shù)據(jù)中心部署的各類業(yè)務系統(tǒng)、服務器設備、存儲設備、網(wǎng)絡設備和安全設備提供統(tǒng)一監(jiān)控、管理和運維。動態(tài)資源調(diào)整特性能夠整合服務器,降低IT成本,增強靈活性。所構建的統(tǒng)一指揮、聯(lián)網(wǎng)聯(lián)動、信息研判、資源調(diào)配、綜合管理為基本職能的管理平臺將為數(shù)據(jù)中心關鍵業(yè)務運行狀態(tài)發(fā)揮智慧監(jiān)控與維護功能,提高各類信息應用系統(tǒng)日常運維的可視化程度、量化運行質(zhì)量,提高IT系統(tǒng)運行效率,保障業(yè)務不間斷運行。下一步,國產(chǎn)軟硬件研發(fā)與適配分析仍是IT行業(yè)的重點研究內(nèi)容,國產(chǎn)數(shù)字產(chǎn)品與服務替代仍是各行業(yè)的重點任務,全國各領域應積極推進自主平臺研發(fā)與國產(chǎn)軟硬件應用,為提升企業(yè)信息化建設水平、助力我國信息領域的自主創(chuàng)新及信息安全提供有力支撐。

參考文獻:

[1]劉建兵,王振欣,楊華,等.主動安全網(wǎng)絡架構與等保要求[J].信息安全研究,2022,8(01):28-34.

[2]曹龍,吉梁,朱彤.綜合性集團網(wǎng)絡安全水平評價指標體系構建與實證研究[J].信息安全研究,2022,8(01):101-108.

[3]張浩,秦宏波,侯震寰.上海市互聯(lián)網(wǎng)數(shù)據(jù)中心能效狀況研究[J].上海節(jié)能,2021(12):1359-1364.

[4]焦芳,張朝熙.自動撥測系統(tǒng)對數(shù)據(jù)中心業(yè)務保障的研究與實現(xiàn)[J].電子世界,2021(24):180-181.

[5]華日通訊自主研發(fā)國產(chǎn)化信號分析軟件產(chǎn)品[J].中國無線電,2021(12):7.

[6]寧金葉,徐謙,羅小麗,等.基于國產(chǎn)化軟硬件計算機的高可用集群軟件設計[J].電腦與信息技術,2021,29(06):37-40.

[7]趙琪,郭森科,潘成瑤.智慧運維管控平臺系統(tǒng)[J].中國交通信息化,2021(10):130-131+134.

[8]王新官.高速公路收費站智慧收費及運維系統(tǒng)[J].中國交通信息化,2021(08):107-109.

[9]盧士達,金玲麗,姚亦凡.智慧電力網(wǎng)絡安全態(tài)勢感知能力建設與提升——數(shù)據(jù)驅(qū)動從傳統(tǒng)運維轉(zhuǎn)型智慧運維[J].信息安全與通信保密,2021(08):60-67.

[10]徐世波,張林,郭延紅,等.智慧校園背景下的網(wǎng)絡運維綜合管理平臺設計研究[J].網(wǎng)絡安全技術與應用,2021(08):98-101.

[11]李勝杰,馬名東.智慧建筑運維管理平臺初探[J].智能建筑電氣技術,2021,15(03):16-19.

作者:郝志強 劉志勝 楊永杰 郗冬冬 單位:山西交通控股集團有限公司 山西省交通規(guī)劃勘察設計院有限公司