前言:想要寫出一篇引人入勝的文章?我們特意為您整理了計算機信息故障管理分析范文,希望能給你帶來靈感和參考,敬請閱讀。
1引言
保證信息系統(tǒng)運行順暢,是如今企事業(yè)單位進行信息化建設時都希望達到的目的。但由于人力、技術、資源、管理等方面的限制,讓“IT業(yè)務系統(tǒng)運行無憂”成為不可遇也難求的終極目標。即使是電信、金融等信息化工作相對領先的行業(yè),也難以保證自己的信息業(yè)務可以高枕無憂。根據(jù)國家權威統(tǒng)計數(shù)據(jù),20%的信息系統(tǒng)故障來源于系統(tǒng)原因,70%來源于管理原因,因此,如何進行有效的故障管理是系統(tǒng)維護過程中一項非常重要的工作。
2故障管理的概念
在信息系統(tǒng)運行的過程中,不可避免會出現(xiàn)一些由于系統(tǒng)自身問題,或者是任何不符合標準的操作規(guī)程、已經發(fā)生或者可能發(fā)生的系統(tǒng)運行中止和服務質量下降的事件,這就是故障。常見的故障分為硬件以及外圍設備故障、應用系統(tǒng)故障、請求服務與操作故障三類。故障處理是指在發(fā)生故障時為盡快恢復系統(tǒng)服務而采取的必要的技術或者管理辦法的過程。故障管理的主要目的是盡可能快地恢復服務級別協(xié)議規(guī)定的水準,盡量減少故障對業(yè)務運營的不利影響,以確保最好的服務質量和可用性。在故障管理中,影響度、緊迫性和優(yōu)先級是三個描述故障的特性,他們聯(lián)系緊密而又相互區(qū)分。故障管理包含了故障監(jiān)視、故障調研、故障支持、恢復處理、故障終止五項基本活動。為了實現(xiàn)對故障流程的完善管理,需要對故障管理的整個流程進行追蹤,并做出相應的記錄。故障監(jiān)視是故障管理流程的第一項基礎活動,大多數(shù)故障都是在故障監(jiān)視活動中發(fā)現(xiàn)的。下面主要討論故障監(jiān)視在故障管理中的作用以及恢復處理的幾種形式。
3監(jiān)視的內容和方法
3.1故障原因
故障原因一般分為:
(1)技術因素,包括硬件、操作軟件系統(tǒng)、環(huán)境因素及災難性的事故;
(2)應用性故障,包括性能問題、應用缺陷(bug)及系統(tǒng)應用變更;
(3)操作故障,人為地未進行必要的操作或進行了錯誤操作。
3.2監(jiān)視的內容
從故障的原因分類來看,人員、規(guī)范操作的執(zhí)行、系統(tǒng)硬件和軟件是故障監(jiān)視的重點內容。另外,自然災害因素由于難以預計和控制,需要進行相關風險分析,可采取容災防范措施來應對。
3.3監(jiān)視方法
(1)對系統(tǒng)硬件及設備的監(jiān)視包括各主機服務器及其主要部件、專門的存儲設備、網絡交換機、路由器等。對硬件設備監(jiān)控的方法主要是采用通用或者專用的管理監(jiān)控工具,它們通常具有自動監(jiān)測、跟蹤和報警的功能。
(2)對軟件的監(jiān)視主要是針對其應用性能、軟件Bug和變更需求。對軟件的性能監(jiān)控也可以借助一些管理監(jiān)控工具,但由于應用系統(tǒng)主要面向用戶,應用系統(tǒng)的缺陷通常由專門的測試工程師負責監(jiān)視,或者在使用過程中由用戶方發(fā)現(xiàn)并提出。變更需求也是在用戶使用和監(jiān)視二合一的過程中發(fā)現(xiàn)的。
(3)需要監(jiān)視的人員包括系統(tǒng)操作員、系統(tǒng)開發(fā)工程師、用戶、來訪者、甚至包括系統(tǒng)所在機房的清潔工和運輸公司的職工等。要對他們與系統(tǒng)的接觸過程中的行為進行跟蹤和記錄,防止或者及早發(fā)現(xiàn)非標準的操作帶來的系統(tǒng)故障或者服務故障。
4恢復作業(yè)的準備、恢復處理的形式
恢復作業(yè)前需要明確,故障是由系統(tǒng)本身的問題引起的還是非標準操作事件引起的。故障管理流程主要用于控制非標準操作事件方面的控制,而對于系統(tǒng)本身出現(xiàn)的問題,需要考慮有針對性的恢復處理策略和形式。如計算機發(fā)生故障導致系統(tǒng)不能運行則應停機進行臨時性維修。首先要區(qū)分是軟件故障還是硬件設備的故障。軟件故障可能是因為系統(tǒng)軟件的某個環(huán)節(jié)在特定組合條件下不能正常運行引起的,也可能是由多種作業(yè)在運行中因爭奪資源而出現(xiàn)“死鎖”等原因造成的。這類故障一般可采用重啟系統(tǒng)或者其他人工干預手段予以恢復和排除。如果是設備性能變差引起的硬件故障,則應切換到備用系統(tǒng),盡快恢復系統(tǒng)服務。然后使用測試程序檢測故障機的各個部件,特別是中央處理器和磁盤存儲器兩個部件(輸入/輸出部件一般不至于影響整個系統(tǒng)的正常運行),盡快進行故障定位,然后針對故障部位進行后續(xù)維修。
5各類故障的恢復
5.1主機故障的恢復
主機故障一般需要啟用系統(tǒng)備份進行恢復。根據(jù)所提供的備份類型不同,主機服務可分為熱重啟(HotRestart)、暖啟動(WarmRestart)和冷啟動(ColdRestart)三種。熱啟動服務專門針對客戶暫時的系統(tǒng)故障,提供立即恢復系統(tǒng)可用性的服務,以完成客戶某些緊急的任務。熱啟動的恢復時間最快,但也最難實現(xiàn)。暖啟動與熱啟動類似,該模式下的應用程序保存系統(tǒng)當前運行的狀態(tài)信息。冷啟動服務提供商專門解決那些長期的系統(tǒng)問題,冷啟動是最易于實現(xiàn)的,但是需要最長的啟動時間。冷啟動意味著備份部件對故障部件的運行狀態(tài)一無所知,備份部件只能從初始化狀態(tài)開始。
5.2數(shù)據(jù)庫故障的恢復
當系統(tǒng)運行過程中發(fā)生故障,利用數(shù)據(jù)庫后備副本和日志文件就可以將數(shù)據(jù)庫恢復到故障前的某一致性狀態(tài)。數(shù)據(jù)庫故障主要分為事務故障、系統(tǒng)故障和介質故障,不同的故障的恢復方法也不同。事務故障是指事務在運行至正常終點前被終止,此時數(shù)據(jù)庫可能處于不正確的狀態(tài),恢復程序要在不影響其他事務運行的情況下強行回滾(Rollback)該事務,即撤銷該事務已經做出的任何對數(shù)據(jù)庫的修改,使得事務好像完全沒有啟動一樣。事務故障的恢復由系統(tǒng)自動完成。系統(tǒng)故障是指造成系統(tǒng)停止運轉的任何事件,使系統(tǒng)需要重新啟動。系統(tǒng)故障常被稱為軟故障,介質故障常被稱為硬故障。硬故障是指外存故障,如硬盤損壞、磁頭碰撞、瞬時強磁場干擾等。
5.3網絡故障的恢復
當遇到線路故障或者是網絡連接問題時,需要利用備用電路或者改變通信路徑等恢復方法,具體的途徑包括雙主干、開關控制技術、路由器、通信中件等。
5.4相關設備故障的恢復
針對系統(tǒng)的其他相關設備的故障,因分析查找設備有關技術與非技術上的故障原因,如需要應與供應商取得聯(lián)系。進行設備維修、調換、更新后,使設備運行正常。
5.5作業(yè)非正常情況的恢復
計算機系統(tǒng)中硬件的故障、軟件的錯誤、操作員的失誤及惡意的破壞是不可避免的,這些故障輕則造成事務的非正常中止,重則破壞數(shù)據(jù)庫,使數(shù)據(jù)庫全部或部分數(shù)據(jù)丟失,所以要考慮作業(yè)非正常情況下的恢復。日志文件是用來記錄事務對數(shù)據(jù)庫的更新操作的文件,對于作業(yè)非正常情況的恢復非常有幫助。