IT技術(shù)已經(jīng)無處不在,各行各業(yè)都離不開它。無論是銀行、券商、家庭、學(xué)校還是個(gè)人,都離不開IT技術(shù)。例如:
這些我們看不見摸不著的“服務(wù)”在保障著我們的衣、食、住、行等各個(gè)方面。一旦這些系統(tǒng)出現(xiàn)異常事件(如網(wǎng)絡(luò)中斷、系統(tǒng)不能登錄訪問、交易失?。?,就會嚴(yán)重影響我們的生活。 IT系統(tǒng)出現(xiàn)服務(wù)中斷是不可避免的。因此,在事件發(fā)生時(shí),我們必須以消費(fèi)者能夠容忍的方式來管理、分析、處置事件。 統(tǒng)一事件管理系統(tǒng)是任何一家企業(yè)不可或缺的基礎(chǔ)設(shè)置。它的主要使命:與數(shù)據(jù)中心整個(gè)運(yùn)維體系的工具系統(tǒng)進(jìn)行集成、使用機(jī)器學(xué)習(xí)分析問題,并在第一時(shí)間自動采取行動解決問題。它能有效提高團(tuán)隊(duì)生產(chǎn)力,并保障為最終用戶提供出色的數(shù)字體驗(yàn)。 本文將探索統(tǒng)一事件管理的最佳實(shí)踐,包括:
什么是事件?在TIL 4版本中,事件被定義為服務(wù)意外中斷或服務(wù)質(zhì)量下降。 為確??蛻魸M意度,企業(yè)必須采取適當(dāng)?shù)奶幹貌呗詠響?yīng)對不同的事件。以下是一些系統(tǒng)中發(fā)生服務(wù)中斷或異常的典型事件:
什么是事件管理?事件管理的目標(biāo)是通過一定的手段和方法盡快恢復(fù)正常服務(wù)來最大程度的減少事件的負(fù)面影響。 無論是用戶無法登錄、交易緩慢還是打印機(jī)無法打印,我們都應(yīng)該具有針對不同事件類型擁有事件管理流程。根據(jù)事件的嚴(yán)重等級,可以由個(gè)人、團(tuán)隊(duì)或多個(gè)團(tuán)隊(duì)共同協(xié)作來完成對事件的處置。成功的組織會在事件或應(yīng)急場景下指定事件或應(yīng)急指揮員角色,負(fù)責(zé)領(lǐng)導(dǎo)師臨時(shí)跨職能團(tuán)隊(duì),集中所有團(tuán)隊(duì)成員的能力快速解決問題。 事件管理的目標(biāo)是通過一定的手段和方法盡快恢復(fù)正常服務(wù),最大程度地減少事件的負(fù)面影響。 無論是用戶無法登錄、交易緩慢還是打印機(jī)無法打印,我們都應(yīng)該擁有針對不同事件分類的事件管理流程。根據(jù)事件的嚴(yán)重等級,可以由個(gè)人、團(tuán)隊(duì)或多個(gè)團(tuán)隊(duì)共同協(xié)作來完成對事件的處置。成功的組織會在事件或應(yīng)急場景下指定事件或應(yīng)急指揮員角色,負(fù)責(zé)領(lǐng)導(dǎo)臨時(shí)跨職能團(tuán)隊(duì),集中所有團(tuán)隊(duì)成員的能力快速解決問題。 事件管理的第一步是記錄事件??梢酝ㄟ^一些監(jiān)控工具或由客戶電話報(bào)障的方式獲取事件,并通過一些自動化的手段獲取通知,同時(shí)可以獲取該事件的相關(guān)信息,包括描述、發(fā)生時(shí)間、告警來源、針對什么所發(fā)生的事件(如某個(gè)主機(jī)、某個(gè)業(yè)務(wù))。記錄的事件信息將成為后續(xù)管理事件并對其進(jìn)行分析、決策、處置的基礎(chǔ),包括:
成功的事件管理依賴于清晰地定義客戶容忍的任何事件的持續(xù)時(shí)間和處理方式。這些通常在服務(wù)級別協(xié)議(SLA)或合同中定義,其中最重要的部分是定義響應(yīng)和解決事件的時(shí)間表。 作為服務(wù)提供商,如何構(gòu)建相應(yīng)的組織并處理不同類型的事件是事件管理執(zhí)行的主要職責(zé):
事件管理示例我們將通過三個(gè)不同規(guī)模的事件來說明如何使用預(yù)先定義的最佳實(shí)踐和標(biāo)準(zhǔn)來處理常見的事件。 單一用戶服務(wù)事件某銀行的私人銀行中心經(jīng)理張正在嘗試登錄銀行的私人銀行系統(tǒng),以查看他所分配到的客戶名單中是否有近期的拜訪安排。然而,她的訪問認(rèn)證沒有通過,盡管她嘗試了重置密碼,但仍然無法登錄,于是她聯(lián)系了IT服務(wù)臺。 IT服務(wù)臺經(jīng)理小王獲取了張經(jīng)理的詳細(xì)信息并驗(yàn)證了她是否是該銀行的私人銀行中心經(jīng)理。驗(yàn)證通過后,小王登錄私人銀行系統(tǒng)管理員模塊并檢查了張經(jīng)理的個(gè)人資料以及相關(guān)配置。結(jié)果發(fā)現(xiàn),由于調(diào)崗的原因,個(gè)人資料中的某些更改沒有正確執(zhí)行,導(dǎo)致了錯(cuò)誤。 小王針對這些更改進(jìn)行了觸發(fā)并重新執(zhí)行。然后張經(jīng)理重新嘗試登錄,并成功地登錄了系統(tǒng)。小王關(guān)閉了工作臺上的事件記錄,同時(shí)系統(tǒng)向張經(jīng)理發(fā)送了滿意度調(diào)查。張經(jīng)理非常滿意,給小王打了5星的好評。 小王繼續(xù)檢查私人銀行系統(tǒng)相關(guān)的更改情況,其他人的更改都已經(jīng)正常運(yùn)行。小王確認(rèn)“不需要創(chuàng)建工單”。 多用戶服務(wù)事件IT服務(wù)臺李經(jīng)理注意到電話數(shù)據(jù)增加,基本上都接到同樣的事件:手機(jī)轉(zhuǎn)帳長時(shí)間沒有響應(yīng)。同時(shí)從告警工作臺的值班經(jīng)理處獲得某業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫錯(cuò)誤,他們正在處理該問題。 李經(jīng)理意識到這是一個(gè)重要的服務(wù)事件,他立即登錄ITSM系統(tǒng)發(fā)布了手機(jī)轉(zhuǎn)帳問題的一個(gè)公告,并立即創(chuàng)建了一個(gè)事件工單,要求所有團(tuán)隊(duì)收集到的于該問題相關(guān)的事件(包括IT服務(wù)臺和統(tǒng)一事件管理平臺的告警工作臺)關(guān)聯(lián)起來,以便集中進(jìn)行管理,而不需要浪費(fèi)重復(fù)的資源分別進(jìn)行處理。 10分鐘后,李經(jīng)理收到了從IT經(jīng)理那里得到的最新消息,該系統(tǒng)現(xiàn)在恢復(fù)運(yùn)行,因此他重新要求IT服務(wù)臺的多名值班人員驗(yàn)證手機(jī)轉(zhuǎn)帳業(yè)務(wù),確認(rèn)他們已經(jīng)恢復(fù)正常。并關(guān)閉了工單。 他在ITSM系統(tǒng)中重新更新了公告的內(nèi)容。 重大IT服務(wù)事件'不好了!',NOC 值班工程師小李驚呼道。 統(tǒng)一事件管理平臺的告警工作臺發(fā)現(xiàn)告警風(fēng)暴,屏幕上不斷有新的告警涌現(xiàn)。大量的虛擬機(jī)出現(xiàn)了宕機(jī)情況,這意味著要么是核心交換機(jī)出現(xiàn)故障,要么是虛擬機(jī)管理程序出現(xiàn)問題。 小李在 ITSM 系統(tǒng)上登錄了該事件,并將其定義為重大事件。他聯(lián)系了云管理員和網(wǎng)絡(luò)管理員并召開了會議。 作為一家公有云服務(wù)商,公關(guān)經(jīng)理也需要參與進(jìn)來,因?yàn)樗枰獙?shí)時(shí)了解事件的情況、嚴(yán)重性、影響范圍等,并需要及時(shí)通知客戶以應(yīng)對該事件可能造成的輿論壓力。 云管理員很快發(fā)現(xiàn)這是虛擬機(jī)管理程序上的一個(gè)錯(cuò)誤造成的。他們立即電話聯(lián)系了虛擬機(jī)管理程序的供應(yīng)商。同時(shí),云管理員將該事件的優(yōu)先級調(diào)整為最高。 由于越來越多的虛擬機(jī)出現(xiàn)問題,電話涌入呼叫中心,CEO 也親自介入,并親自打電話給受影響的大客戶。此時(shí)供應(yīng)商還沒有盡快響應(yīng)該事件,但是 CTO 已經(jīng)觸發(fā)了應(yīng)急響應(yīng),該事件在 2 小時(shí)內(nèi)得到解決。 接下來的一段時(shí)間里,CTO 組織進(jìn)行了事件復(fù)盤,以查明事件的根本原因,供應(yīng)商也參與其中。形成事件報(bào)告,針對報(bào)告的內(nèi)容會發(fā)起一系列的研發(fā)、測試及變更計(jì)劃,以確保此類事件不會再次發(fā)生。 事件管理最佳實(shí)踐 從三個(gè)不同規(guī)模的示例中可以看出,在進(jìn)行事件或應(yīng)急響應(yīng)的過程中,為了滿足客戶的服務(wù)需求,您的IT團(tuán)隊(duì)將按照以下最佳實(shí)踐的過程執(zhí)行各種活動,主要包括: 檢測事件事件檢測通常包括以下三種方式:
記錄事件一般情況下,事件的記錄是通過系統(tǒng)來完成的,這些系統(tǒng)提供了對歷史事件的管理、總結(jié)及分析的能力,包括:
事件分類在事件分類階段,主要根據(jù)以下內(nèi)容對事件進(jìn)行分類:
分類有助于:
診斷事件事件診斷的核心在于確定出了什么問題,以及針對該問題恢復(fù)正常服務(wù)的最快方法。 如果事件之前已經(jīng)發(fā)生過且已經(jīng)命中了事件模型,則可以由一線人員直接進(jìn)行診斷即可。但是,對于更復(fù)雜或之前沒有發(fā)生過的事件,則需要跨職能團(tuán)隊(duì)或由二線的專家進(jìn)行聯(lián)合調(diào)查。 解決事件事件的解決是指診斷完成之后,針對該事件的解決方案,包括臨時(shí)修復(fù)解決方案和永久修復(fù)解決方案。一般在應(yīng)急及事件處置過程中不追求永久修復(fù),而是希望在最短的時(shí)間內(nèi)通過一系列的操作盡快恢復(fù)生產(chǎn)。主要的操作包括以下幾種 :
關(guān)閉事件一旦事件得到解決,就需要對該事件進(jìn)行正式關(guān)閉。關(guān)閉需要完成以下動作:
事后復(fù)盤事后復(fù)盤往往被許多組織所忽略,但其是進(jìn)行知識總結(jié)、優(yōu)化監(jiān)控、優(yōu)化事件處置、優(yōu)化現(xiàn)有事件及應(yīng)用流程必不可少的重要環(huán)節(jié)。 事件復(fù)盤一般在事件發(fā)生后5個(gè)工作日內(nèi)完成,在這一環(huán)節(jié)一定要設(shè)置審查崗,詳細(xì)審查運(yùn)維工程師針對事件處置的總結(jié)報(bào)告,報(bào)告主要內(nèi)容包括:
|
|