午夜视频在线网站,日韩视频精品在线,中文字幕精品一区二区三区在线,在线播放精品,1024你懂我懂的旧版人,欧美日韩一级黄色片,一区二区三区在线观看视频

分享

統(tǒng)一事件管理 - 完整指南

 yi321yi 2023-08-18 發(fā)布于上海

IT技術(shù)已經(jīng)無處不在,各行各業(yè)都離不開它。無論是銀行、券商、家庭、學(xué)校還是個(gè)人,都離不開IT技術(shù)。例如:

  • 我們?nèi)伺c人之間社交的軟件,如微信、QQ、陌陌、Facebook等。

  • 銀行通過IT技術(shù)為我們實(shí)現(xiàn)金融帳戶的管理、理財(cái)管理、計(jì)算理財(cái)產(chǎn)生收益等。

  • 券商為我們提供針對股票的實(shí)時(shí)行情信息和股票交易的系統(tǒng)。

  • 工業(yè)制造企業(yè)使用IT技術(shù)來實(shí)現(xiàn)ERP系統(tǒng)、財(cái)務(wù)管理系統(tǒng)等。

  • 學(xué)校使用IT技術(shù)來管理學(xué)籍和圖書。

  • 生活中,我們通過美團(tuán)等平臺購買食品和訂餐等服務(wù)。

這些我們看不見摸不著的“服務(wù)”在保障著我們的衣、食、住、行等各個(gè)方面。一旦這些系統(tǒng)出現(xiàn)異常事件(如網(wǎng)絡(luò)中斷、系統(tǒng)不能登錄訪問、交易失?。?,就會嚴(yán)重影響我們的生活。

IT系統(tǒng)出現(xiàn)服務(wù)中斷是不可避免的。因此,在事件發(fā)生時(shí),我們必須以消費(fèi)者能夠容忍的方式來管理、分析、處置事件。

統(tǒng)一事件管理系統(tǒng)是任何一家企業(yè)不可或缺的基礎(chǔ)設(shè)置。它的主要使命:與數(shù)據(jù)中心整個(gè)運(yùn)維體系的工具系統(tǒng)進(jìn)行集成、使用機(jī)器學(xué)習(xí)分析問題,并在第一時(shí)間自動采取行動解決問題。它能有效提高團(tuán)隊(duì)生產(chǎn)力,并保障為最終用戶提供出色的數(shù)字體驗(yàn)。

圖片

本文將探索統(tǒng)一事件管理的最佳實(shí)踐,包括:

  • 什么是事件?

  • 什么是事件管理?

  • 事件管理示例

  • 事件管理最佳實(shí)踐

什么是事件?

在TIL 4版本中,事件被定義為服務(wù)意外中斷或服務(wù)質(zhì)量下降。

為確??蛻魸M意度,企業(yè)必須采取適當(dāng)?shù)奶幹貌呗詠響?yīng)對不同的事件。以下是一些系統(tǒng)中發(fā)生服務(wù)中斷或異常的典型事件:

  • 用戶無法登錄

  • 每次使用您的乘車卡時(shí),卡片莫名其妙地?zé)o法打開

  • 與平常相比,進(jìn)行交易時(shí)交易緩慢

  • URL無法訪問...

什么是事件管理?

事件管理的目標(biāo)是通過一定的手段和方法盡快恢復(fù)正常服務(wù)來最大程度的減少事件的負(fù)面影響。

無論是用戶無法登錄、交易緩慢還是打印機(jī)無法打印,我們都應(yīng)該具有針對不同事件類型擁有事件管理流程。根據(jù)事件的嚴(yán)重等級,可以由個(gè)人、團(tuán)隊(duì)或多個(gè)團(tuán)隊(duì)共同協(xié)作來完成對事件的處置。成功的組織會在事件或應(yīng)急場景下指定事件或應(yīng)急指揮員角色,負(fù)責(zé)領(lǐng)導(dǎo)師臨時(shí)跨職能團(tuán)隊(duì),集中所有團(tuán)隊(duì)成員的能力快速解決問題。

事件管理的目標(biāo)是通過一定的手段和方法盡快恢復(fù)正常服務(wù),最大程度地減少事件的負(fù)面影響。

無論是用戶無法登錄、交易緩慢還是打印機(jī)無法打印,我們都應(yīng)該擁有針對不同事件分類的事件管理流程。根據(jù)事件的嚴(yán)重等級,可以由個(gè)人、團(tuán)隊(duì)或多個(gè)團(tuán)隊(duì)共同協(xié)作來完成對事件的處置。成功的組織會在事件或應(yīng)急場景下指定事件或應(yīng)急指揮員角色,負(fù)責(zé)領(lǐng)導(dǎo)臨時(shí)跨職能團(tuán)隊(duì),集中所有團(tuán)隊(duì)成員的能力快速解決問題。

事件管理的第一步是記錄事件??梢酝ㄟ^一些監(jiān)控工具或由客戶電話報(bào)障的方式獲取事件,并通過一些自動化的手段獲取通知,同時(shí)可以獲取該事件的相關(guān)信息,包括描述、發(fā)生時(shí)間、告警來源、針對什么所發(fā)生的事件(如某個(gè)主機(jī)、某個(gè)業(yè)務(wù))。記錄的事件信息將成為后續(xù)管理事件并對其進(jìn)行分析、決策、處置的基礎(chǔ),包括:

  • 溝通:在對事件進(jìn)行分析、處置過程中,需要協(xié)調(diào)不同專業(yè)領(lǐng)域人員進(jìn)行溝通、協(xié)作以對問題進(jìn)行有效分析。

  • 解決:在分析完成后,事件經(jīng)理或應(yīng)急團(tuán)隊(duì)會做出事件處置的決策,并進(jìn)行事件的快速修復(fù)。

  • 升級:如果在分析處置的過程中發(fā)現(xiàn)事件已經(jīng)超出事件響應(yīng)人員的能力范圍,則需要及時(shí)對事件進(jìn)行升級,這時(shí)可以將事件轉(zhuǎn)派給某個(gè)領(lǐng)域內(nèi)的專業(yè)人員負(fù)責(zé)處理。

  • 移交至其他流程:事件解決完成之后,如果事件需要建立相應(yīng)的工單進(jìn)行根治,則需要創(chuàng)建相應(yīng)的問題工單,以排查問題的根本原因,并徹底解決該問題。

成功的事件管理依賴于清晰地定義客戶容忍的任何事件的持續(xù)時(shí)間和處理方式。這些通常在服務(wù)級別協(xié)議(SLA)或合同中定義,其中最重要的部分是定義響應(yīng)和解決事件的時(shí)間表。

作為服務(wù)提供商,如何構(gòu)建相應(yīng)的組織并處理不同類型的事件是事件管理執(zhí)行的主要職責(zé):

  • 針對已知的事件場景:這種事件會重復(fù)發(fā)生。在這種情況下,可以定義并使用已知事件模型來進(jìn)行自動化處理和解決。已知事件模型是管理特定事件的重復(fù)發(fā)生時(shí)的重要解決方案。有助于減少新員工解決事件的時(shí)間和學(xué)習(xí)曲線,并有助于將零散的知識落地到工具系統(tǒng)中。

  • 針對一些事件發(fā)生后不容易找到解決方案,則可以采用變通的辦法來嘗試減少影響或再次發(fā)生的可能性。在這種情況下,處置的決策權(quán)將交由人工來確認(rèn)。針對當(dāng)前事件,可以采用重新啟動或分流等解決方案來快速恢復(fù)。

事件管理示例

我們將通過三個(gè)不同規(guī)模的事件來說明如何使用預(yù)先定義的最佳實(shí)踐和標(biāo)準(zhǔn)來處理常見的事件。

單一用戶服務(wù)事件

某銀行的私人銀行中心經(jīng)理張正在嘗試登錄銀行的私人銀行系統(tǒng),以查看他所分配到的客戶名單中是否有近期的拜訪安排。然而,她的訪問認(rèn)證沒有通過,盡管她嘗試了重置密碼,但仍然無法登錄,于是她聯(lián)系了IT服務(wù)臺。

IT服務(wù)臺經(jīng)理小王獲取了張經(jīng)理的詳細(xì)信息并驗(yàn)證了她是否是該銀行的私人銀行中心經(jīng)理。驗(yàn)證通過后,小王登錄私人銀行系統(tǒng)管理員模塊并檢查了張經(jīng)理的個(gè)人資料以及相關(guān)配置。結(jié)果發(fā)現(xiàn),由于調(diào)崗的原因,個(gè)人資料中的某些更改沒有正確執(zhí)行,導(dǎo)致了錯(cuò)誤。

小王針對這些更改進(jìn)行了觸發(fā)并重新執(zhí)行。然后張經(jīng)理重新嘗試登錄,并成功地登錄了系統(tǒng)。小王關(guān)閉了工作臺上的事件記錄,同時(shí)系統(tǒng)向張經(jīng)理發(fā)送了滿意度調(diào)查。張經(jīng)理非常滿意,給小王打了5星的好評。

小王繼續(xù)檢查私人銀行系統(tǒng)相關(guān)的更改情況,其他人的更改都已經(jīng)正常運(yùn)行。小王確認(rèn)“不需要創(chuàng)建工單”。

多用戶服務(wù)事件

IT服務(wù)臺李經(jīng)理注意到電話數(shù)據(jù)增加,基本上都接到同樣的事件:手機(jī)轉(zhuǎn)帳長時(shí)間沒有響應(yīng)。同時(shí)從告警工作臺的值班經(jīng)理處獲得某業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫錯(cuò)誤,他們正在處理該問題。

李經(jīng)理意識到這是一個(gè)重要的服務(wù)事件,他立即登錄ITSM系統(tǒng)發(fā)布了手機(jī)轉(zhuǎn)帳問題的一個(gè)公告,并立即創(chuàng)建了一個(gè)事件工單,要求所有團(tuán)隊(duì)收集到的于該問題相關(guān)的事件(包括IT服務(wù)臺和統(tǒng)一事件管理平臺的告警工作臺)關(guān)聯(lián)起來,以便集中進(jìn)行管理,而不需要浪費(fèi)重復(fù)的資源分別進(jìn)行處理。

10分鐘后,李經(jīng)理收到了從IT經(jīng)理那里得到的最新消息,該系統(tǒng)現(xiàn)在恢復(fù)運(yùn)行,因此他重新要求IT服務(wù)臺的多名值班人員驗(yàn)證手機(jī)轉(zhuǎn)帳業(yè)務(wù),確認(rèn)他們已經(jīng)恢復(fù)正常。并關(guān)閉了工單。

他在ITSM系統(tǒng)中重新更新了公告的內(nèi)容。

重大IT服務(wù)事件

'不好了!',NOC 值班工程師小李驚呼道。

統(tǒng)一事件管理平臺的告警工作臺發(fā)現(xiàn)告警風(fēng)暴,屏幕上不斷有新的告警涌現(xiàn)。大量的虛擬機(jī)出現(xiàn)了宕機(jī)情況,這意味著要么是核心交換機(jī)出現(xiàn)故障,要么是虛擬機(jī)管理程序出現(xiàn)問題。

小李在 ITSM 系統(tǒng)上登錄了該事件,并將其定義為重大事件。他聯(lián)系了云管理員和網(wǎng)絡(luò)管理員并召開了會議。

作為一家公有云服務(wù)商,公關(guān)經(jīng)理也需要參與進(jìn)來,因?yàn)樗枰獙?shí)時(shí)了解事件的情況、嚴(yán)重性、影響范圍等,并需要及時(shí)通知客戶以應(yīng)對該事件可能造成的輿論壓力。

云管理員很快發(fā)現(xiàn)這是虛擬機(jī)管理程序上的一個(gè)錯(cuò)誤造成的。他們立即電話聯(lián)系了虛擬機(jī)管理程序的供應(yīng)商。同時(shí),云管理員將該事件的優(yōu)先級調(diào)整為最高。

由于越來越多的虛擬機(jī)出現(xiàn)問題,電話涌入呼叫中心,CEO 也親自介入,并親自打電話給受影響的大客戶。此時(shí)供應(yīng)商還沒有盡快響應(yīng)該事件,但是 CTO 已經(jīng)觸發(fā)了應(yīng)急響應(yīng),該事件在 2 小時(shí)內(nèi)得到解決。

接下來的一段時(shí)間里,CTO 組織進(jìn)行了事件復(fù)盤,以查明事件的根本原因,供應(yīng)商也參與其中。形成事件報(bào)告,針對報(bào)告的內(nèi)容會發(fā)起一系列的研發(fā)、測試及變更計(jì)劃,以確保此類事件不會再次發(fā)生。

事件管理最佳實(shí)踐

圖片

從三個(gè)不同規(guī)模的示例中可以看出,在進(jìn)行事件或應(yīng)急響應(yīng)的過程中,為了滿足客戶的服務(wù)需求,您的IT團(tuán)隊(duì)將按照以下最佳實(shí)踐的過程執(zhí)行各種活動,主要包括:

檢測事件

事件檢測通常包括以下三種方式:

  • 用戶報(bào)告問題,而服務(wù)臺的值班人員將驗(yàn)證是否為事件。

  • 通過針對服務(wù)或相關(guān)技術(shù)組件所采集的數(shù)據(jù)進(jìn)行觀測,來自動發(fā)現(xiàn)事件。

  • 通過趨勢預(yù)測的手段來發(fā)現(xiàn)即將產(chǎn)生的事件,以便提前發(fā)現(xiàn)事件。

記錄事件

一般情況下,事件的記錄是通過系統(tǒng)來完成的,這些系統(tǒng)提供了對歷史事件的管理、總結(jié)及分析的能力,包括:

  • 呼叫中心系統(tǒng):外部客戶一般通過電話聯(lián)系呼叫中心系統(tǒng),客戶服務(wù)人員負(fù)責(zé)在此記錄客戶的問題。

  • IT工作臺:內(nèi)部用戶進(jìn)行問題報(bào)障時(shí)通常會訪問IT工作臺。

  • 監(jiān)控系統(tǒng):為了自動化監(jiān)控并發(fā)現(xiàn)系統(tǒng)的潛在問題,會對服務(wù)和相關(guān)的服務(wù)組件進(jìn)行監(jiān)控,以發(fā)現(xiàn)異常。

  • 統(tǒng)一事件管理平臺:會統(tǒng)一收集不同監(jiān)控系統(tǒng)產(chǎn)生的異常,并及時(shí)同步針對呼叫中心系統(tǒng)、IT工作臺的用戶及客戶報(bào)障至統(tǒng)一事件管理平臺,進(jìn)行統(tǒng)一的管理。

  • ITSM系統(tǒng):如果事件被確認(rèn)屬于重大事件,需要留存,則需要事后在ITSM系統(tǒng)中創(chuàng)建事件單,以備審計(jì)。

事件分類

在事件分類階段,主要根據(jù)以下內(nèi)容對事件進(jìn)行分類:

  • 這是一個(gè)什么類型的事件:如硬件故障、軟件故障、網(wǎng)絡(luò)故障或其它。

  • 影響程度及范圍:如對哪些業(yè)務(wù)、客戶造成了影響。

  • 緊急程度,取決于對客戶SLA的承諾,即恢復(fù)服務(wù)的速度。

  • 優(yōu)先級,針對不同的業(yè)務(wù)或客戶影響,哪些應(yīng)該優(yōu)先被處理。

分類有助于:

  • 加速對事件的識別及處置效率

  • 有效識別誰應(yīng)該對該事件負(fù)責(zé)

  • 降低事件處置成本

診斷事件

事件診斷的核心在于確定出了什么問題,以及針對該問題恢復(fù)正常服務(wù)的最快方法。

如果事件之前已經(jīng)發(fā)生過且已經(jīng)命中了事件模型,則可以由一線人員直接進(jìn)行診斷即可。但是,對于更復(fù)雜或之前沒有發(fā)生過的事件,則需要跨職能團(tuán)隊(duì)或由二線的專家進(jìn)行聯(lián)合調(diào)查。

解決事件

事件的解決是指診斷完成之后,針對該事件的解決方案,包括臨時(shí)修復(fù)解決方案和永久修復(fù)解決方案。一般在應(yīng)急及事件處置過程中不追求永久修復(fù),而是希望在最短的時(shí)間內(nèi)通過一系列的操作盡快恢復(fù)生產(chǎn)。主要的操作包括以下幾種 :

  • 自動實(shí)施:一般是根據(jù)事先定義的已知事件模型,完成對事件的自動解決、自動恢復(fù),不需要人工診斷和處置,全部有自動化來完成。

  • 記錄下來供運(yùn)維工程師自行解決:一般會根據(jù)事件模型或系統(tǒng)分析結(jié)果給出處置的建議,由運(yùn)維工程師進(jìn)行決策,并最終通過人工的操作來完成恢復(fù)過程。針對一些復(fù)雜場景,也可以請支持團(tuán)或供應(yīng)商來提供相應(yīng)的解決方案,由運(yùn)維工程師來執(zhí)行操作過程。

關(guān)閉事件

一旦事件得到解決,就需要對該事件進(jìn)行正式關(guān)閉。關(guān)閉需要完成以下動作:

  • 與用戶、客戶或其他管理層及利益相關(guān)者溝通,告知業(yè)務(wù)服務(wù)已經(jīng)恢復(fù)正常。

  • 根據(jù)需要,更新CMDB的配置信息,例如為了恢復(fù)業(yè)務(wù)而增加了數(shù)據(jù)庫集群的規(guī)模。

  • 更新計(jì)費(fèi),例如內(nèi)外部人力的投入、增加新的服務(wù)器等。

事后復(fù)盤

事后復(fù)盤往往被許多組織所忽略,但其是進(jìn)行知識總結(jié)、優(yōu)化監(jiān)控、優(yōu)化事件處置、優(yōu)化現(xiàn)有事件及應(yīng)用流程必不可少的重要環(huán)節(jié)。

事件復(fù)盤一般在事件發(fā)生后5個(gè)工作日內(nèi)完成,在這一環(huán)節(jié)一定要設(shè)置審查崗,詳細(xì)審查運(yùn)維工程師針對事件處置的總結(jié)報(bào)告,報(bào)告主要內(nèi)容包括:

  • 報(bào)告日期

  • 報(bào)告負(fù)責(zé)人

  • 事件概述:

    通過一兩句簡短的話,簡述事件以及根本原因、發(fā)生時(shí)間和造成的影響。如,2023.8.5日上午9:25,由于數(shù)據(jù)庫故障,造成故障時(shí)段約20%的交易出現(xiàn)響應(yīng)時(shí)間變長,影響了用戶使用體驗(yàn),持續(xù)時(shí)間約15分鐘,嚴(yán)重等級為“主要”。

  • 事件詳情

    • 詳細(xì)描述發(fā)生了什么事件

    • 什對該問題的根本原因是什么

    • 針對該問題的臨時(shí)解決方案(為了盡快恢復(fù)業(yè)務(wù),而制定的快速恢復(fù)解決方案)

    • 針對該問題的永久解決方案

  • 造成的影響:針對業(yè)務(wù)、對用戶、對交易等造成的影響,嚴(yán)重等級

  • 時(shí)間線:為了保障SLA,需要詳細(xì)記錄發(fā)現(xiàn)時(shí)間、通知負(fù)責(zé)人時(shí)間、響應(yīng)時(shí)間、解決時(shí)間、關(guān)閉時(shí)間等,主要參照企業(yè)內(nèi)部的相應(yīng)考核標(biāo)準(zhǔn)以及對最終用戶的承諾標(biāo)準(zhǔn)。

  • 參與人員(應(yīng)急及事件場景不同參與人員會有所不同):

    • 事件指揮官

    • 記錄員

    • 聯(lián)絡(luò)員

    • 還有哪些參與人:如不同領(lǐng)域的專家、開發(fā)或測試等

  • 針對該事件我們是如何響應(yīng)的

    • 做的好的地方:比如在之前的應(yīng)急及事件響應(yīng)過程中我們從來沒有使用過的流程、方法、技術(shù)等,這些可以大大改善事件響應(yīng)時(shí)效的。

    • 做得不好的地方:比如在響應(yīng)過程中我們發(fā)現(xiàn)現(xiàn)有的流程或方法針對特定的環(huán)節(jié)會造成阻力,需要加以改善。

  • 后續(xù)行動計(jì)劃

    • 針對特定的指標(biāo)監(jiān)控太敏感了,需要在監(jiān)控源做一些調(diào)整

    • 由于程序的BUG引起,同工程研發(fā)團(tuán)隊(duì)一起制定BUG修復(fù)計(jì)劃,并進(jìn)入排期

    • 任何必要的修復(fù)措施,以防止類似的問題未來再次發(fā)生。如:

    • 如果不能永久性修復(fù),當(dāng)再次發(fā)生類似的事件時(shí),我們是否可以通過自動化手段快速修復(fù)。如:針對特定的告警,可以配置規(guī)則和自動修復(fù)腳本,當(dāng)再次發(fā)生時(shí),可以自動修復(fù),而無需人工干預(yù)。

    • 針對現(xiàn)有的流程做優(yōu)化,以提高響應(yīng)的效率

    本站是提供個(gè)人知識管理的網(wǎng)絡(luò)存儲空間,所有內(nèi)容均由用戶發(fā)布,不代表本站觀點(diǎn)。請注意甄別內(nèi)容中的聯(lián)系方式、誘導(dǎo)購買等信息,謹(jǐn)防詐騙。如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊一鍵舉報(bào)。
    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多