摘 要: 結(jié)合運維工作具體實踐,首先介紹了企業(yè)的背景和存在的問題,對基于ITIL構(gòu)建IT運維服務管理體系的可行性及必要性做了分析,并對以“梳理并固化服務流程,優(yōu)化服務模式,通過系統(tǒng)實施和推廣優(yōu)化逐步提升IT服務管理能力,防范IT運維管理的風險”為目標的基于ITIL構(gòu)建IT服務管理體系的幾個步驟一一做了介紹,對事件管理、自助服務管理、變更管理、配置及資產(chǎn)管理、報表等要點問題進行了初步探索,最后總結(jié)了項目實施的成果,給出了基于ITIL構(gòu)建IT運維服務管理體系的建議。
關(guān)鍵詞: ITIL;運維管理;信息化;ISO20000;CMDB
0 引言
隨著近幾年IT系統(tǒng)的持續(xù)建設,系統(tǒng)的規(guī)模和復雜度越來越大,運維效率和運維組織管理被提到前所未有的重要位置,對IT運維的要求越來越高。如何順應形勢發(fā)展要求,使不同運維組織協(xié)調(diào)配合,建立科學、高效的運維管理體系,成為當前面臨的重要課題。
目前IT運維服務管理中存在的問題:(1)缺少系統(tǒng)的IT運維管理方法論的支撐,缺少IT服務流程管理系統(tǒng)的支持,IT運維事件的處理無法對進度、結(jié)果進行跟蹤,運維質(zhì)量難以保證,對人員的主觀能動性和自覺性依賴較高;(2) 缺少運維人員日常工作質(zhì)量和數(shù)量的考核數(shù)據(jù),人員績效難以考核;(3)內(nèi)部的編制較少,運維主要依賴于服務商的駐場人員和外部服務商,人員的變動較大,知識的沉淀較少。三方(信息中心、服務商、廠商)運維職責不清晰,涉及的部門和角色多,在發(fā)生突發(fā)情況時,協(xié)調(diào)并合理調(diào)動人力資源困難,無高效的流程以至影響到響應的速度和質(zhì)量。
ITIL作為一種主流的IT服務管理最佳實踐框架,已經(jīng)受到世界范圍內(nèi)的普遍認可,基于ITIL的運維體系規(guī)定了IT運維中各項活動的流程,為運維人員提供了標準化的行為準則,提高了各項資源的利用率以及工作效率;同時在管理體系中規(guī)定了一系列的關(guān)鍵性能指標和活動,保證了IT服務的質(zhì)量。
1 基于ITIL的IT服務管理體系的構(gòu)建步驟及要點
業(yè)界經(jīng)驗表明:“一流的工程師到二流的IT服務組織,只能提供二流的服務,反之,二流的工程師到一流的IT服務組織則能夠提供一流的服務”[1]。可見一個規(guī)范、標準、先進的流程十分重要。引用ITIL最佳實踐,通過系統(tǒng)實施和推廣優(yōu)化并逐步提升IT服務管理能力,防范IT運維管理的風險,基于ITIL構(gòu)建初步的IT服務管理體系是眾多企業(yè)的一個必然選擇。
如何實施服務管理沒有通用的答案,每個組織都有其獨特的業(yè)務、人員和文化。ITIL提供了最佳實踐指南,采用這些最佳實踐指南時應該根據(jù)具體情況對其做出調(diào)整[2]。
建立IT服務管理體系的過程分為以下7個步驟:理念導入、評估現(xiàn)狀、確定目標及范圍、流程設計、工具實施、上線試運行、持續(xù)改進。
1.1 理念導入
理念導入是ITSM項目實施的第一步,也是決定項目能夠成功實施的關(guān)鍵一步[3]。理念導入主要是學習、研討、灌輸基于ITIL最佳實踐運維管理體系框架,包括ITIL的基本知識和實施理念,有共同的語言和目標,并明確IT服務管理的愿景,在組織內(nèi)進行宣導。培訓課程可以采用提問和研討的方式,讓IT人員成為主角。
1.2 評估現(xiàn)狀
完成理念導入并建立愿景后,需要評估組織當前的服務管理流程成熟度及IT服務管理的現(xiàn)狀,并查找分析差距,進一步明確目標和范圍?,F(xiàn)狀評估就是要通過定性和定量的分析、恰當?shù)难芯糠椒ǎòㄕ{(diào)查問卷和現(xiàn)場訪談、觀摩等)全面了解組織的IT服務狀況,及其與理想狀態(tài)之間的差距,并撰寫評估報告。這是后面確定IT管理范圍、工具實施的基礎(chǔ)。
1.3 確定目標、范圍
根據(jù)現(xiàn)狀評估結(jié)果,制定近期IT服務管理的目標與范圍。在不同評估現(xiàn)狀下,制定的目標也不同,隨著體系的不斷改進完善,目標也在不斷提升,迭代式地實現(xiàn)已制定的愿景。
梳理并固化服務流程,優(yōu)化服務模式,通過系統(tǒng)實施和推廣優(yōu)化逐步提升IT服務管理能力,防范IT運維管理的風險,基于ITIL構(gòu)建初步的IT服務管理體系。包括:(1)基于ITIL思想梳理并固化IT服務管理流程;(2)實現(xiàn)統(tǒng)一的運維服務臺,建立集中的運維知識庫;(3)完成事件、問題、配置和變更發(fā)布流程的實施;(4)構(gòu)建統(tǒng)一的配置數(shù)據(jù)庫,為IT服務提供 精確化的數(shù)據(jù)支持。
1.4 流程設計
有了目標與范圍,就需要制定和實施IT服務管理方案,主要包括管理體系的梳理、流程設計的選型等環(huán)節(jié)。流程設計可以遵從先事件、服務臺、問題、知識、服務級別后變更、發(fā)布、配置管理等順序。
流程設計包括流程研討、流程詳細設計、評審確認3個環(huán)節(jié)。其要點是保證IT人員、管理層的參與度,由咨詢顧問帶領(lǐng)企業(yè)人員共同設計,關(guān)鍵點是要做好評審確認,讓IT人員和管理層盡可能達成一致。評審確認會一般有兩輪或多輪才能完成。圖1所示為服務提供流程。
1.5 工具實施
管理體系的設計、流程的制定、流程中相關(guān)指標的確立,都需要結(jié)合選擇的工具以輔助體系實施,從而提高實施的效率。為了更好地符合企業(yè)自身的特點,本文采用在某成熟供應商的成熟產(chǎn)品基礎(chǔ)上定制化開發(fā),實現(xiàn)功能相對簡單且能滿足使用要求的IT服務管理平臺。
IT服務管理平臺共包含事件管理、自助服務管理、服務請求管理、問題管理、知識管理、變更管理、發(fā)布管理、配置資產(chǎn)管理、計劃作業(yè)(含任務管理)、服務水平管理、報表管理等11個功能模塊,其邏輯框架圖如圖2所示。本文重點闡述已實施的事件管理、自助服務管理、變更管理、配置及資產(chǎn)管理等模塊。
?。?)事件管理
事件管理又稱故障管理(Incident Management),其主要目標是盡可能快地恢復到正常的服務運營,將事故對業(yè)務運營的負面影響減小到最低,并確??梢跃S持服務質(zhì)量和可用性的最高水平。事故管理的關(guān)鍵環(huán)節(jié)是:事件檢測與記錄、事件分類與初步支持、事件調(diào)查與診斷、事件解決與恢復、事件關(guān)閉、事件跟蹤回顧等環(huán)節(jié)。
事件管理流程實施得好壞直接關(guān)系到項目的成敗。主要考慮如下幾點:
?、?事件的分類。進行前期的梳理,事件按照類別、子類和條目進行分類。一級分類包括桌面、網(wǎng)絡、系統(tǒng)、信息安全、機房環(huán)境和應用。
?、?確定事件的優(yōu)先級。事件的優(yōu)先級由事件的影響度和緊急度來確定。影響度通常是考慮受影響的數(shù)量、部門,某種意義上將影響度往往等同于系統(tǒng)或設備的重要性。緊急度一般等同于事件的嚴重程度,對于業(yè)務系統(tǒng)或核心設備,宕機的緊急度大于性能下降的緊急度,性能下降的緊急度又大于單個非核心功能不可用的緊急度。
?、?誰負責關(guān)閉事件。事件應由服務臺和用戶進行確認并關(guān)閉,也可以允許用戶在自助服務系統(tǒng)中確認并關(guān)閉。
?、?轉(zhuǎn)派規(guī)則的設計。同組可以轉(zhuǎn)派,跨組需要回退到服務臺才可以轉(zhuǎn)派,或者特定角色的人才可以跨組轉(zhuǎn)派(如事件經(jīng)理)。
?、?各個環(huán)節(jié)如何通知相關(guān)的角色和責任人。一般是通知受理人即可,但重大事件要第一時間通知事件經(jīng)理、部門經(jīng)理等主管領(lǐng)導。對于事件補單的情形,也要通知事件經(jīng)理。整個事件處理的環(huán)節(jié)中事件的分派、等待、解決和關(guān)閉環(huán)節(jié)要及時通知用戶。
?、?事件是否可以過期自動關(guān)閉。事件一般由服務臺或者用戶自助關(guān)閉,對于超過10天未關(guān)閉的,系統(tǒng)可以自動實現(xiàn)關(guān)閉,并且默認為已經(jīng)解決。但是對于重大事件,必須由服務臺進行關(guān)閉。
?、?事件滿意度的獲得。事件的滿意度是ITIL中一個重要的考核指標,高滿意度是IT部門的一個主要追求。項目中實現(xiàn)了基于系統(tǒng)的自動發(fā)送滿意度征詢郵件,用戶可以通過郵件或自助服務模塊反饋滿意度及意見,對于超期未反饋的,郵件再次提醒,三天之內(nèi)仍然未反饋的由服務臺進行回訪。但對于重大事件,事件解決后,服務臺第一時間回訪滿意度。
?、?告警升級規(guī)則的涉及。服務級別協(xié)議(SLA)是指對于供應方在需求方要求下應當完成的活動的清晰描述,一個SLA總是以某種詳細程度描述何時、何處以及如何完成這些活動[4]。由于單位的IT發(fā)展還比較弱,信息中心還沒有與業(yè)務部門簽署SLA協(xié)議,在這種情況下進行討論,以一套“預期的”并向業(yè)務部門公布作為警告的SLA,并基于此進行升級和告警。表1所示為基于解決時間的事件警告升級規(guī)則。其中,首次升級時間指事件的解決時限,即事件從創(chuàng)建開始到當前時間或解決時間,在該時間尚未解決即要升級告警的時間;升級告警對象是升級告警時,從行政或者管理角度的升級告警,即向何種角色或領(lǐng)導升級、告警,以引起重視。
(2)自助服務管理
自助服務管理即“員工自助服務管理”,主要包含在線申報事件、服務請求、查詢工單、訪問知識庫、對工單解決進行評價、授權(quán)與委托等。主要功能是:按服務目錄提交服務請求、在線申報事件、查詢用戶的歷史工單、訪問知識庫、對工單解決進行滿意度評價。有效地實施自助服務,增加了業(yè)務部門和IT部門的渠道溝通,依靠有效的知識庫,簡單問題還能由用戶自助解決,不但提高了業(yè)務部門用戶IT技能和知識,也減輕了信息中心的工作量。
(3)變更管理
變更管理流程通過可控的方法及步驟來管理所有針對IT生產(chǎn)環(huán)境的變更,從而消除或最小化變更對IT服務質(zhì)量的影響,同時提高日常的運維效率。通過對所有變更的正確評估,可以維護IT環(huán)境的完整性;變更和變更實施得到正確記錄,并提供審計記錄。
在變更流程的實施中重點關(guān)注兩個問題:一是變更類型的定義及審批流程。變更的核心是審批、授權(quán),及其在變更流程中對變更風險的評估。二是變更時如何與配置管理數(shù)據(jù)庫(CMDB)銜接,發(fā)揮CMDB的價值。要求所有的變更都要關(guān)聯(lián)CMDB,這樣既可以精細化定義變更流程,也可以經(jīng)過長時間的數(shù)據(jù)記錄,從CMDB的維度查看一個配置項曾經(jīng)有過的變更請求,有利于提高運維效率,在出現(xiàn)事故時更快地查找原因。另外,在變更完成后,要求在變更流程中強化CMDB的同步更新和維護。
?。?)配置及資產(chǎn)管理
配置管理的目標是定義IT服務和基礎(chǔ)設施的部件,維護與IT部件及利用這些部件提供IT服務有關(guān)的記錄,并確保這些記錄的可靠性;提供準確的信息和文檔以支持其他服務的管理過程[5]。配置管理控制的范圍包括硬件、軟件、流程、人員以及相關(guān)文檔,并在CMDB中集中管理。其邏輯模型圖如圖3所示。其中記錄包含配置對象的詳細配置信息、變更歷史信息、生命周期信息、配置之間的關(guān)聯(lián)關(guān)系信息以及與事件、問題、變更管理的關(guān)聯(lián)關(guān)系信息。
CMDB的建設至關(guān)重要,主要有以下幾點需要重點考慮:
?、貱MDB配置模型的設計、管理的范圍和顆粒度的選擇。管理的類別,比如主機、網(wǎng)絡、存儲、應用系統(tǒng)、數(shù)據(jù)庫實例、中間件實例等;管理的層次屬性,可以業(yè)務系統(tǒng)為視角加以考慮,哪些業(yè)務系統(tǒng)及其支撐業(yè)務系統(tǒng)的主機、存儲、數(shù)據(jù)庫、中間件要納入CMDB管理的范疇,一般是先實施核心系統(tǒng)后實施外圍系統(tǒng);管理范圍的關(guān)系,配置項的關(guān)聯(lián)有很多種:連接、依賴、運行、安裝部署、父子、主備、等同等,不同類型的配置項之間可能有一種或多種關(guān)系。
?、?要高度重視配置項數(shù)據(jù)的收集和梳理。配置項數(shù)據(jù)的收集是一項費力費時的工作,但方法恰當,可以事半功倍。建議除網(wǎng)絡設備、機房設備(配線架、空調(diào)、UPS等)外,以應用系統(tǒng)為維度考慮:應用系統(tǒng)、主機、存儲、數(shù)據(jù)庫、中間件等類別的配置項,先應用系統(tǒng)后主機,然后數(shù)據(jù)庫實例、中間件實例、應用實例,最后考慮網(wǎng)絡設備、機房設備等。
?、?在收集完配置項屬性和關(guān)系數(shù)據(jù)并規(guī)格化后導入CMDB,并建立基線。
?、?構(gòu)建CMDB的目的和價值在于運用。在事件、問題等工單的記錄中要關(guān)聯(lián)CMDB的配置項,在變更發(fā)起和變更計劃時要關(guān)聯(lián)CMDB,并基于CMDB評估變更風險和影響。
?、?為了保證CMDB的數(shù)據(jù)的完整性和準確性,在有效實施變更流程的同時,定期對CMDB做“盤點”,即定期審計,主要是看配置項的屬性和關(guān)系是否與生產(chǎn)環(huán)境一致,如果不一致要查明原因,并審查流程和制度規(guī)范。
⑥ 要考核配置管理數(shù)據(jù)庫如何應用,比如是否有必要和監(jiān)控系統(tǒng)整合;與事件、問題、變更、發(fā)布等流程的關(guān)聯(lián)關(guān)系;與資產(chǎn)管理的關(guān)系等。既不要高估配置管理的短期價值,但也不要低估配置管理長期的價值。
(5)報表
基于ITIL的核心KPI考慮,包括事件總數(shù)、事件關(guān)閉的數(shù)量、事件成功關(guān)閉的數(shù)量/比率、規(guī)定時間內(nèi)解決的事件數(shù)量/百分比、超時未解決的事件數(shù)量、規(guī)定時間內(nèi)響應的事件數(shù)量/百分比、平均解決時間、一次成功解決率、問題總數(shù) 、已找到根本原因的問題數(shù)量、趨勢分析問題所占比率 、通過變通辦法解決的問題數(shù)量、問題成功解決率等。
1.6 上線推廣
在完成工具實施后,要進行上線測試、試運行和推廣。在系統(tǒng)正式上線前,需要組織好相關(guān)人員參加培訓,掌握流程、制度和工具。由于項目不僅僅涉及到信息部門,自助服務還涉及到業(yè)務部門的培訓和使用,所以項目中對信息部門先做培訓,在應用推廣等相對穩(wěn)定和成熟后,再向業(yè)務部門推廣自助服務模塊。
1.7 持續(xù)改進
根據(jù)戴明質(zhì)量環(huán)所倡導的PDCA的管理思想,流程設計應該是一個持續(xù)優(yōu)化和改進的過程。業(yè)務在發(fā)展、技術(shù)在進步、成熟度在提升,IT流程也要不斷優(yōu)化和完善。項目結(jié)束后,主要是由流程經(jīng)理或流程負責人定期或不定期地組織會議、研討、總結(jié)、修訂、完善IT運維流程。
2 項目實施成果和結(jié)論
該項目實施取得了以下成果:⑴構(gòu)建了統(tǒng)一的服務臺,初步梳理了IT服務管理的相關(guān)制度和體系文檔,構(gòu)建了IT服務提供的各項流程,更有效、有序地組織IT資源及時響應業(yè)務需求;⑵運維支持人員平均響應時間、平均故障解決時間得到了極大提升,設備和應用可用率大幅提升,針對業(yè)務需要提高了運維水平。通過與內(nèi)部支持人員簽訂OLA(內(nèi)部支撐協(xié)議),保證了各服務參與方之間的有效溝通,使問題、故障得以快速解決;⑶構(gòu)建了較為完整的配置管理流程和CMDB,通過配置管理庫的建立以及相關(guān)變更機制的制定,使各種IT資產(chǎn)得到管理;⑷實現(xiàn)了工作計劃、工單調(diào)配、任務執(zhí)行、狀態(tài)跟蹤等日常運維工作流程化、可跟蹤、可監(jiān)控、可度量、有數(shù)據(jù)支撐;⑸極大地改變了IT服務的現(xiàn)狀,提升了組織的能力、地位和形象。
通過該項目的實施,有以下經(jīng)驗和教訓值得思考:⑴基于ITIL的服務管理系統(tǒng)的建設是一個復雜的系統(tǒng)工程,流程的梳理和再造至關(guān)重要;⑵根據(jù)ITIL最佳實踐,同時結(jié)合企業(yè)自身的實際分步實施。對于企業(yè)而言,服務臺、事件管理、自助服務、知識庫、問題管理、變更管理、配置及資產(chǎn)管理可以作為第一步實施,之后再考慮安全案例、業(yè)務連續(xù)性可用性管理、財務管理等流程;⑶高層的參與和支持至關(guān)重要,尤其是企業(yè)的最高管理者的認同和參與。在項目規(guī)劃、流程梳理、制度設計和實施的各個階段有效的領(lǐng)導、協(xié)調(diào)、授權(quán)、監(jiān)督非常重要;⑷項目上線不僅僅是ITSM系統(tǒng)上線,更重要的是角色崗位映射到位、規(guī)章制度到位、培訓及意識到位;⑸要重視基于PDCA的思想,持續(xù)改進。在IT服務管理體系實施過程中,需按目標和里程碑進行階段性評審,提出和采取補救和改進措施以實現(xiàn)預期目標,并對最終建立的IT服務管理體系提出進一步的持續(xù)改進方案。
參考文獻
[1] 陳宏峰,劉億舟.中國IT服務管理指南.理論篇(第2版)[M]. 北京:北京大學出版社,2012.
[2] (荷蘭)Jan van Bon.IT管理框架[M]. 劉向輝,譯. 北京:清華大學出版社,2009.
[3] 程棟,劉億舟.中國IT服務管理指南.實踐篇(第2版)[M].北京:北京大學出版社,2012.
[4] (荷蘭)THiadens T.IT管理的知識體系[M]. 李東,牛芳,譯.北京:清華大學出版社,2007.
[5] 中國電子技術(shù)標準化研究所.IT服務管理標準理解與實施[S]. 北京:電子工業(yè)出版社,2011.