【51CTO專稿】最近,很多讀者朋友都在反映IT工作的執(zhí)行難度正變得越來越低。也許與十年前比起來,如今的IT部門確實(shí)擁有更加龐大的輔助工具陣營與技術(shù)支持,但情況是否真的與大家的感受相同呢?今天我們就來聊聊這個(gè)話題。
目前,我們已經(jīng)完全能夠以自動(dòng)化方式進(jìn)行服務(wù)器實(shí)例的創(chuàng)建與管理、部署復(fù)雜應(yīng)用程序框架等工作。坐在自己的臺(tái)式機(jī)面前、鼠標(biāo)點(diǎn)擊幾下,服務(wù)器故障排查就此順利實(shí)現(xiàn)。就在不久之前,這類維護(hù)工作還普遍需要我們搬動(dòng)服務(wù)器機(jī)架、手動(dòng)安裝操作系統(tǒng)、親自跑到數(shù)據(jù)中心、完成復(fù)雜的布線及網(wǎng)絡(luò)配置等等。從這個(gè)角度來看,IT工作已經(jīng)變得更清閑、更安逸。
然而隨著時(shí)間的推移,我們發(fā)現(xiàn)只有不斷對(duì)方案進(jìn)行調(diào)整或改進(jìn),才能真正做到對(duì)管理流程、常見任務(wù)及工作負(fù)載的簡化。要知道,技術(shù)事務(wù)的復(fù)雜性并沒有降低——事實(shí)上當(dāng)下的IT系統(tǒng)比以往任何時(shí)候都更復(fù)雜——我們只能說現(xiàn)在的技術(shù)人員從體力勞動(dòng)中解脫了出來、也不必應(yīng)付太多簡單重復(fù)的枯燥任務(wù)。我們一直在將IT基本原理向抽象層面推進(jìn),努力把每項(xiàng)工作都變成日常管理鏈中的一環(huán)。這就要求從業(yè)人員在規(guī)劃方面做出更多嘗試,而初期投入的一切精力也確實(shí)很快帶來效率及成本方面的顯著回報(bào)。
虛擬化技術(shù)自然是實(shí)現(xiàn)這種進(jìn)步的深層驅(qū)動(dòng)力,如今不僅服務(wù)器引入了虛擬化,就連存儲(chǔ)系統(tǒng)、應(yīng)用程序也與虛擬化掛上了鉤——甚至網(wǎng)絡(luò)也在VMware的VXLAN等產(chǎn)品的幫助下正式邁向虛擬化時(shí)代??傮w來說,這些組件的創(chuàng)建及部署工作對(duì)技術(shù)人員的業(yè)務(wù)水平提出了更高要求,同時(shí)也給日常管理與維護(hù)工作帶來了極大便利。我們不必再為IT基礎(chǔ)設(shè)施的規(guī)劃與重建工作費(fèi)心勞力,但項(xiàng)目初期的建設(shè)難度與投資金額相比過去則有了大幅度提高。
不過毫無疑問,IT工作并沒有變得更“簡單”。
日常操作的難度顯著降低,許多問題甚至可以由普通員工“自助”解決,然而我們?nèi)匀槐焕卫问`在技術(shù)領(lǐng)域的各種疑難雜癥及意外狀況之上。一方面,我們很可能遇上一周前發(fā)生的AWS宕機(jī)等突發(fā)問題。這是一種負(fù)面影響很難快速清除的破壞性事態(tài),感知度非常高(尤其是非IT人員),而且顯然是由人為失誤及規(guī)劃缺失所造成。世界范圍內(nèi)的一切自動(dòng)化體系都無法有效解決這類故障,相反自動(dòng)化程度越高、對(duì)于源頭設(shè)施的依賴性也越強(qiáng),這進(jìn)一步導(dǎo)致了后果的嚴(yán)重性。相信Amazon會(huì)在很長一段時(shí)間內(nèi)籠罩在這次事故的陰影當(dāng)中。
接下來,我們再看看像Mina Naguib最近所遭遇的特殊問題。我上周專門為此撰寫了評(píng)述文章,因?yàn)檫@應(yīng)該被當(dāng)作一個(gè)典型范例,指導(dǎo)經(jīng)驗(yàn)豐富、技能嫻熟的管理員們?nèi)绾螠?zhǔn)確發(fā)現(xiàn)并糾正在合理狀況下本不應(yīng)該出現(xiàn)的狀況。無論是否符合邏輯,大家都應(yīng)該抱著最壞的預(yù)期對(duì)基礎(chǔ)設(shè)施中的所有層面進(jìn)行故障排查。
1. 拒絕。這是一種偶然性很強(qiáng)的問題,故障幾乎不可能重現(xiàn),它涉及互聯(lián)網(wǎng)中最穩(wěn)定也最可靠的協(xié)議之一。理論上講這類問題根本不應(yīng)該發(fā)生。
2. 憤怒。 在利用一切合理思路進(jìn)行故障分析及排除之后,問題仍然存在。這時(shí)挫敗感恐怕已經(jīng)不足以形容管理者的心情了。
3. 交涉。即使是最有經(jīng)驗(yàn)的IT大師,偶爾也會(huì)希望能以一部分犧牲換來故障的快速解決。如果問題憑空出現(xiàn)、暫時(shí)無法做出理性解析,大多數(shù)技術(shù)人員往往需要為自己爭取更多處理時(shí)間,借以完成監(jiān)控及一致性檢測。
4. 悲觀。 這種情緒不一定會(huì)給技術(shù)人員本身帶來影響,但在我親身經(jīng)歷的許多實(shí)例中,負(fù)面反應(yīng)往往會(huì)立刻感染管理層及其它一些與IT并不沾邊的同事。他們開始放棄幫助管理員解決問題的努力,反而持觀望態(tài)度或者粗暴地認(rèn)為事情已無法挽回——一旦這種情緒占了上風(fēng),問題很可能永遠(yuǎn)得不到根本解決,甚至嚴(yán)重打擊企業(yè)員工的士氣。
5. 接受。這種態(tài)度可以被視為IT問題解決或者陷入悲觀的分水嶺。事實(shí)上IT部門在面對(duì)問題時(shí)根本就不應(yīng)該涉及接受或者不接受,這是我們的工作,無論如何都必須成功修復(fù)。即使修復(fù)工作的效果在質(zhì)量和可靠性方面還有待商榷,但面對(duì)問題選擇放棄抵抗的家伙只能說根本不具備基本的職業(yè)操守。這不是什么選擇題,我們必須搞定、工作必須繼續(xù)。
Mina就遇上了非常少見的TCP失效故障,該問題是由網(wǎng)絡(luò)服務(wù)供應(yīng)商造成的,可以說與受影響的用戶并無直接關(guān)系。某臺(tái)路由器中的固件代碼有bug、或者某個(gè)接口損壞最終導(dǎo)致了悲劇的發(fā)生,只有通過堅(jiān)持不懈的關(guān)注、努力與精心調(diào)試,才能將這類罕見問題扼殺在萌芽狀態(tài)。
這種故障就絕不是技術(shù)人員能簡單通過點(diǎn)擊鼠標(biāo)或?yàn)g覽社區(qū)就能解決的,絕大多數(shù)新手管理員甚至根本無法發(fā)現(xiàn)或者做出回應(yīng)??傊?,IT工作絕不簡單,而這樣的挑戰(zhàn)就是難題的集中體現(xiàn)。
在公眾的印象中,IT工作似乎變得更容易、更順暢、更快速甚至更具時(shí)尚感,但實(shí)際上每一位技術(shù)工作者仍然需要拿出十幾年甚至幾十年磨練技能、積累經(jīng)驗(yàn)、努力工作。業(yè)務(wù)所帶來的壓力已經(jīng)從過去的物理層面轉(zhuǎn)變成現(xiàn)在的邏輯層面,但身為IT人士,我們自己清楚這份責(zé)任比以往任何時(shí)候都更重大、更關(guān)鍵。