很多公司都在進行著人工智能轉(zhuǎn)型,但如果方向出現(xiàn)錯誤,一家好公司也可能會跌入深淵。本文所述的公司中有一群非常聰明的人,他們可以寫出流行的熱文,帶來鼓舞人心的 TED 演講。但總的來說,他們沒有任何真實世界里的行業(yè)經(jīng)驗。
這是一個真實的故事,發(fā)生在作者所在的公司,本文中的名稱、算法地址都已修改以保護利益相關(guān)的作者。
A 公司已經(jīng)成立幾十年了。它在行業(yè)里雖然不是領(lǐng)頭羊,但口碑還不錯。自 20 世紀(jì) 90 年代起,A 公司的核心業(yè)務(wù)就一直是風(fēng)險分析和投資組合優(yōu)化。他們有一個大約 30 個分析師組成的龐大團隊,這些分析師每天都在執(zhí)行這些任務(wù)。他們利用 ERP 大公司(如 SAP、天睿、甲骨文、JD Edwards)或主要技術(shù)咨詢公司(如德勤、埃森哲、普華永道、凱捷)為其定制的 ERP 方案與公司內(nèi)部的工程團隊合作。
他們所使用的工具非常老派:運行在 on-prem 服務(wù)器或主機上的經(jīng)典關(guān)系數(shù)據(jù)庫管理系統(tǒng)、用 COBOL 或 Fortran 編寫的代碼、像 ABAP 或 SPSS 這樣奇怪的東西……你大概明白了吧。但其模型和分析功能相當(dāng)復(fù)雜,而且和已發(fā)表的學(xué)術(shù)文獻相比,它驚人地先進。最重要的是,它們非常適合公司的企業(yè)生態(tài)系統(tǒng),并且是基于多年深厚的領(lǐng)域知識磨煉出來的。
他們的技術(shù)團隊有幾個工程師(從上述軟件和咨詢公司挖過來的)和產(chǎn)品經(jīng)理(使用該軟件的有經(jīng)驗的分析師或經(jīng)理,或從競爭對手那里挖過來的),這些人負責(zé)維護和運行該軟件。他們的技術(shù)可能有點老派,但總的來說,他們非常了解公司和這個領(lǐng)域的整體架構(gòu)。
他們指導(dǎo)公司進行了幾次大規(guī)模的升級和遷移,他們總是按時交付,沒有過多開銷。即使有幾次被絆倒了,他們也知道如何快速爬起來。在業(yè)內(nèi),他們以專業(yè)而著稱,并且與必須打交道的各路供應(yīng)商都擁有非常好的關(guān)系。他們成就了多個 ERP 咨詢?nèi)瞬诺穆殬I(yè)生涯。
有趣的是,雖然他們每天都在處理統(tǒng)計建模和優(yōu)化算法,但沒有一個分析師、工程師或產(chǎn)品經(jīng)理自稱是數(shù)據(jù)科學(xué)家或機器學(xué)習(xí)專家。這主要是一種文化現(xiàn)象:他們的專業(yè)知識早于 2010 年左右開始的數(shù)據(jù)科學(xué)/機器學(xué)習(xí)炒作,他們大部分是使用專有的企業(yè)工具而不是現(xiàn)在流行的開源工具。他們當(dāng)中只有少數(shù)人接受過正式的統(tǒng)計培訓(xùn),但大部分人來自工程或領(lǐng)域背景,然后在工作中不斷學(xué)習(xí)統(tǒng)計數(shù)據(jù)。暫時就把這個團隊叫做「X 團隊」吧。
大約在 2015 年左右,A 公司開始出現(xiàn)一些嚴(yán)重的焦慮問題:雖然作為這種規(guī)模的公司,它仍然做得很好。但由于整體的經(jīng)濟和人口發(fā)展趨勢,它的客戶群正在縮小。一些所謂的攪局者提出了一種新的應(yīng)用和商業(yè)模式,開始嚴(yán)重侵蝕其收入。適當(dāng)?shù)匕矒峁蓶|和華爾街是必要的。該公司已經(jīng)有了一個不錯的網(wǎng)站和一個相當(dāng)有吸引力的應(yīng)用,此外還要做什么呢?
領(lǐng)導(dǎo)層決定,應(yīng)該把人工智能和機器學(xué)習(xí)作為公司的核心業(yè)務(wù)。一個雄心勃勃的經(jīng)理,沒有理工科背景,僅在幾年前短暫地擺弄過推薦系統(tǒng),被選中來組建數(shù)據(jù)科學(xué)團隊,暫且將該團隊稱為「Y 團隊」(他在當(dāng)?shù)刂萘⒋髮W(xué)獲得了歷史學(xué)士學(xué)位,并在公司的市場部工作了幾年)。
Y 團隊主要由內(nèi)部雇員組成,這些人想成為數(shù)據(jù)科學(xué)家,并且在加入團隊之前完成了 Coursera 認(rèn)證或 Galvanize boot camp。該團隊還有幾個剛畢業(yè)但不喜歡學(xué)術(shù)界想投入業(yè)界的博士或碩士。這些人都很厲害,可以寫非常棒的 Medium 博客,發(fā)表鼓舞人心的 TED 演講,但總體來說,他們幾乎沒有什么行業(yè)經(jīng)驗。
和現(xiàn)在流行的做法一樣,Y 團隊直接向 CEO 和董事會報告數(shù)據(jù)科學(xué)相關(guān)工作,繞過首席信息官(CIO)和任何技術(shù)或業(yè)務(wù)副總裁(VP),因為 A 公司想在其即將召開的股東大會上宣稱這些是「數(shù)據(jù)驅(qū)動」和「AI 驅(qū)動」的。在三四年的時間里,Y 團隊制作了一些 Python 和 R 腳本。他們的架構(gòu)經(jīng)驗幾乎完全是將 Flask 連接到 S3 bucket 或 Redshift,其中更聰明一點的會學(xué)習(xí)如何將其模型插入 Tableau 或如何旋轉(zhuǎn) Kuberneties pod。
但是他們并不擔(dān)心:上述組建該團隊的經(jīng)理現(xiàn)在是一名董事(同時還在讀在線碩士課程,以彌補資歷差距,增加其晉升為 VP 的機會。至少他現(xiàn)在知道 L1 正則化是什么了)。他同時也是一位玩辦公室政治和自我推銷的大師。不管 Y 團隊提出的可行見解有多么少,或者他們部署到生產(chǎn)中的代碼是多么一丁點兒,這位經(jīng)理都支持他們,并且確保他們有充足的資金。事實上,他現(xiàn)在有一個宏偉的計劃——建立一個通用的機器學(xué)習(xí)平臺來解決公司所有的數(shù)據(jù)問題。
Y 團隊有一些頭腦清醒的成員,在將他們所處行業(yè)的名稱與「數(shù)據(jù)科學(xué)」一詞聯(lián)合搜索之后,他們意識到貝葉斯模型是風(fēng)險分析的主要解決方式,而且已經(jīng)有一個足夠完美的 R 語言工具包來處理這樣的問題了。他們在 R-Bloggers.com 上研究了相關(guān)的教程。這個團隊的成員之一甚至在 Kaggle 數(shù)據(jù)競賽平臺上提交了貝葉斯分類器的內(nèi)核(在排行榜上排名 203 位),而且正準(zhǔn)備將自己新發(fā)現(xiàn)的知識用于解決現(xiàn)實世界的問題。
他們將自己的想法告訴主管,后者認(rèn)為已找到即將推出的機器學(xué)習(xí)平臺的完美應(yīng)用方向。他們立即開始了工作,完全沒有查看 A 公司是否有人已經(jīng)在做風(fēng)險分析。由于他們的組織是獨立的,所以在接收資金之前他們完全無需與他人核對這些問題。盡管他們所做的僅僅是一個純貝葉斯分類器,「機器學(xué)習(xí)」字眼被加在了工程項目的名稱上,用來打動董事會。
但是,隨著工作的進展,緊張氣氛開始出現(xiàn)。Y 團隊要求數(shù)據(jù)倉庫和 CA 分析團隊創(chuàng)建管道,最終這個項目傳到了 X 團隊的耳中。X 團隊剛開始很興奮:表示愿意全心全意與 Y 團隊合作,并且很想在運作過程中添加機器學(xué)習(xí)這個助力。產(chǎn)品負責(zé)人和分析師也完全參與其中:他們看到了炒作整個數(shù)據(jù)科學(xué)的機會。但是由于傲慢的態(tài)度和不安全感,Y 團隊拒絕與 X 團隊合作或者與 X 團隊分享自身的長期目標(biāo),即使他們?nèi)チ斯酒渌块T,并就自身創(chuàng)建的新模型進行 brown 包演示和教程展示。
X 團隊生氣了:從他們對 Y 團隊的模型觀察來看,他們的方法天真得無可救藥,并且?guī)缀鯖]有擴大生產(chǎn)規(guī)模和實現(xiàn)可持續(xù)性的可能,他們知道如何為 Y 團隊提供幫助。考慮到 Y 團隊對 DevOps 的熟悉程度和持續(xù)交付(Y 團隊耗費幾個月的時間搞清楚了如何將一個簡單的 R 腳本部署到產(chǎn)品中),將該模型部署到產(chǎn)品中需要花費幾天時間。
盡管 X 團隊自己的技術(shù)已經(jīng)過時了,但他們依然足夠聰明,能夠?qū)⑦@些技術(shù)嵌入到現(xiàn)有架構(gòu)中。此外,該模型的輸出并沒有考慮到公司如何使用它或者如何將它傳達至下游系統(tǒng),并且產(chǎn)品負責(zé)人可能也需要花費大量精力使該模型更易于被利益相關(guān)者采納。但是,Y 團隊并沒有聽取建議,他們的領(lǐng)導(dǎo)拒絕了任何溝通嘗試,更不用說合作了。
Y 團隊釋放出來的信號是「我們是最前沿的 ML 團隊,你們的觀點都太過時了。我們不需要你們的建議」,并且他們似乎完全忽視領(lǐng)域知識,或者更糟的是,他們認(rèn)為所有的領(lǐng)域知識只需要掌握一些商業(yè)指標(biāo)的定義就行了。
X 團隊感到非常沮喪,并試圖將自己的擔(dān)憂傳達給領(lǐng)導(dǎo)層。但盡管 X 團隊掌握著 A 公司業(yè)務(wù)流程中的重要一環(huán),但他們只是一個 50 人團隊,這在一個有 1000 名員工的科技與運營大公司里顯得微不足道。此外,他們與最高管理層之間也隔了好幾環(huán),因此管理層幾乎不可能聽到他們的建議。
與此同時,這位勢不可擋的主管做了他最擅長的事情:玩弄公司政治。雖然自己團隊實際交付的東西很少,但他已經(jīng)說服了董事會,所有的分析和優(yōu)化任務(wù)現(xiàn)在都應(yīng)該遷移到他尚未交付的 ML 平臺上。
由于多數(shù)領(lǐng)導(dǎo)現(xiàn)在已經(jīng)知道 Y 團隊和 X 團隊目標(biāo)存在重疊,他的游說詞不再是 Y 團隊將要創(chuàng)造一個新理念,而是他們將要取代(或者現(xiàn)代化)基于 on-prem 工具的傳統(tǒng)統(tǒng)計和基于云的 ML 工具。盡管沒有學(xué)術(shù)文獻支持樸素貝葉斯比 X 團隊所使用的計量經(jīng)濟方法更有效的觀點,更不用說貝葉斯優(yōu)化(Bayesian Optimization)肯定優(yōu)于生產(chǎn)中運行的 QP 求解器的古怪想法了。
X 團隊不知道的是,原始貝葉斯風(fēng)險分析項目現(xiàn)在已經(jīng)發(fā)展為一項耗資數(shù)百萬美元的重大改革計劃,其中包括最終取代該團隊所支持的所有工具和功能以及必要的云遷移。CIO 和幾位 VP 現(xiàn)在都已上任,并且技術(shù)領(lǐng)導(dǎo)認(rèn)為事情已經(jīng)木已成舟。
由于 Y 團隊沒有工程技能,因此一家外部供應(yīng)商——一家沒人聽說過的創(chuàng)業(yè)公司被簽約幫助構(gòu)建這個平臺。這個選擇是慎重的,因為要求任何已有的咨詢或軟件公司做這件事的話,最終只會讓領(lǐng)導(dǎo)層得出 X 團隊在轉(zhuǎn)型上要比 Y 團隊做得好的結(jié)論。
相比之下,Y 團隊沒有重要 ERP 部署經(jīng)驗,也沒有領(lǐng)域內(nèi)的知識,但他們的任務(wù)卻是從根本上改變 A 公司核心業(yè)務(wù)的工作流程。他們的模型實際上要比 X 團隊部署的模型差,對于真實的生產(chǎn)環(huán)境來說,他們的架構(gòu)過于簡單。
具有諷刺意味的是,所有跡象表明,Y 團隊使用貝葉斯方法獲得成功的概率接近于零。
最好的情況下這個項目最終會在消耗掉 5000 萬或更多美元的情況下被砍掉。一旦此產(chǎn)品惹惱了粉絲,一批高管就會離職,而很多員工也要被開。
而在最糟糕的情況下——鑒于風(fēng)險分析和投資組合優(yōu)化對于 A 公司的收入舉足輕重,這一失敗最終可能會讓整個公司陷入困境。它可能不會破產(chǎn),但會失去大部分業(yè)務(wù)和員工。失敗的 ERP 應(yīng)用可以讓大公司陷入困境,看看 National Grid US、SuperValu 的衰敗和塔吉特敗走加拿大就知道了。
可能有人會說,A 公司的問題主要在于企業(yè)運轉(zhuǎn)和糟糕的運營思路,而不是數(shù)據(jù)科學(xué)與 AI。
但我并不同意,我認(rèn)為這次崩潰的核心原因確實來自于對數(shù)據(jù)科學(xué)、機器學(xué)習(xí)模型與 AI 未來的盲目崇信,同時也包括機器學(xué)習(xí)群體目前非常普遍的炒作和自我推銷文化。
現(xiàn)在,這個故事還沒有結(jié)束:我真誠地希望它能有一個好的結(jié)局。A 公司是一個好公司,其員工和客戶都應(yīng)該獲得更好的結(jié)局,但看看現(xiàn)在的情況,一切出現(xiàn)轉(zhuǎn)機的可能微乎其微,而這種失敗將嚴(yán)重地打擊該公司。