「AI 的偏差」是機(jī)器學(xué)習(xí)中非常受關(guān)注的一個問題,著名分析師 Benedict Evans 對此發(fā)表了一篇文章,雷鋒網(wǎng) AI 科技評論編譯整理如下。
機(jī)器學(xué)習(xí)在數(shù)據(jù)中發(fā)現(xiàn)模式?!窤I 偏差」意味著它可能會發(fā)現(xiàn)錯誤的模式——一個用于檢測皮膚癌的系統(tǒng)可能會更加關(guān)注照片是否是在醫(yī)生辦公室拍攝的。機(jī)器學(xué)習(xí)不「理解」任何東西——它只是在數(shù)據(jù)中尋找模式,如果樣本數(shù)據(jù)不具有代表性,那么輸出也不會具有代表性。同時,機(jī)器學(xué)習(xí)的機(jī)制讓我們難以發(fā)現(xiàn)這一問題。
由于人類的多樣性,而且有很多理由說明關(guān)于人類的數(shù)據(jù)可能帶有隱含的偏差,在人類中這一問題比較明顯。但是,如果你認(rèn)為這僅僅和人有關(guān),那就產(chǎn)生了誤導(dǎo),這就像試圖發(fā)現(xiàn)倉庫里的洪水或是燃?xì)廨啓C(jī)的故障,這是誤導(dǎo)性的,或者是不完整的。一個系統(tǒng)可能偏向于不同的皮膚色素沉著,另一個系統(tǒng)可能偏向于西門子傳感器。
這些問題不是機(jī)器學(xué)習(xí)的新問題,也不是唯一的問題——所有復(fù)雜的組織都會做出錯誤的假設(shè),而且總是很難做出決定。解決辦法是制作工具和流程來檢查這個問題,并進(jìn)行用戶教育,確保人們不只是「做人工智能所說的」。機(jī)器學(xué)習(xí)比人更擅長做某些事情,就像狗比人更擅長發(fā)現(xiàn)毒品一樣,但你不會根據(jù)狗的證據(jù)來對某個人定罪。狗比任何機(jī)器學(xué)習(xí)都聰明得多。
機(jī)器學(xué)習(xí)是當(dāng)今最重要的基本技術(shù)趨勢之一,也是未來十年技術(shù)將改變世界的主要方式之一。作為其中的一部分,機(jī)器學(xué)習(xí)的某些方面引起了人們的關(guān)注——例如,它對就業(yè)的潛在影響,以及它可能被用于做人們認(rèn)為不道德的事情,例如,它可能賦予某些政治組織新的能力去壓迫它們的人民。另一個,也就是這篇文章的討論的主題,是 AI 偏差的問題。
這并不是一件簡單的事情。
什么是「AI 偏差」?
「原始數(shù)據(jù)是矛盾的,使用它是一個壞主意;相反,數(shù)據(jù)應(yīng)該小心烹制,精心處理。」
——Geoffrey Bowker
直到 2013 年,如果你想制作一個軟件系統(tǒng),比如說,識別照片中的貓的系統(tǒng),你可以寫下合乎邏輯的步驟。你會做一些東西來尋找圖像中的邊緣,一個眼睛檢測器,一個毛皮紋理分析儀,然后試著計算腿的數(shù)量,等等,然后你會把它們連接在一起……但是它永遠(yuǎn)不會真正起作用。從概念上講,這相當(dāng)于試圖制造一匹機(jī)械馬——理論上是可能的,但在實踐中太復(fù)雜了,我們沒有能力去描述它。你最終止于成百上千的手寫規(guī)則,卻沒有得到一個可用的模型。
在機(jī)器學(xué)習(xí)中,我們不使用手寫規(guī)則來識別 x 或 y。相反,我們?nèi)×?1000 個 x 和 1000 個 y 的例子,讓計算機(jī)根據(jù)這些例子的統(tǒng)計分析建立模型。然后我們可以給這個模型一個新的數(shù)據(jù)點,在給定的精度下,判斷數(shù)據(jù)點是否適合示例集 X 或示例集 Y。機(jī)器學(xué)習(xí)使用數(shù)據(jù)生成模型,而不是由人類編寫模型。這種做法得到了出人意料的好結(jié)果,對于識別或模式查找問題來說尤其如此,這就是為什么整個技術(shù)行業(yè)都在圍繞機(jī)器學(xué)習(xí)技術(shù)進(jìn)行改造的原因。
但是,這里面有一個陷阱。在現(xiàn)實世界中,你的數(shù)千(或數(shù)十萬,或數(shù)百萬)個 x 和 y 的例子也包含 A、B、J、L、O、R 和 P。這些例子可能分布不均勻,并且,它們樣本數(shù)可能足夠多,以至于相比于 X,系統(tǒng)更關(guān)注 L 和 R。
這在實踐中意味著什么?我最喜歡舉的例子是圖像識別系統(tǒng)傾向于將一張草丘的照片判斷為「綿羊」。大多數(shù)關(guān)于「綿羊」的圖片都是在長滿草的山丘上拍攝的,因為這就是綿羊通常生活的地方,而在圖片中,草比白色絨毛狀的小東西更為突出,所以系統(tǒng)給予它最多的權(quán)重。
關(guān)于這一點,最近,一個更為嚴(yán)重的例子出現(xiàn)了:一個在照片中尋找皮膚癌的項目也出現(xiàn)了誤判。為了進(jìn)行測量,在皮膚癌的照片中經(jīng)常出現(xiàn)皮膚科醫(yī)生放置的尺子,但是健康皮膚的示例照片中不包含尺子。對于系統(tǒng)來說,雖然尺子(或者更確切地說,我們視為尺子的像素)只是示例集之間的差異,但它們有時比皮膚上的小斑點更突出。因此,用來檢測皮膚癌的系統(tǒng)有時候檢測的是尺子。
這里要理解的一個核心問題是,系統(tǒng)對它所「看」到的內(nèi)容沒有語義上的理解。我們查看一個像素網(wǎng)格,并將其轉(zhuǎn)換為綿羊、皮膚或尺子,但系統(tǒng)只看到一系列數(shù)字。它看不到三維空間、物體、紋理或綿羊,它只看到了數(shù)據(jù)中的模式。
與此同時,試圖診斷此類問題的挑戰(zhàn)在于機(jī)器學(xué)習(xí)系統(tǒng)生成的模型(神經(jīng)網(wǎng)絡(luò))包含數(shù)千或數(shù)十萬個節(jié)點。我們不能直接查看模型內(nèi)部,知道它是如何做出決定的——如果可以的話,那么這個過程就足夠簡單,你一開始就不需要 ML,可以自己編寫規(guī)則。人們擔(dān)心 ML 是一個「黑盒子」。(不過,我稍后會對此進(jìn)行解釋,這個問題經(jīng)常被夸大。)
這是一個非常簡單的「AI 偏差」或「機(jī)器學(xué)習(xí)偏差」問題:一個試圖在數(shù)據(jù)中找到模式的系統(tǒng)發(fā)現(xiàn)的可能是錯誤的模式,并且你可能根本意識不到。這是這項技術(shù)的一個基本特征,學(xué)術(shù)界和大型科技公司(的數(shù)據(jù)人員)的每個人都很清楚這一點,但它產(chǎn)生的后果是復(fù)雜的,我們對這些后果的設(shè)計出來的潛在解決方案也是復(fù)雜的。
首先,我們來談?wù)労蠊?/p>
AI 偏差場景
這個問題最明顯和最直接的體現(xiàn)是人類的多樣性。最近有報道稱,亞馬遜已經(jīng)嘗試建立一個機(jī)器學(xué)習(xí)系統(tǒng)來篩選應(yīng)聘者。由于亞馬遜目前的員工群體偏向男性,「成功雇傭」的例子在實際中也偏向男性,因此,該系統(tǒng)在招聘時也會選擇男性。亞馬遜發(fā)現(xiàn)了這一點,因此該系統(tǒng)從未被用于實踐。
這個例子中最重要的一點是,據(jù)報道,即使在簡歷中沒有明確標(biāo)注性別,系統(tǒng)也顯示出這種偏差。系統(tǒng)也看到了「成功的應(yīng)聘者」樣本集中的的樣本在其它方面的模式——例如,女性可能會用不同的詞來描述成就,或者在學(xué)校參與了各種各樣的體育活動。當(dāng)然,這個系統(tǒng)不知道曲棍球是什么,不知道人是什么,也不知道「成功」是什么——它只是對文本進(jìn)行統(tǒng)計分析。但是,它所看到的模式不一定是人類會注意到的事情,而且對于某些事情(例如,描述「成功」的詞匯,在不同性別之間可能會有所不同),人類可能很難發(fā)現(xiàn)。
當(dāng)一個非常擅長在蒼白皮膚上發(fā)現(xiàn)皮膚癌的機(jī)器學(xué)習(xí)系統(tǒng)遇到深色皮膚時,情況變得更糟了,反之亦然。這可能不是因為樣本中存在偏差,而是因為你可能需要以不同的方式構(gòu)建模型,以從中挑選出不同的特征。即使是在像圖像識別這樣的狹窄應(yīng)用中,機(jī)器學(xué)習(xí)系統(tǒng)也是不共通的。你必須調(diào)整系統(tǒng)的結(jié)構(gòu),有時只需要通過嘗試和錯誤,以便在你感興趣的數(shù)據(jù)中很好地發(fā)現(xiàn)特定的特性,直到獲得滿意的準(zhǔn)確度。但是你可能沒有意識到系統(tǒng)在一組數(shù)據(jù)上測試的準(zhǔn)確度是 98%,而在另一組數(shù)據(jù)上可能只有 91%(即便這種準(zhǔn)確度仍然超過人類)。
到目前為止,我使用的都是人或者和人有關(guān)的例子。但重要的是,我們要理解圍繞人的偏差只是下面這個問題的一個子集:我們將會使用 ML 做很多事情,而樣本偏差在所有這些事情中都將是需要被考慮的一部分。同樣地,即使和你合作的是人,數(shù)據(jù)中的偏差也是可能存在的。
為了系統(tǒng)地理解這一點,回顧一下前面皮膚癌的例子,并考慮可能會被打破的三種假設(shè)方式是很有用的:
沒有一個人是均勻分布的:在不同色調(diào)的照片中,皮膚照片顏色并不是完全相同的,所以你的系統(tǒng)對皮膚色素沉著的判斷可能是錯誤的。
你的數(shù)據(jù)包含一個突出的、分布不均的非人類特征,它沒有診斷價值,但系統(tǒng)會對此進(jìn)行訓(xùn)練——例如皮膚癌照片中的尺子,或綿羊照片中的草。在這種情況下,如果我們看到的是「尺子」(但它不存在)的像素,結(jié)果就會改變。
你的數(shù)據(jù)還包含一些其他的特征,即使人們在尋找這些特征時也看不到它們。
「即使人們尋找它」是什么意思?好吧,我們知道,或者應(yīng)該知道,數(shù)據(jù)可能會在不同的人類群體中產(chǎn)生偏差,并且至少可以計劃尋找這個偏差。換句話說,關(guān)于為什么你可能會期望你的數(shù)據(jù)會在人類群體中產(chǎn)生偏差,有著各種各樣的社會原因。如果我們看有尺子的照片,我們可以看到尺子——我們只是忽略了它,因為我們知道它是無關(guān)的,但我們忘記了系統(tǒng)什么都不知道。
但是,如果你所有的不健康皮膚照片都是在有白熾燈的辦公室里拍攝的,而你健康皮膚照片是在熒光燈下拍攝的呢?如果你在拍攝健康照片和不健康照片的中間更新了智能手機(jī)上的操作系統(tǒng),而蘋果或谷歌對降噪算法做了一些小的改動,會怎么樣?不管他們看起來多么厲害,人類可能完全不會注意到這些變化,但是機(jī)器學(xué)習(xí)系統(tǒng)會立即看到并使用它。系統(tǒng)什么都不知道。
到目前為止,我們一直在討論錯誤的相關(guān)性,但是數(shù)據(jù)中也可能存在完全準(zhǔn)確和正確的預(yù)測模式,但出于道德、法律或基于產(chǎn)品的原因,你不想使用這些模式。例如,在某些司法管轄區(qū),即使女性可能是更安全的駕駛者,向女性提供更好的汽車保險費(fèi)率也是不允許的。我們可以很容易地想象一個系統(tǒng),它查看歷史數(shù)據(jù),并學(xué)會將「女性」名字與低風(fēng)險聯(lián)系起來,因此你可以從數(shù)據(jù)中刪除名字——但是,正如上面的亞馬遜示例一樣,可能還有其他因素向系統(tǒng)揭示性別(當(dāng)然,它沒有性別概念),除非監(jiān)管機(jī)構(gòu)事先對你提供的報價進(jìn)行統(tǒng)計分析,并對你處以罰款,否則你可能不會意識到這一點。
最后,在我們討論這個問題的時候,好像我們只會將這些系統(tǒng)用于以某種方式涉及人、社會互動和假設(shè)的事情。而實際上并非如此。如果你制造燃?xì)廨啓C(jī),你會對將機(jī)器學(xué)習(xí)應(yīng)用到來自你產(chǎn)品上幾十或數(shù)百個傳感器的遙測(音頻、振動、溫度或任何其他傳感器生成的數(shù)據(jù),這些數(shù)據(jù)很容易被重新用于機(jī)器學(xué)習(xí)模型)非常感興趣。比如,你可能會說,「這是 1000 臺即將發(fā)生故障的渦輪機(jī)的數(shù)據(jù),這是 1000 臺運(yùn)轉(zhuǎn)良好的渦輪機(jī)的數(shù)據(jù)——可以建立一個模型來區(qū)分它們的不同之處」。現(xiàn)在,假設(shè) 75% 的壞渦輪機(jī)使用了西門子傳感器,只有 12% 的好渦輪機(jī)使用傳感器(假設(shè)這與故障沒有關(guān)系)。該系統(tǒng)將建立一個和西門子傳感器相關(guān)的模型來檢測渦輪。
AI 偏差管理
我們該怎么辦?你可以從三個方面來考慮這個問題:
訓(xùn)練數(shù)據(jù)收集和處理的方法的嚴(yán)謹(jǐn)性
分析和診斷模型行為的技術(shù)工具
在產(chǎn)品中部署 ML 的訓(xùn)練、教育和注意事項
「Molière's Bourgeois Gentilhomme」中有一個笑話,講的是一個人被教導(dǎo)文學(xué)分為「詩」和「散文」,他很高興地發(fā)現(xiàn)自己在無意識的情況下,一輩子都在講散文。統(tǒng)計學(xué)家們今天可能也有同樣的感受——他們一直在研究「人工智能」和「樣本偏差」,但他們自己沒有意識到這一點。尋找和擔(dān)憂樣本偏差并不是一個新的問題——我們只需要非常系統(tǒng)地對待這個問題。如前所述,從實際上來看,在某些方面,我們在看待和人有關(guān)的問題時可能更容易。這是因為,我們知道,我們可能對不同的人類群體有偏差,但我們可能沒有意識到的是,我們可能對西門子有偏差。
當(dāng)然,不同的是,人們不再直接進(jìn)行統(tǒng)計分析了,而是由機(jī)器完成的,它生成的模型復(fù)雜度和規(guī)模都非常大,不容易分析。透明度問題是關(guān)于偏差的主要關(guān)注領(lǐng)域之一。我們擔(dān)心這一點并不只是因為它有偏差,而且因為這些偏差是沒有辦法分辨的,它在某種程度上是全新的,不同于其他形式的組織,在這些組織中有清晰的邏輯步驟可以檢查。
這有兩個問題:我們可能在某些方面可以檢查 ML 系統(tǒng),而檢查任何其他系統(tǒng)實際上并不容易。
首先,當(dāng)前機(jī)器學(xué)習(xí)研究的一部分是尋找工具和方法,找出機(jī)器學(xué)習(xí)系統(tǒng)中最突出的特征。同時,機(jī)器學(xué)習(xí)(在目前的表現(xiàn)形式中)是一個非常新的領(lǐng)域,科學(xué)技術(shù)正在迅速地革新。人們今天認(rèn)為不實用的東西可能很快會變得實用。這個 OpenAI 項目就是一個有趣的例子。
其次,你可以在現(xiàn)有系統(tǒng)或組織中檢查和理解決策的想法在理論上是正確的,但在實踐中是有缺陷的。在一個大的組織中,如何進(jìn)行決策的審查一點也不容易。這可能是一個正式的決策過程,但它并不是人們實際互動的方式,而且人們本身往往沒有一個清晰的邏輯和系統(tǒng)的方式來做出他們自己的決定。正如我的同事 Vijay Pande 所說的那樣,人們也是黑匣子——許多公司和機(jī)構(gòu)中將成千上萬的人和問題結(jié)合在一起。以美國宇航局為例,我們從郵報上得知,航天飛機(jī)在重返大氣層時會解體,美國宇航局內(nèi)部的不同人員掌握的信息讓他們認(rèn)為可能會發(fā)生一些不好的事情,但整個系統(tǒng)并不知道這一點。與此同時,當(dāng)美國宇航局失去了先前的航天飛機(jī)時,它正經(jīng)歷著這個檢查過程,但由于非常相似的原因,它又失去了另一個航天飛機(jī)。很顯然,組織和人類系統(tǒng)遵循清晰的邏輯規(guī)則,你可以檢查、理解和改變這些規(guī)則,但在實際上并非如此。這被稱為 Gosplan fallacy。
在這種情況下,我經(jīng)常將機(jī)器學(xué)習(xí)與數(shù)據(jù)庫,尤其是關(guān)系型數(shù)據(jù)庫進(jìn)行比較。關(guān)系數(shù)據(jù)庫是一種新的基礎(chǔ)技術(shù),它改變了計算機(jī)科學(xué)中可能發(fā)生的事情,改變了更廣闊的世界,它是一切事物的組成部分,我們現(xiàn)在一直在使用它,但卻沒有注意到它。但是數(shù)據(jù)庫也存在問題,這些問題也有相同的特點:系統(tǒng)可能建立在錯誤的假設(shè)或錯誤的數(shù)據(jù)之上,這很難分辨,往往使用它的人會按照系統(tǒng)告訴他們的做而不加質(zhì)疑。有個老笑話是說,稅務(wù)局把你的名字拼錯了,改變你的名字比說服他們改成正確的名字要容易得多。這是 SQL 固有的技術(shù)問題,它是 Oracle 的執(zhí)行失敗,還是大型官僚機(jī)構(gòu)的制度失?。?/p>
在一個更簡單的層面上,人們可以從人們因為衛(wèi)星導(dǎo)航系統(tǒng)過時而駕駛汽車沖入河流中的現(xiàn)象中看到這個問題。是的,從理論上來說,地圖應(yīng)該是最新的。但是,你的車漂到海里有多少是地圖的錯呢?
所有這些都是說,ML 偏差將以與過去問題大致相同的方式引起問題,并且它是否可以解決和發(fā)現(xiàn)的概率與過去大致相同。因此,最容易想象的人工智能偏差造成傷害的場景可能不是來自重要機(jī)構(gòu)的主要研究人員。相反,它是一個第三層的技術(shù)承包商或軟件供應(yīng)商,將一些它并不真正理解的開放源代碼組件、庫和工具捆綁在一起,然后將其出售給一個在標(biāo)簽上看到「AI」并且不問問題、將其交給最底層員工,并告訴他們做「人工智能」所說的任何事。這就是在數(shù)據(jù)庫上發(fā)生的情況,它不是人工智能的問題,甚至不是「軟件」問題,這是一個「人類」問題。
結(jié)論
「任何你可以訓(xùn)練狗去做的事情,機(jī)器學(xué)習(xí)都可以做——但是你永遠(yuǎn)不能完全確定你訓(xùn)練狗做什么?!?/p>
我經(jīng)常認(rèn)為「人工智能」這個詞在這樣的對話中是無濟(jì)于事的。它造成了一種很大程度上的錯誤印象,即我們實際上已經(jīng)創(chuàng)造了智能,但實際上并沒有。它們只是機(jī)器,比洗衣機(jī)更有用一點。洗衣機(jī)洗衣服比人好得多,但是如果你把盤子而不是衣服放進(jìn)洗衣機(jī),然后按啟動鍵,它還是會把它們洗干凈,但這并不是你想要的結(jié)果。洗衣機(jī)不知道什么是衣服或盤子,它只是自動化的一種形式,在概念上與以前的自動化浪潮并沒有什么不同。
也就是說,正如汽車、飛機(jī)或數(shù)據(jù)庫一樣,這些系統(tǒng)既可以是非常強(qiáng)大的,也可以是非常局限的,這完全取決于人們?nèi)绾问褂盟鼈?,取決于人們對這些系統(tǒng)的工作方式意圖是好是壞,以及人們受教育的程度。
因此,「AI 是數(shù)學(xué),它不可能有偏差」的說法是完全錯誤的。但是,說 ML 是「固有的偏差」也是錯誤的。ML 在數(shù)據(jù)中找到模式,至于是什么模式取決于數(shù)據(jù),而數(shù)據(jù)取決于我們,我們?nèi)绾翁幚硭Q于我們自己。正如前面所說,機(jī)器學(xué)習(xí)比人更擅長做某些事情,就像狗比人更擅長發(fā)現(xiàn)毒品一樣,但你不會根據(jù)狗的證據(jù)來定罪。狗比任何機(jī)器學(xué)習(xí)都聰明。