本文介紹了一種旨在「打開(kāi)」并解釋神經(jīng)網(wǎng)絡(luò)的新模型 XNN(可解釋神經(jīng)網(wǎng)路)。該網(wǎng)絡(luò)包含三個(gè)重要組成部分:投影層、子網(wǎng)絡(luò)、組合層。XNN 還可用于替代復(fù)雜模型,無(wú)論將 XNN 用作主要模型還是用于更復(fù)雜模型的替代模型,XNN 都可以直接解釋模型如何使用輸入特征進(jìn)行預(yù)測(cè)。
將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用到特定系統(tǒng)的最大障礙之一是它的「黑箱」屬性。XNN(可解釋的神經(jīng)網(wǎng)絡(luò))是一種旨在「打開(kāi)并解釋」神經(jīng)網(wǎng)絡(luò)黑箱的新模型。
使用人工神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)算法訓(xùn)練機(jī)器像人腦一樣學(xué)習(xí)信息已經(jīng)越來(lái)越流行。這讓機(jī)器能夠準(zhǔn)確地輸出給定任務(wù)的預(yù)測(cè)結(jié)果。
在給定任務(wù)下訓(xùn)練的 ANN 能進(jìn)行貓和狗的分類
再舉一個(gè)例子,假定你想要訓(xùn)練一臺(tái)機(jī)器,使其能根據(jù)客戶憑證確定銀行的哪些客戶離開(kāi)銀行的概率最高。
神經(jīng)網(wǎng)絡(luò)將在包含每個(gè)客戶憑證(例如信用評(píng)分)的大數(shù)據(jù)集上進(jìn)行訓(xùn)練。它通過(guò)變量選擇識(shí)別數(shù)據(jù)中的哪些特征對(duì)客戶的去留影響最大。神經(jīng)網(wǎng)絡(luò)將學(xué)習(xí)這些特征,并通過(guò)學(xué)習(xí)特征,根據(jù)其憑證(特征)自行準(zhǔn)確預(yù)測(cè)哪些客戶離開(kāi)銀行的概率最高。(參見(jiàn):https://www.linkedin.com/pulse/creating-deep-neural-net-accurately-predict-churn-rate-maheshwari/)
這些模型對(duì)大型數(shù)據(jù)集非常有效,因?yàn)樵诖笮蛿?shù)據(jù)集中很難進(jìn)行手動(dòng)的變量選擇和特征工程。另外,與傳統(tǒng)統(tǒng)計(jì)方法相比,它們具有更好、更準(zhǔn)確的預(yù)測(cè)性能。
黑箱
然而 ANN 的一個(gè)問(wèn)題在于,它們是黑箱。這意味著數(shù)據(jù)分析師或建模人員很難解釋輸入特征與其響應(yīng)(輸出)之間的關(guān)系。神經(jīng)網(wǎng)絡(luò)越復(fù)雜意味著添加的神經(jīng)元和層數(shù)越多,這使解釋和確定 ANN 中的哪個(gè)函數(shù)導(dǎo)致輸出變得愈發(fā)困難。
應(yīng)用
理解黑箱并具備解釋模型行為的能力非常重要,這是因?yàn)闄C(jī)器學(xué)習(xí)模型和 ANN 的使用需要納入醫(yī)療保健和金融等領(lǐng)域。事實(shí)證明,機(jī)器學(xué)習(xí)模型有可能徹底改變這些行業(yè),提高某些任務(wù)的效率。
瘋狂的是,研究人員實(shí)際上能創(chuàng)建一種機(jī)器學(xué)習(xí)算法來(lái)識(shí)別乳腺癌患者身體組織圖像中的乳腺癌模式,而且效果比人類病理學(xué)家還要好!機(jī)器學(xué)習(xí)模型能夠更快地識(shí)別乳腺癌模式,準(zhǔn)確率達(dá) 89%,高于訓(xùn)練有素的人類病理學(xué)家的平均準(zhǔn)確率 73%!這只是 ANN 和機(jī)器學(xué)習(xí)模型多種實(shí)現(xiàn)方式的一個(gè)示例,它們能提供比傳統(tǒng)人類方法更高效、準(zhǔn)確的工具。
然而,盡管這些模型的準(zhǔn)確率和效率已經(jīng)經(jīng)過(guò)驗(yàn)證,但人們?nèi)栽讵q豫是否將它們納入醫(yī)療保健和銀行業(yè)等領(lǐng)域,因?yàn)檫@些模型具備黑箱屬性。解釋模型并解釋其行為的能力對(duì)于這些行業(yè)至關(guān)重要,因?yàn)樗鼈兩婕疤幚砀唢L(fēng)險(xiǎn)問(wèn)題并且必須受到嚴(yán)格監(jiān)管。
可解釋神經(jīng)網(wǎng)絡(luò)
可解釋神經(jīng)網(wǎng)絡(luò)(XNN)是機(jī)器學(xué)習(xí)模型的一項(xiàng)新進(jìn)展,旨在為模型提供可解釋的洞察力,消除其黑箱屬性。這意味著它能夠提供關(guān)于特征以及網(wǎng)絡(luò)完成輸出(預(yù)測(cè))過(guò)程中所學(xué)得的非線性變換的直白解釋。通過(guò)該模型,研究者能清楚地解釋輸入特征與復(fù)雜神經(jīng)網(wǎng)絡(luò)輸出之間的關(guān)系,因?yàn)?XNN 網(wǎng)絡(luò)結(jié)構(gòu)包含解釋這種關(guān)系的機(jī)制,并能對(duì)可視化該網(wǎng)絡(luò)所學(xué)習(xí)的函數(shù)起到幫助作用。
XNN 基于加性索引模型的概念,如下所示:
f (x) = g1 β1T x+ g2 β2T x+ · · · + gK βKT x
左側(cè)的函數(shù)可以表示為 K 個(gè)平滑函數(shù) gi(·) 的和。這些平滑函數(shù)(即嶺函數(shù))都用于在網(wǎng)絡(luò)中訓(xùn)練的輸入特征的線性組合(βiT x)。這使得加性索引模型能夠提供靈活的框架,通過(guò)嶺函數(shù)逼近網(wǎng)絡(luò)內(nèi)的任意復(fù)雜函數(shù),從而提供關(guān)于特征和網(wǎng)絡(luò)學(xué)得的非線性變換的解釋。
可解釋神經(jīng)網(wǎng)絡(luò)架構(gòu)
可解釋神經(jīng)網(wǎng)絡(luò)提供加性索引模型的替代公式作為結(jié)構(gòu)化神經(jīng)網(wǎng)絡(luò)。XNN 內(nèi)置了解釋機(jī)制,這有助于解釋和理解模型內(nèi)部過(guò)程以及該模型學(xué)到的函數(shù)。
替代公式如下:
f (x) = μ + γ1 h1 β1T x+ γ2 h2 β1T x+ · · · + γK hK βKT x
位移參數(shù) μ 和尺度參數(shù) γk 被用于模型擬合:通過(guò)正則化選擇適當(dāng)數(shù)量的嶺函數(shù)。
XNN 結(jié)構(gòu)中三個(gè)重要的組成部分包括:
i) 投影層(第一個(gè)隱藏層);
ii) 子網(wǎng)絡(luò)(下圖的中間部分);
iii) 組合層(最后的隱藏層)。
XNN 結(jié)構(gòu)
投影層
輸入層包含將輸入神經(jīng)網(wǎng)絡(luò)的所有信息。輸入層全連接到投影層,在投影層上傳遞特征(信息)。投影層由 K 個(gè)節(jié)點(diǎn)組成(每個(gè)節(jié)點(diǎn)對(duì)應(yīng)一個(gè)嶺函數(shù))。第一個(gè)隱藏層中的節(jié)點(diǎn) i 的權(quán)重對(duì)應(yīng)相應(yīng)嶺函數(shù)輸入的系數(shù)(βi)。嶺函數(shù)有助于逼近輸入特征中的復(fù)雜函數(shù)。投影層使用線性激活函數(shù),以確保該層中的每個(gè)節(jié)點(diǎn)都學(xué)習(xí)輸入特征的線性組合。應(yīng)用了嶺函數(shù)的投影層中每個(gè)節(jié)點(diǎn)的輸出恰好可以用作一個(gè)子網(wǎng)絡(luò)的輸入。
子網(wǎng)絡(luò)
子網(wǎng)絡(luò)主要用于學(xué)習(xí)應(yīng)用于輸入特征的嶺函數(shù)。嶺函數(shù)對(duì)于子網(wǎng)絡(luò)而言非常重要,因?yàn)樗鼈儽平队皩拥膹?fù)雜函數(shù)。這使得子網(wǎng)絡(luò)更容易學(xué)習(xí)并提供所習(xí)得的嶺函數(shù)的可解釋性,從而使數(shù)據(jù)分析師有能力理解子網(wǎng)絡(luò)的運(yùn)作、理解從輸入到輸出的過(guò)程。子網(wǎng)絡(luò)只需要有足夠的結(jié)構(gòu),使每一個(gè)子網(wǎng)絡(luò)都能學(xué)習(xí)大量單變量函數(shù)。在模擬中,研究者發(fā)現(xiàn),使用由具有非線性激活函數(shù)的兩個(gè)隱藏層組成的子網(wǎng)絡(luò),足以在擬合模型時(shí)學(xué)習(xí)足夠靈活的嶺函數(shù)。
組合層
組合層是 XNN 的最后一個(gè)隱藏層,由單個(gè)節(jié)點(diǎn)組成。節(jié)點(diǎn)的輸入包括嶺函數(shù)的所有輸出以及在子網(wǎng)絡(luò)中學(xué)習(xí)和添加的權(quán)重。在該層上使用線性激活函數(shù),因此整個(gè)網(wǎng)絡(luò)的輸出是所有嶺函數(shù)的加權(quán)和的線性組合。
XNN 組件可視化
內(nèi)置于 xNN 中的結(jié)構(gòu)(如投影層和子網(wǎng)絡(luò))提供了一種機(jī)制來(lái)解釋這種網(wǎng)絡(luò)所學(xué)習(xí)的函數(shù)。該內(nèi)置機(jī)制用投影和單變量嶺函數(shù)這些相對(duì)簡(jiǎn)單的術(shù)語(yǔ)描述模型學(xué)得的復(fù)雜函數(shù),以確保模型可解釋。
下圖展示了研究者如何解釋和可視化子網(wǎng)絡(luò)中的單變量變換和嶺函數(shù)。
嶺函數(shù)(左)和訓(xùn)練的 XNN 的對(duì)應(yīng)投影索引(右)。
第一列解釋了單變量函數(shù),其中包含由子網(wǎng)絡(luò)學(xué)習(xí)到達(dá)其輸出的權(quán)重。第二列顯示 βi 的值,即投影系數(shù)。投影系數(shù)說(shuō)明輸入特征的哪個(gè)組合在通過(guò)子網(wǎng)絡(luò)之前用作了每個(gè)嶺函數(shù)的輸入。這非常有用,因?yàn)樯蠄D展示了網(wǎng)絡(luò)最相關(guān)的特征:縮放嶺函數(shù)和投影系數(shù)。
在上面的例子中,從 xNN 的結(jié)構(gòu)我們可以看出 Subnetwork 1 已經(jīng)學(xué)習(xí)了立方勒讓德函數(shù) (f3(·)),Subnetwork 2 已經(jīng)學(xué)習(xí)了二次函數(shù) (f2(·)),并且只有 x2 的系數(shù)非零。
XNN 作為替代模型
XNN 還可以用作機(jī)器學(xué)習(xí)模型的替代模型,例如隨機(jī)森林(RF)和前饋神經(jīng)網(wǎng)絡(luò)(FNN)。
有點(diǎn)像這樣……但不完全如此。
在這種情況下,RF 和 FNN 被認(rèn)為是基礎(chǔ)模型。由于 XNN 被設(shè)計(jì)為一個(gè)可解釋模型,因此我們可以使用輸入特征和基礎(chǔ)模型預(yù)測(cè)的相應(yīng)輸出值來(lái)訓(xùn)練 XNN。然后,XNN 就可以解釋基礎(chǔ)模型所學(xué)到的關(guān)系!
使用更容易解釋的替代模型來(lái)幫助解釋復(fù)雜的機(jī)器學(xué)習(xí)模型,極大地增加了將機(jī)器學(xué)習(xí)模型融入不同行業(yè)的能力。
可解釋神經(jīng)網(wǎng)絡(luò)(XNN)是一個(gè)關(guān)鍵的機(jī)器學(xué)習(xí)模型。與其他機(jī)器學(xué)習(xí)模型不同,它能「打開(kāi)」神經(jīng)網(wǎng)絡(luò)的黑箱。該模型的結(jié)構(gòu)和設(shè)計(jì)方式使其可以解釋學(xué)習(xí)的特征以及導(dǎo)致其輸出或預(yù)測(cè)值的函數(shù)。這些可解釋性特征非常吸引人,它本質(zhì)上是有可加性的,并且能通過(guò)納入神經(jīng)網(wǎng)絡(luò)的機(jī)制(如子網(wǎng)絡(luò))直接得到解釋。
無(wú)論將 XNN 用作主要模型還是用于更復(fù)雜模型的替代模型,XNN 都可以直接解釋模型如何使用輸入特征進(jìn)行預(yù)測(cè)。這項(xiàng)技術(shù)為將機(jī)器學(xué)習(xí)模型整合入眾多不同行業(yè)提供了巨大的優(yōu)勢(shì),因?yàn)樗軌虺浆F(xiàn)有系統(tǒng),并且能夠清晰解釋它如何獲得輸出。