《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無(wú)監(jiān)督對(duì)比學(xué)習(xí)

73歲Hinton老爺子構(gòu)思下一代神經(jīng)網(wǎng)絡(luò):屬于無(wú)監(jiān)督對(duì)比學(xué)習(xí)

2020-07-29
作者:魔王、杜偉
來源:機(jī)器之心

在近期舉行的第 43 屆國(guó)際信息檢索年會(huì) (ACM SIGIR2020) 上,Geoffrey Hinton 做了主題為《The Next Generation of Neural Networks》的報(bào)告。

  Geoffrey Hinton 是谷歌副總裁、工程研究員,也是 Vector Institute 的首席科學(xué)顧問、多倫多大學(xué) Emeritus 榮譽(yù)教授。2018 年,他與 Yoshua Bengio、Yann LeCun 因?qū)ι疃葘W(xué)習(xí)領(lǐng)域做出的巨大貢獻(xiàn)而共同獲得圖靈獎(jiǎng)。

  自 20 世紀(jì) 80 年代開始,Geoffrey Hinton 就開始提倡使用機(jī)器學(xué)習(xí)方法進(jìn)行人工智能研究,他希望通過人腦運(yùn)作方式探索機(jī)器學(xué)習(xí)系統(tǒng)。受人腦的啟發(fā),他和其他研究者提出了「人工神經(jīng)網(wǎng)絡(luò)」(artificial neural network),為機(jī)器學(xué)習(xí)研究奠定了基石。

  那么,30 多年過去,神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)的未來發(fā)展方向在哪里呢?

  Hinton 在此次報(bào)告中回顧了神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,并表示下一代神經(jīng)網(wǎng)絡(luò)將屬于無(wú)監(jiān)督對(duì)比學(xué)習(xí)。

  Hinton 的報(bào)告主要內(nèi)容如下:

  人工神經(jīng)網(wǎng)絡(luò)最重要的待解難題是:如何像大腦一樣高效執(zhí)行無(wú)監(jiān)督學(xué)習(xí)。

  目前,無(wú)監(jiān)督學(xué)習(xí)主要有兩類方法。

  第一類的典型代表是 BERT 和變分自編碼器(VAE),它們使用深度神經(jīng)網(wǎng)絡(luò)重建輸入。但這類方法無(wú)法很好地處理圖像問題,因?yàn)榫W(wǎng)絡(luò)最深層需要編碼圖像的細(xì)節(jié)。

  另一類方法由 Becker 和 Hinton 于 1992 年提出,即對(duì)一個(gè)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練兩個(gè)副本,這樣在二者的輸入是同一圖像的兩個(gè)不同剪裁版本時(shí),它們可以生成具備高度互信息的輸出向量。這類方法的設(shè)計(jì)初衷是,使表征脫離輸入的不相關(guān)細(xì)節(jié)。

  Becker 和 Hinton 使用的優(yōu)化互信息方法存在一定缺陷,因此后來 Pacannaro 和 Hinton 用一個(gè)判別式目標(biāo)替換了它,在該目標(biāo)中一個(gè)向量表征必須在多個(gè)向量表征中選擇對(duì)應(yīng)的一個(gè)。

  隨著硬件的加速,近期表征對(duì)比學(xué)習(xí)變得流行,并被證明非常高效,但它仍然存在一個(gè)主要缺陷:要想學(xué)習(xí)具備 N bits 互信息的表征向量對(duì),我們需要對(duì)比正確的對(duì)應(yīng)向量和 2 N 個(gè)不正確的向量。

  在演講中,Hinton 介紹了一種處理該問題的新型高效方式。此外,他還介紹了實(shí)現(xiàn)大腦皮層感知學(xué)習(xí)的簡(jiǎn)單途徑。

  接下來,我們來看 Hinton 演講的具體內(nèi)容。

  為什么我們需要無(wú)監(jiān)督學(xué)習(xí)?

  在預(yù)測(cè)神經(jīng)網(wǎng)絡(luò)的未來發(fā)展之前,Hinton 首先回顧了神經(jīng)網(wǎng)絡(luò)的發(fā)展進(jìn)程。

  演講一開始,Hinton 先介紹了三種學(xué)習(xí)任務(wù):監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí),并重點(diǎn)介紹了無(wú)監(jiān)督學(xué)習(xí)的必要性。

微信圖片_20200729140048.png

  為什么我們需要無(wú)監(jiān)督學(xué)習(xí)呢?

  Hinton 從生物學(xué)的角度做出了詮釋。他指出,人類大腦有 10^14 個(gè)神經(jīng)元突觸,而生命的長(zhǎng)度僅有 10^9 秒,因此人類無(wú)法完全依賴監(jiān)督學(xué)習(xí)方式完成所有神經(jīng)元訓(xùn)練,因而需要無(wú)監(jiān)督學(xué)習(xí)的輔助。

  受此啟發(fā),構(gòu)建智能模型也需要無(wú)監(jiān)督學(xué)習(xí)。

  無(wú)監(jiān)督學(xué)習(xí)的發(fā)展歷程

  無(wú)監(jiān)督學(xué)習(xí)經(jīng)過怎樣的發(fā)展呢?Hinton 為我們介紹了無(wú)監(jiān)督學(xué)習(xí)中的常見目標(biāo)函數(shù)。

微信圖片_20200729141556.png

  緊接著,Hinton 詳細(xì)介紹了自編碼器。

微信圖片_20200729142420.png

  Hinton 表示,自編碼器是一種利用監(jiān)督學(xué)習(xí)實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)的方式,其目標(biāo)是使最后的重建結(jié)果與數(shù)據(jù)相匹配。編碼器將數(shù)據(jù)向量轉(zhuǎn)換為代碼,解碼器基于代碼生成數(shù)據(jù)。

  在高屋建瓴地介紹了自編碼器的定義、訓(xùn)練深度自編碼器之前的難點(diǎn)和現(xiàn)狀之后,Hinton 著重介紹了兩種自編碼器類型:變分自編碼器和 BERT 自編碼器。

  使用深度神經(jīng)網(wǎng)絡(luò)重建輸入:VAE 和 BERT

  BERT 和變分自編碼器(VAE)是無(wú)監(jiān)督學(xué)習(xí)的一類典型代表,它們使用深度神經(jīng)網(wǎng)絡(luò)重建輸入。

  變分自編碼器由韋靈思和 Kingma 于 2013 年提出,它使用多層編碼器選擇實(shí)數(shù)代碼,然后用多層解碼器重建數(shù)據(jù)。VAE 的基本構(gòu)造如下圖所示:

微信圖片_20200729142617.png

  BERT 是 2018 年谷歌提出的語(yǔ)言表征模型,基于所有層的左、右語(yǔ)境來預(yù)訓(xùn)練深度雙向表征。

微信圖片_20200729142655.png

  語(yǔ)境信息對(duì) BERT 非常重要,它利用遮蔽語(yǔ)言模型(masked language model,MLM)允許表征融合左右兩側(cè)的語(yǔ)境,從而預(yù)訓(xùn)練深度雙向 Transformer。

  Hinton 舉了一個(gè)例子:「She scromed him with the frying pan」。在這個(gè)句子中,即使你不知道 scromed 的意思,也可以根據(jù)上下文語(yǔ)境進(jìn)行推斷。

  視覺領(lǐng)域也是如此。然而,BERT 這類方法無(wú)法很好地應(yīng)用到視覺領(lǐng)域,因?yàn)榫W(wǎng)絡(luò)最深層需要編碼圖像的細(xì)節(jié)。

微信圖片_20200729142713.png

  在探討了以 VAE 和 BERT 為代表的一類無(wú)監(jiān)督學(xué)習(xí)方法后,Hinton 為我們介紹了另一類無(wú)監(jiān)督學(xué)習(xí)方法。

  Becker 和 Hinton 提出最大化互信息方法

  那么自編碼器和生成模型有沒有什么替代方案呢?Hinton 表示,我們可以嘗試不再解釋感官輸入(sensory input)的每個(gè)細(xì)節(jié),而專注于提取空間或時(shí)序一致性的特征。與自編碼器不同,這種方法的好處在于可以忽略噪聲。

  然后,Hinton 詳細(xì)介紹了他與 Suzanna Becker 在 1992 年提出的一種提取空間一致性特征的方法。該方法的核心理念是對(duì)輸入的兩個(gè)非重疊塊(non-overlapping patch)表示之間的顯式互信息進(jìn)行最大化處理。Hinton 給出了提取空間一致性變量的簡(jiǎn)單示例,如下圖所示:

微信圖片_20200729142755.png

  經(jīng)過訓(xùn)練,Hinton 指出唯一的空間一致性特征是「不一致性」(The Only Spatially Coherent Property is Disparity),所以這也是必須要提取出來的。

  他表示這種最大化互信息的方法存在一個(gè)棘手的問題,并做出以下假設(shè),即如果只學(xué)習(xí)線性映射,并且對(duì)線性函數(shù)進(jìn)行優(yōu)化,則變量將成為分布式的。不過,這種假設(shè)并不會(huì)導(dǎo)致太多問題。

  以往研究方法回顧

  在這部分中,Hinton 先后介紹了 LLE、LRE、SNE、t-SNE 等方法。

  局部線性嵌入方法(Locally Linear Embedding, LLE)

  Hinton 介紹了 Sam T. Roweis 和 Lawrence K. Saul 在 2000 年 Science 論文《Nonlinear Dimensionality Reduction by Locally Linear Embedding》中提到的局部線性嵌入方法,該方法可以在二維圖中顯示高維數(shù)據(jù)點(diǎn),并且使得非常相似的數(shù)據(jù)點(diǎn)彼此挨得很近。

  但需要注意的是,LLE 方法會(huì)導(dǎo)致數(shù)據(jù)點(diǎn)重疊交融(curdling)和維度崩潰(dimension collapse)問題。

  下圖為 MNIST 數(shù)據(jù)集中數(shù)字的局部線性嵌入圖,其中每種顏色代表不同的數(shù)字:

微信圖片_20200729143025.png

  此外,這種長(zhǎng)字符串大多是一維的,并且彼此之間呈現(xiàn)正交。

  從線性關(guān)系嵌入(LRE)到隨機(jī)鄰域嵌入(SNE)

  在這部分中,Hinton 介紹了從線性關(guān)系嵌入(Linear Relational Embedding, LRE)到隨機(jī)鄰域嵌入(Stochastic Neighbor Embedding, SNE)方法的轉(zhuǎn)變。他表示,只有「similar-to」關(guān)系存在時(shí),LRE 才轉(zhuǎn)變成 SNE。

  同時(shí),Hinton 指出,可以將 LRE 目標(biāo)函數(shù)用于降維(dimensionality reduction)。

  下圖為 SNE 的示意圖,其中高維空間的每個(gè)點(diǎn)都有選擇其他點(diǎn)作為其鄰域的條件概率,并且鄰域分布基于高維成對(duì)距離(pairwise distance)。

微信圖片_20200729143042.png

  從隨機(jī)鄰域嵌入(SNE)到 t 分布隨機(jī)鄰域嵌入(t-SNE)

  t 分布隨機(jī)鄰域嵌入(t-distributed stochastic neighbor embedding, t-SNE)是 SNE 的一種變體,原理是利用一個(gè) student-distribution 來表示低維空間的概率分布。

  Hinton 在下圖中展示了 MNIST 數(shù)據(jù)集中數(shù)字的 t-SNE 嵌入圖,每種顏色代表不同的數(shù)字:

  在介紹完這些方法之后,Hinton 提出了兩個(gè)問題:1)方差約束在優(yōu)化非線性或非參數(shù)映射時(shí)為何表現(xiàn)糟糕?2)典型相關(guān)分析或線性判別分析的非線性版本為何不奏效?并做出了解答。

  最后,Hinton 提出使用對(duì)比損失(contrastive loss)來提取空間或時(shí)間一致性的向量表示,并介紹了他與 Ruslan Salakhutdinov 在 2004 年嘗試使用對(duì)比損失的探索,以及 Oord、Li 和 Vinyals 在 2018 年使用對(duì)比損失復(fù)現(xiàn)這種想法,并用它發(fā)現(xiàn)時(shí)間一致性的表示。

  Hinton 表示,當(dāng)前無(wú)監(jiān)督學(xué)習(xí)中使用對(duì)比損失一種非常流行的方法。

  無(wú)監(jiān)督對(duì)比學(xué)習(xí)的最新實(shí)現(xiàn) SimCLR

  在演講最后,Hinton 重點(diǎn)介紹了其團(tuán)隊(duì)使用對(duì)比損失提取一致性表示的最新實(shí)現(xiàn) SimCLR,這是一種用于視覺表示的對(duì)比學(xué)習(xí)簡(jiǎn)單框架,它不僅優(yōu)于此前的所有工作,也優(yōu)于最新的對(duì)比自監(jiān)督學(xué)習(xí)算法。

  下圖為 SimCLR 的工作原理圖:

  那么 SimCLR 在 ImageNet 上的 Top-1 準(zhǔn)確率表現(xiàn)如何呢?下圖展示了 SimCLR 與此前各類自監(jiān)督方法在 ImageNet 上的 Top-1 準(zhǔn)確率對(duì)比(以 ImageNet 進(jìn)行預(yù)訓(xùn)練),以及 ResNet-50 的有監(jiān)督學(xué)習(xí)效果。

微信圖片_20200729143418.png

  Hinton 表示,經(jīng)過 ImageNet 上 1% 圖片標(biāo)簽的微調(diào),SimCLR 可以達(dá)到 85.8%的 Top-5 準(zhǔn)確率——在只用 AlexNet 1% 標(biāo)簽的情況下性能超越后者。

  Hinton 認(rèn)為,以 SimCLR 為代表的無(wú)監(jiān)督對(duì)比學(xué)習(xí)將引領(lǐng)下一代神經(jīng)網(wǎng)絡(luò)的發(fā)展。

  

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。