《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > NVIDIA前資深架構(gòu)師解讀:如今人工智能處于什么階段?

NVIDIA前資深架構(gòu)師解讀:如今人工智能處于什么階段?

2022-12-29
來源:21ic

我在NVIDIA研究深度學(xué)習(xí)已達(dá)四年之久,作為一名解決方案架構(gòu)師,專門研究深度學(xué)習(xí)相關(guān)技術(shù),為客戶提供可能的解決方案,并加以實施。

在我加入NVIDIA時,人工智能已經(jīng)成為一個非常普遍的應(yīng)用術(shù)語,但經(jīng)常被模棱兩可的使用,甚至錯誤的被描述為深度學(xué)習(xí)和機(jī)器學(xué)習(xí)。我想從一些簡單的定義出發(fā),去一步步深入解讀其中含義,不足之處,以及采用新構(gòu)架創(chuàng)建更完整能力“AI”的一些步驟。

機(jī)器學(xué)習(xí)——將函數(shù)與數(shù)據(jù)進(jìn)行擬合,并使用這些函數(shù)對數(shù)據(jù)進(jìn)行分組或?qū)ξ磥頂?shù)據(jù)進(jìn)行預(yù)測。(抱歉,我大大簡化了概念。)

深度學(xué)習(xí)——將函數(shù)與數(shù)據(jù)進(jìn)行擬合,如下圖所示,函數(shù)就是節(jié)點(diǎn)層,用于和前后節(jié)點(diǎn)相連,其中擬合的參數(shù)是這些連接節(jié)點(diǎn)的權(quán)重。

深度學(xué)習(xí)就是如今經(jīng)常被成為AI的概念,但實際上只是非常精細(xì)的模式識別和統(tǒng)計建模。最常見的技術(shù)/算法是卷積神經(jīng)網(wǎng)絡(luò)(CNNs)、遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)和強(qiáng)化學(xué)習(xí)(RL)。

卷積神經(jīng)網(wǎng)絡(luò)(CNNs)具有分層結(jié)構(gòu),通過(訓(xùn)練過的)卷積濾波器將圖像采樣到一個低分辨率的映射中,該映射表示每個點(diǎn)上卷積運(yùn)算的值。從圖像中來看,它是從高分辨像素到特征(邊緣、圓形、……),再到粗糙特征(臉上的鼻子、眼睛、嘴唇……),然后再到能夠識別圖像內(nèi)容的完整連接層。CNNs很酷的一點(diǎn)是,其卷積濾波器是隨機(jī)初始化的,當(dāng)你訓(xùn)練網(wǎng)絡(luò)時,你實際是在訓(xùn)練卷積濾波器。幾十年來,計算機(jī)視覺研究人員一直在手工制作類似的濾波器,但無法像CNNs那樣的精準(zhǔn)結(jié)果。此外,CNN的輸出可以是2D圖而不是單個值,從而為我們提供圖像分割。CNNs還可以用于許多其他類型的1D、2D甚至3D數(shù)據(jù)。

遞歸神經(jīng)網(wǎng)絡(luò)(RNN)適用于順序或時間序列數(shù)據(jù)?;旧?,RNN中的每個“神經(jīng)”節(jié)點(diǎn)都是存儲門,通常是LSTM(長短期記憶)或者長短期的存儲單元。當(dāng)他們被連接到層神經(jīng)網(wǎng)絡(luò)時,RNN將狀態(tài)在自身網(wǎng)絡(luò)中循環(huán)傳遞,因此可以接受更廣泛的時間序列結(jié)構(gòu)輸入。比如:語言處理或者翻譯,以及信號處理,文本到語音,語音到文本……

強(qiáng)化學(xué)習(xí)是第三種主要的深度學(xué)習(xí)(DL)方法,強(qiáng)調(diào)如何基于環(huán)境而行動,以取得最大化的預(yù)期利益。一個例子就是迷宮,其中每個單元都存在各自的“狀態(tài)”,擁有四個移動的方向,在每個單元格某方向的移動的概率來形成策略。

通過反復(fù)運(yùn)行狀態(tài)和可能的操作,并獎勵產(chǎn)生良好結(jié)果的操作序列(通過增加策略中這些操作的概率),懲罰產(chǎn)生負(fù)面結(jié)果的操作(降低概率)。隨著時間的推移,你會得到一個最優(yōu)的策略,它有最高的可能性來取得一個成功的結(jié)果。通常在訓(xùn)練的時候,你會對更早的行為的懲罰/獎勵打折扣。

在我們的迷宮事例中,先允許代理穿過迷宮,選擇一個方向,使用已有的概率策略,當(dāng)它達(dá)到死胡同時,懲罰它選擇的路徑(降低每個單元移動該方向的概率)。如果找到了出口,我們則增加每個單元移動方向的概率作為獎勵。隨著時間的推移,代理通過學(xué)習(xí),找到了最快方式。強(qiáng)化學(xué)習(xí)的這種變化就是AlphaGo AI和Atari電子游戲AI的核心。

最后值得關(guān)注的是GANs(生成對抗網(wǎng)絡(luò)),它更多的是一門技術(shù)而不是架構(gòu)。目前它與CNNs一起用于制作圖像鑒別器和發(fā)生器。鑒別器是經(jīng)過訓(xùn)練以識別圖像的CNN,生成器是一個反向網(wǎng)絡(luò),它采用隨機(jī)種子生成圖像。鑒別器評估發(fā)生器的輸出并向發(fā)生器發(fā)送關(guān)于如何改進(jìn)的信號,發(fā)生器依次向鑒別器發(fā)送信號以提高其準(zhǔn)確性,在零和博弈游戲(zero-sum game)中反復(fù)往返,直到兩者收斂到最佳質(zhì)量。這是一種向神經(jīng)系統(tǒng)提供自我強(qiáng)化反饋的方法。

當(dāng)然,所有這些方法以及其他方法都有豐富的變化和組合,但是一旦你嘗試將它們用于特定問題之外的問題時,這些技術(shù)有時不會有效。對于實際問題,即使你可以擴(kuò)展和重新設(shè)計網(wǎng)絡(luò)拓?fù)洳ζ溥M(jìn)行調(diào)整,它們有時也表現(xiàn)不加。往往我們只是沒有足夠的數(shù)據(jù)來訓(xùn)練它們,以使得它們在部署中更加精準(zhǔn)。

同樣,許多應(yīng)用需要將多種DL技術(shù)結(jié)合在一起并找到融合它們的方法。一個簡單的例子就是視頻標(biāo)記——你通過CNN傳送視頻幀,在頂部有一個RNN來捕捉這些視頻中的那些隨著和時間有關(guān)的行為。曾經(jīng)我?guī)椭芯咳藛T使用這種技術(shù)來識別四肢癱瘓者的面部表情,向他們輪椅和機(jī)器假肢發(fā)出命令,每個指令對應(yīng)不同的面部表情/手勢。這起到了一定的效果,但當(dāng)你擴(kuò)大規(guī)模時,開發(fā)和訓(xùn)練它可能會花費(fèi)更多時間,且變得非常棘手。因為你現(xiàn)在必須調(diào)整交織在一起的兩種不同類型的DL網(wǎng)絡(luò),有時很難知道這些調(diào)整會產(chǎn)生什么影響。

現(xiàn)在想象一下,你有多個CNN/RNN網(wǎng)絡(luò)提供輸出,一個深度強(qiáng)化學(xué)習(xí)引擎對輸入狀態(tài)做出決策,然后驅(qū)動生成網(wǎng)絡(luò)產(chǎn)生輸出。其實是很多特定的DL技術(shù)組合在一起來完成一組任務(wù)。你可以說這是“魔鬼式”的瘋狂調(diào)參。它會奏效嗎?我不知道,如此一來,它將耗費(fèi)大量資金和時間才開始工作,并且不確定它是否能夠很好的訓(xùn)練,甚至在現(xiàn)實條件下進(jìn)行訓(xùn)練。

我個人觀點(diǎn)是,我們目前的DL技術(shù)各自代表一個子集,用來簡化大腦網(wǎng)絡(luò)和神經(jīng)系統(tǒng)的工作。雖然我們稱之為“神經(jīng)”,但實際上并不是,它們都是專門用于特定的任務(wù)。

事實上,大多訓(xùn)練DL或者人工智能的人都沒有意識到,如今深度學(xué)習(xí)中的“神經(jīng)網(wǎng)絡(luò)”和“神經(jīng)元”只是更大、更豐富的合成神經(jīng)元、神經(jīng)網(wǎng)絡(luò)和方法。我們今天在DL中使用的大多數(shù)人分層我網(wǎng)絡(luò)和CNN屬于前饋神經(jīng)網(wǎng)絡(luò)的較小一部分,只是簡單地對每個節(jié)點(diǎn)處進(jìn)行加權(quán)輸入求和,應(yīng)用簡單的傳遞函數(shù),將結(jié)果傳遞給下一層。

這并不是大腦處理工作的方式,甚至RNN和強(qiáng)化學(xué)習(xí)也沒有給我們真正的人工智能,只是將非常大和復(fù)雜函數(shù)的參數(shù)擬合到大量數(shù)據(jù),并使用統(tǒng)計數(shù)據(jù)找到模式并做出決定。

上圖頂部和左側(cè)的方法,特別是SNNs(Spiking Neural Networks),給出了一個更準(zhǔn)確的模型,來運(yùn)行真正的神經(jīng)元工作方式。就像“數(shù)積分-火-模型”、Izhikevich脈沖神經(jīng)元模型那樣高效。像“Hodgkin-Huxley”一樣接近模擬生物神經(jīng)元的行為。

在真實的神經(jīng)元中,時域信號脈沖沿著樹突傳播,然后獨(dú)立到達(dá)神經(jīng)元體,并在其內(nèi)部的時間和空間中被整合(一些激發(fā)、一些抑制)。當(dāng)神經(jīng)元體被觸發(fā)時,它就會在軸突上產(chǎn)生一系列依賴時間的脈沖,這些脈沖在分支時分裂,并需要時間到達(dá)突觸。當(dāng)化學(xué)神經(jīng)遞質(zhì)信號經(jīng)過突觸并最終觸發(fā)突觸后樹突中的信號時,突觸本身就表現(xiàn)出非線性、延遲、依賴時間依賴的整合。在這一過程中,如果兩邊的神經(jīng)元在一定的時間間隔內(nèi)一起點(diǎn)燃,也就是學(xué)習(xí)過程中的突觸即學(xué)習(xí),即學(xué)習(xí),就會得到加強(qiáng)。我們可能永遠(yuǎn)無法在硬件或軟件中完全復(fù)制真實生物神經(jīng)元的所有電化學(xué)過程,但是我們可以尋找足夠復(fù)雜的模型來代表我們的尖峰人工神經(jīng)網(wǎng)絡(luò)中需要的許多有用行為。

這將讓我們更像人工智能,因為真正的大腦從信號通過神經(jīng)元、軸突、突觸和樹突的傳遞,獲得了更多的計算、感官處理和身體控制能力,從而在復(fù)雜的依賴時間的電路中穿行,這種復(fù)雜的電路甚至可以有反饋回路,以制造定時器或振蕩器等電路,類似于可重復(fù)的級聯(lián)模式激活的神經(jīng)回路,向肌肉/致動信號的群體發(fā)送特定的依賴模式。這些網(wǎng)絡(luò)也是通過直接加強(qiáng)神經(jīng)元之間的聯(lián)系來學(xué)習(xí)的,這些被稱為Hebbian學(xué)習(xí)。為了進(jìn)行更復(fù)雜的人工智能和決策,它們比我們在上面的例子中使用的CNNs、靜態(tài)的RNN甚至是深度強(qiáng)化學(xué)習(xí)都要強(qiáng)大得多。

但是有一個巨大的缺點(diǎn)——目前還沒有一種方法可以把這類網(wǎng)絡(luò)安裝到數(shù)據(jù)上來“訓(xùn)練”它們。沒有反向傳播,也沒有調(diào)整神經(jīng)元之間突觸權(quán)重的梯度下降操作。突觸只是增強(qiáng)或減弱,因此尖峰神經(jīng)網(wǎng)絡(luò)在運(yùn)作的過程中學(xué)習(xí),使用Hebbian學(xué)習(xí)來進(jìn)行操作,這在實踐上可能有效訓(xùn)練我們的合成網(wǎng)絡(luò),因為他們首先必須結(jié)構(gòu)正確,以達(dá)到一個有用的解決方案。這是一個正在進(jìn)行的研究領(lǐng)域,在這一領(lǐng)域的突破可能是非常重要的。

我認(rèn)為,如果我們可以開始解決這些問題,走向更加功能性更強(qiáng)的神經(jīng)結(jié)構(gòu),更加充分地展示大腦、神經(jīng)系統(tǒng)和真正的神經(jīng)元的工作和學(xué)習(xí)方式,我們就可以開始將今天使用的那種單一的、更靈活的深度學(xué)習(xí)方法整合到這些功能更強(qiáng)大和靈活的架構(gòu)中,這些架構(gòu)以更優(yōu)雅的設(shè)計來處理多種功能。而且通過這些模型,我們將開啟新的神經(jīng)計算形式,我們將能夠?qū)⑺鼈儜?yīng)用到計算機(jī)視覺、機(jī)器人運(yùn)動控制、聽覺、言語,甚至是更像人腦的認(rèn)知等任務(wù)中去。

簡單總結(jié)一句話:“我們還沒有達(dá)到人類層面的認(rèn)知?!?/p>



更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。