最近爆火的ChatGPT和AI作畫驚艷了無數(shù)人,能對話問答、能翻譯、能寫詩,還能修代碼,ChatGPT展示了既強大又通用的語言能力。其強大的通用語言能力背后,是1750億個模型參數(shù)和45TB的訓練數(shù)據(jù)(以它的上一代GPT-3為例)。如此巨大的計算量,沒有算力的持續(xù)增長,是不可能實現(xiàn)的。ChatGPT及GPT-3這樣的大語言模型展示了,當模型的大小和訓練量的大小出現(xiàn)量變以后,最后的表現(xiàn)結果就是產(chǎn)生質變。這本質上揭示了“智能”和算力的深刻聯(lián)系。
算力發(fā)展與科技奇點
計算機的計算能力便每隔幾年翻一倍,計算機的應用也遍地開花:1980年代末出現(xiàn)了互聯(lián)網(wǎng),1990年代出現(xiàn)了搜索引擎,2000年代出現(xiàn)了社交網(wǎng)絡,2010年代出現(xiàn)移動互聯(lián)網(wǎng),而2012年AlexNet橫空出世。計算機應用的變遷和發(fā)展背后的動力則是算力的發(fā)展,當算力達到一定的程度了,相應的應用就會自然涌現(xiàn)。英特爾的創(chuàng)始人Gordon Moore1965年提出了著名的摩爾定律,后來摩爾定律有很多個說法,最簡單的說法是,在價格不變的情況下,芯片中的晶體管數(shù)量每18個月翻一倍。摩爾定律并不是物理規(guī)律,而是一種對于人類科技進步趨勢的洞察,即算力的增長是指數(shù)的。
美國著名未來學家、奇點臨近一書的作者Ray Kurzweil認為,算力的發(fā)展其實一直指數(shù)增長的過程,這個過程開始得遠遠早于摩爾定律,譬如世界上第一臺電子計算機使用的材料是電子管,而電子管后來被晶體管取代。在電子管之前甚至還有通過機械原理制造的計算機Z3。如今基于硅的集成電路工藝已經(jīng)小到了一定程度,在未來會遇到散熱上的瓶頸,但是這并不妨礙未來人們會有更好的方式和材料來構造計算機,繼續(xù)保持算力的持續(xù)增長。
算力持續(xù)指數(shù)增長下去的結果就是科技發(fā)展的加快,想想從2012年Alex橫空出世到現(xiàn)在AI才發(fā)展了10年,就已經(jīng)取得了巨大的進步。而人類14000年前才進入農(nóng)業(yè)時代,200多年前才進入工業(yè)革命時代,不到100年前才有計算機,不到20年前才有智能手機,而10年前才有了深度學習的爆發(fā),這的確印證了科技的指數(shù)發(fā)展。
神經(jīng)網(wǎng)絡的低谷與爆發(fā)
1.神經(jīng)網(wǎng)絡的發(fā)展,經(jīng)歷了兩次低谷期:
第一次低谷是算法:神經(jīng)網(wǎng)絡50年代提出,此時主要由生物學背景的科學家主導。但隨著人工智能之父提出的異或問題,人們開始質疑,認為神經(jīng)網(wǎng)絡是騙人的。
但從80年代開始,物理學家開始進入這一陣地。并在1986年,提出了BP算法,通過梯度下降的方式,可以將誤差收斂到一個極小值,論上證明了神經(jīng)網(wǎng)絡這種聯(lián)結主義可用,BP算法大獲成功。
第二次低谷是算力:隨著神經(jīng)網(wǎng)絡的發(fā)展,人們很快就遇到了新的問題,那就是收斂速度和泛化的問題。
簡單說就是“慢”。當時的計算器CPU性能還不夠強大,對于稍微大點,層數(shù)和節(jié)點多一點的網(wǎng)絡,訓練時間太長,稍微大的規(guī)模就無法處理了。
2.進入21世紀出現(xiàn)了轉機:
數(shù)據(jù):21世紀,互聯(lián)網(wǎng)快速發(fā)展,人類通過互聯(lián)網(wǎng)的運轉,獲取了過去十多年難以想象的海量數(shù)據(jù)。這些數(shù)據(jù),為神經(jīng)網(wǎng)絡的數(shù)據(jù)構建和訓練帶來了可行性。
高級算法:2006年,Hinton在Science首次提出“深度信念網(wǎng)絡”的概念。與傳統(tǒng)的訓練方式不同,“深度信念網(wǎng)絡”有一個“預訓練”過程,可以方便地讓神經(jīng)網(wǎng)絡中的權值找到一個接近最優(yōu)解的值,之后再使用“微調”(fine-tuning)技術來對整個網(wǎng)絡進行優(yōu)化訓練。
預訓練+微調,這種兩部訓練技術的運用,大幅度的減少了多層神經(jīng)網(wǎng)絡的訓練時間。在上一篇文章的ChatGPT發(fā)展過程中我也有提到,ChatGPT的基本能力來源于預訓練,而能力進化和解鎖來源于指令微調。
這個階段,訓練和計算基本依靠CPU進行,CPU頻率也在逐漸提高,但此時10億量級的鏈接,比如2012年的Google X 項目,訓練這一模型,耗費了1000臺計算機,16000個CPU計算,其訓練速度、運行時間、訓練成本都不能令人滿意。
而因為CPU算力有限,此時深度學習發(fā)展速度并不快。
3.GPU的強大計算能力的引入:
CPU是專門為按序列串行處理優(yōu)化的核心組成;而 GPU 則擁有大規(guī)模并行架構,當中包含數(shù)千個更小、更高效的核心,專為同時處理多重任務而設計。與僅包含 CPU 的配置相比,GPU 的數(shù)據(jù)處理速度快得多。
在神經(jīng)網(wǎng)絡在最初的訓練過程中,主要依靠的是CPU。
在2011~2012年前后,英偉達顯卡GTX580被導入到CNN模型計算,對于大模型的訓練,GPU的加速效果達到了CPU的60倍左右。比如上文的10億個連接的Google X項目,在同等工作量和時間下,只需要64個GPU的16臺電腦就可以運算出結果。
2012年,吳恩達用3臺GTX680,就完成了谷歌用1000臺CPU服務器才能完成的貓臉識別任務,GPU正式被各大互聯(lián)網(wǎng)頭部廠商導入,但依然處于CPU+GPU并行的階段。
2016年,英偉達推出新的GPU架構,專門針對AI計算進行優(yōu)化。而在之后的兩年時間,基于深度學習的AlphaGo先后戰(zhàn)勝李世石和柯潔。
也就是那時候開始,深度學習/人工智能在短時間之內火遍業(yè)界、學術界和就業(yè)市場。相信幾年前的火熱場景大家還有影響,一個應屆生,只要會一點tensorflow,pytorch,會調參數(shù)的調參俠就可以被公司以四五十萬招攬。
而因為GPU強大的加速效果,隨著以深度學習為核心的各種應用,不斷涌現(xiàn)并且快速落地。GPU在此時,成為了AI計算的標配。
從數(shù)據(jù),算法、算力,一點點積累,最終造就的就是一次小規(guī)模的科技大爆發(fā),而這次科技大爆發(fā)的成果就是深度學習,而其所帶來的,則是算力需求的大爆炸。
算力需求大爆炸
1.需求大爆炸:
在深度學習新算法+GPU的兩大加持之下,AI計算在應用領域極速擴大。
尤其是隨著云計算、金融、短視頻推薦算法,圖像識別(安防、智慧城市)以及自動駕駛的飛速發(fā)展,互聯(lián)網(wǎng)巨頭、ZF,公共事業(yè)部門、安全部門等,對于算力的需求飛速增長。再加上加密貨幣的火熱,出現(xiàn)了第一次算力需求的大爆炸。
在社會層面,互聯(lián)網(wǎng)巨頭們對于算力的海量需求,大量的數(shù)據(jù)中心和算力中心被建立,GPU芯片被快速部署到各種服務器,數(shù)據(jù)中心,并且在持續(xù)的進行。
而政府規(guī)劃層面,東數(shù)西算、智算中心也自此誕生。
而英偉達則隨著GPU的大量出貨,GPU+CUDA獨霸市場,股價也開啟了從30,漲到800的逆天之旅。
2.GPU局限性
但是,通用GPU在使用過程中,也逐漸顯現(xiàn)出局限性,并不能滿足每一種需求,因為有的側重訓練,而有的則是側重推理,有的側重能效,比如加密貨幣領域,為了最求更高的能效比,礦卡開始大量取代英偉達的GPU。
其實,這個局限性,在谷歌的AlphaGO就已經(jīng)顯現(xiàn),最初的AlphaGo完整版本運行在48顆CPU和8塊GPU上,這個板本的AlphaGO的反應相對較慢,并不足以顛覆人機大戰(zhàn),李世石一度很有信心。
但實際上,后續(xù)與李世石的對弈,谷歌引入了高度定制化的,基于tensor Flow深度學習架構的TPU,按照谷歌的描述,其TPU 平均比當前的 GPU 或 CPU 快15~30倍,能效比更是GPU的70倍,CPU的兩百倍。在這一配置下,AlphaGO以絕對優(yōu)勢擊敗了李世石。雖然TPU通用性差,但效率巨高,后來在谷歌翻譯、圖像搜索、谷歌照片(Google Photo)、谷歌云視覺API 中大量應用。
與之類似的是,特斯拉的自動駕駛,F(xiàn)SD芯片從18年開始導入,不僅僅依賴于GPU, 而是專門加入了神經(jīng)處理單元和各種加速器。后續(xù)更是開發(fā)了Dojo+D1芯片,專門承擔算法訓練重任。
還有百度,在使用GPU的時候,也采用FPGA研發(fā)AI加速。并最終自研了云端全功能AI芯片-昆侖。
而阿里,因為應用場景不同,則是自研了含光800,更加側重于推理。在城市大腦的業(yè)務測試中,1顆含光800的算力相當于10顆GPU。
可以說,在第一次算力需求大爆發(fā)下,GPU 雖然獨霸市場,但各種偏訓練、推理的專用芯片也開始快速的發(fā)展。
新的算力需求大爆炸即將到來
深度學習伴隨的第一次算力需求大爆炸,To C應用火熱的基本沒有,更多的是在To B 和 To G,主要在云端部署。GPU+專用芯片,第一次算力需求的大爆發(fā),似乎處于一個相對平衡階段。
但是,當ChatGPT月活用戶接近1億的時候,事情就不一樣了。這是互聯(lián)網(wǎng)發(fā)展20年來,增長最快的消費類應用。這也是人工智能誕生以來,面向C端用戶增長最快的速度。
這是獲得大眾認可的AI C端產(chǎn)品,而過去,人們只會叫他們“人工智障”。天貓精靈或者各種什么同學,有時候能讓你氣的腦溢血。人們往往用一用,就過了新鮮勁,所以更多的AI還是在B端,G端,用在現(xiàn)在,已經(jīng)有1億人對ChatGPT表示出了高漲的熱情。大佬們更是給出了超高的評價:
比爾蓋茨說,“ChatGPT讓我們窺見了即將發(fā)生的事情,這項技術以及其革新速度都令人印象深刻?!泵绹敦敻弧冯s志評價ChatGPT就是人工智能行業(yè)的iPhone。商湯智能產(chǎn)業(yè)研究院長田豐認為:“ChatGPT驗證了當前AI大模型的巨大商業(yè)價值和科研價值。ChatGPT的出圈,可能意味著一個AI大規(guī)模商業(yè)化時代的到來。
ChatGPT讓谷歌,微軟、百度等一眾大佬剛到恐懼,他雖然不是搜索引擎,但用戶通過ChatGPT獲得更準確、及時、人性化的答案,這個時候還需要搜索引擎嗎?谷歌的Gmail創(chuàng)始人保羅·布赫海特認為,谷歌距離被徹底顛覆可能只需要一兩年的時間,像ChatGPT這樣的AI聊天機器人將摧毀谷歌,消滅搜索引擎結果頁面。
ChatGPT取得的成績,以及各種高度的評價,足夠令人重視。而我們需要重視的,是ChatGPT背后的通用大模型技術:他已經(jīng)在醫(yī)藥研究、虛擬電廠等各種方向開始創(chuàng)新和發(fā)展。但當他以To C的方式出圈,會進一步推動這種模型在產(chǎn)業(yè)層的應用。
而這樣一個需要進行大規(guī)模預訓練,具有3000億數(shù)據(jù),將近2000億參數(shù)的超級大模型。當前僅僅是GPT-3.5, 近期將會更新GPT-4,他的參數(shù)將比3代再高出幾個量級。
這個模型的訓練,目前OpenAI至少導入了一萬多塊的英偉達最高端的GPU進行預訓練。而觸發(fā)第一次算力需求大爆炸時的AlphaGO 僅僅需要8塊GPU RTX680,而和柯潔對戰(zhàn)的go只用了4塊GPU。
這種大模型,對算力的需求至少是指數(shù)級的增長。當他從實驗室走向落地,旦類似的大模型開始根據(jù)各行各業(yè)做推廣和部署,這個算力需求是個無底洞,當前的算力是不夠的。甚至于東數(shù)西算打造的各種數(shù)據(jù)中心,也遠遠難以應對即將到來的,"新的一輪的,算力需求大爆炸"。
我們可能需要更多,不僅僅依賴于數(shù)據(jù)中心,云計算,更需要算力網(wǎng)絡,需要云網(wǎng)融合,甚至需要端測設備也提供算力,將端側的閑置算力鏈接并網(wǎng)。我們不僅需要GPU,更需要各種專用的云端訓練芯片,推理芯片。我們還需要各種端側的推理芯片,NPU/AI 芯片,未來的各種終端都需要具有AI算力。不僅僅用于處理端側的算力需求,還要將閑置的算力貢獻到整個算力網(wǎng)絡中調配,類似于BTC挖礦。
新的一次的算力需求大爆炸,我相信不會太遠,也許在2025年前后就會到來。這是個機會,因為潛力和想象力巨大。但也很難,因為我們在高端算力上缺失嚴重,我們在高科技領域、半導體領域、高性能計算等方面被各種掣肘。
不過國家正在規(guī)劃的事情放到一起去看,能看出些東西的。比如GPGPU、算力、訓練芯片各種芯片廠家快速獲得大額融資;比如各家互聯(lián)網(wǎng)大廠、新能源汽車主機廠的數(shù)據(jù)中心,算力中心,智算中心的加快建設;比如國家的東數(shù)西算,云網(wǎng)融合,算力網(wǎng)絡。
相信趕上不會太遠了。
來 源 | 知乎@陳清揚、雪球@撿貝殼的FBB
歡迎關注電子技術應用2023年2月22日==>>商業(yè)航天研討會<<