123,123

从“大炼模型”到“炼大模型”，AI告别单打独斗

日期： 2022-09-30

作者：张慧娟

來源：与非网eefocus

關鍵詞： 人工智能 AI大模型

　　AI大模型可能是走向強人工智能的必經(jīng)之路，也或許只是過渡手段，但不管怎么說，它已經(jīng)越來越清晰地呈現(xiàn)出了魅力。

　　AI落地初期，為了提升傳統(tǒng)行業(yè)的應用體驗，提高機器學習算法的效率，面向海量的、碎片化的應用場景，行業(yè)拼命“大煉模型”。

　　這從一定程度上確實助推了AI的落地，不過，為了進一步優(yōu)化效果、提高精度，模型變得越來越復雜，數(shù)據(jù)越來越龐大，進一步提高了行業(yè)的應用門檻，特別是對小公司帶來挑戰(zhàn)。由于模型越復雜，所需的投入越大，訓練成本越高，很多企業(yè)不足以應對這種狀況，導致落地效率越來越低。

　　最“卷”的AI模型在語言領域。2020年夏天，OpenAI推出了GPT-3，它在自然語言處理方面展示出驚人的能力，能寫文章、做翻譯、生成代碼，甚至可以學習一個人的語言模式，并遵循這個模式與人進行談話。GPT-3的面市也使得全球范圍內(nèi)AI大模型迎來大爆發(fā)，參與企業(yè)越來越多，參數(shù)級別越來越大，成為新一輪AI競賽的賽場。2021年，谷歌發(fā)布了萬億級模型Switch Transformer，微軟和英偉達也推出了包含5300億個參數(shù)的自然語言生成模型。國內(nèi)的企業(yè)也不甘落后，華為、浪潮、百度、阿里巴巴等企業(yè)都競相推出了自己的大模型。

　　AI進入“煉大模型”時代。

　　AI“劇本殺”玩家

　　能解行業(yè)之痛嗎？

　　國內(nèi)AI大模型的代表之一是“源1.0”，是浪潮在2021年9月發(fā)布的單體巨量自然語言處理模型?！霸?.0”一發(fā)布就問鼎全球最大規(guī)模的中文AI模型，其參數(shù)規(guī)模高達2457億，訓練采用的中文數(shù)據(jù)集達5000GB，相比GPT-3模型1750億參數(shù)量和570GB訓練數(shù)據(jù)集，“源1.0”參數(shù)規(guī)模領先40%，訓練數(shù)據(jù)集規(guī)模領先近10倍。

　　一個有趣的應用是，源開發(fā)者社區(qū)的開發(fā)者基于“源1.0”開發(fā)出了“劇本殺”AI玩家。在游戲中，AI所扮演的角色不僅可以與其他玩家流暢對話，甚至會為了達成任務說謊去“套路”人類玩家。

　　它所憑借的，正是“源1.0”零樣本（Zero-Shot）和小樣本（Few-Shot）學習的優(yōu)勢，AI模型可以很好地理解并實現(xiàn)交互式敘事的“對話策略”，能夠運用“舉一反三”的對話能力，讓劇本殺成為一部由玩家和AI在不知不覺中共同創(chuàng)造的全新故事。

　　開源社區(qū)產(chǎn)生的其他基于“源1.0”開發(fā)的應用也是五花八門，包括數(shù)字演員、正能量陪伴機器人、抬杠機器人、游戲NPC對話、文案寫作、金融文本分析等……并且，浪潮的源1.0大模型已落地智算中心、金融等多個企業(yè)，實現(xiàn)了智算中心模型即服務（MaaS）的產(chǎn)品模式創(chuàng)新，助力金融大模型的研發(fā)。

　　我們該如何看待這些應用？它們反映出了AI的哪些發(fā)展趨勢？

　　浪潮信息AI軟件研發(fā)總監(jiān)吳韶華介紹，在大模型出現(xiàn)之前，如果要做一個類似劇本殺的游戲，需要很強大的模型和復雜的流程。首先，這個模型既要有對話能力，也要有邏輯推理能力，這對于模型算法、數(shù)據(jù)研發(fā)的門檻很高。其次，用戶要有自己的算法人員，需要從頭開始收集數(shù)據(jù)、標注數(shù)據(jù)，然后做模型等，經(jīng)過復雜的研發(fā)流程，最后才能走到最核心的業(yè)務邏輯上。

　　而有了大模型，這些問題都可以得到解決或緩解，并對AI模型的構(gòu)建及應用產(chǎn)生極大影響。在算法基礎設施層面，開源開放的大模型，使得開發(fā)者不需要關心底層搭建的技術，就能直接調(diào)用大模型的能力。這相當于把AI應用的開發(fā)向上推了一大步，讓開發(fā)者聚焦應用最核心的業(yè)務邏輯，把跟模型相關的內(nèi)容放在模型層面或算法基礎設施的層面?；谠?.0搭建的“劇本殺”游戲，可以直接復用源1.0的開源代碼，開發(fā)過程基本不需要寫代碼和調(diào)試代碼，就完成了整個應用的構(gòu)建，從而可以把更多精力放在劇情內(nèi)容等創(chuàng)意的創(chuàng)作上。

　　從“三要素”到“大模型”

　　AI變了嗎？

　　人工智能從前幾年強調(diào)“算力、算法、數(shù)據(jù)”，到現(xiàn)在大模型越來越受推崇。這反映了AI的哪些發(fā)展規(guī)律？AI的核心要素是否發(fā)生了變化？

　　吳韶華認為，AI的核心要素并沒有發(fā)生變化，大模型訓練更需要在“算力、算法、數(shù)據(jù)”三個層面開展創(chuàng)新。以“源1.0”大模型為例，在算法層面，面向效率和精度優(yōu)化的大模型結(jié)構(gòu)協(xié)同設計方法，針對Attention層進行結(jié)構(gòu)優(yōu)化，改進注意力機制聚焦文章內(nèi)部聯(lián)系的學習；創(chuàng)新小樣本學習精度改進方法，在業(yè)界權(quán)威數(shù)據(jù)集上取得精度領先。

　　在算力層面，圍繞深度學習框架、訓練集群I/O、通信開展了深入優(yōu)化，在僅采用2x200G互聯(lián)的情況下，“源1.0”在2128顆異構(gòu)加速器集群上的算力效率達到45%，超出MT-NLG與GPT-3等國際知名模型。面向多元異構(gòu)芯片，研發(fā)了大模型推理軟件框架，并在400顆國產(chǎn)芯片集群上實現(xiàn)了大模型彈性部署，將模型推理性能提高了數(shù)10倍，形成大模型+大算力的算法基礎設施建設的實踐成果。

　　在數(shù)據(jù)層面，當前主要存在中文訓練海量數(shù)據(jù)難獲取、難清洗等問題，浪潮海量數(shù)據(jù)過濾系統(tǒng)（MDFS）建立了從數(shù)據(jù)采集、粗濾、質(zhì)量分類、精濾的全自動化的端到端數(shù)據(jù)工作流程，通過清洗866TB海量數(shù)據(jù)獲得5TB大規(guī)模高質(zhì)量中文數(shù)據(jù)集。該數(shù)據(jù)集已經(jīng)開源，并已廣泛應用于產(chǎn)業(yè)用戶的模型訓練中。

　　解“困”AI大規(guī)模產(chǎn)業(yè)化難題

　　業(yè)界普遍認為AI大模型當前面臨的主要瓶頸包括：算力資源受限、訓練成本高昂、人力投入巨大等。

　　在燧原科技產(chǎn)品市場部總經(jīng)理高平看來，算力資源不足和成本昂貴的根本問題，其實是AI算力市場競爭不充分，目前國內(nèi)AI訓練算力市場基本被海外大廠獨家壟斷，成本與資源受限問題是壟斷下的必然結(jié)果；其次，AI算力的技術發(fā)展在逐漸邁向成熟，面向AI計算的DSA架構(gòu)在AI大模型如火如荼的發(fā)展趨勢下，將會具備很好的規(guī)模經(jīng)濟效益，進而隨著技術發(fā)展取得更好的成本優(yōu)勢；第三，人力投入大的問題主要是缺乏相應的標準規(guī)范，將會在產(chǎn)業(yè)發(fā)展到某個程度的時候得到解決，減少重復投入。

　　吳韶華認為，應用的碎片化、尤其是長尾場景應用的碎片化，仍是AI落地的難題。碎片化就意味著不同場景需要有針對性地建模，每個小場景都要從數(shù)據(jù)到模型、應用整個流程走一遍。此外，隨著數(shù)據(jù)的更新，模型也要更新。設想對于一家維護著上百個模型的企業(yè)，要同時更新上百個模型及應用，投入無疑是巨大的。

　　而大模型的出現(xiàn)可以說是生逢其時，它能夠?qū)鹘y(tǒng)煙囪式的、碎片化的AI應用開發(fā)轉(zhuǎn)向集中式開發(fā)。一方面，AI大模型具備很好的泛化能力，一個模型可以支撐各類不同應用，有效緩解碎片化開發(fā)反復建模的困境；另一方面，圍繞AI大模型構(gòu)建的算法基礎設施，比如開放的API、開源的應用代碼等，使開發(fā)者無需關心底層技術，設置無需配置編程環(huán)境，就可以直接將應用構(gòu)建于AI大模型的能力之上，在降低開發(fā)門檻的同時，讓開發(fā)人員將更多的精力聚焦在核心業(yè)務邏輯上。

　　AI大模型有望重塑產(chǎn)業(yè)格局

　　高平認為，訓練大模型所需要的海量算力必須依靠AI算力集群來支撐，能否充分發(fā)揮集群的整體效能，讓成本昂貴的AI算力能算盡其用，是降低大模型訓練成本的關鍵。燧原科技打造了基于液冷技術的AI集群訓練產(chǎn)品“云燧智算機CloudBlazer POD”，通過軟件層面（模型和框架）與硬件基礎設施（計算、存儲、網(wǎng)絡）的協(xié)同優(yōu)化，能最大化算力利用率，在實際部署的千卡訓練集群上實現(xiàn)了0.95的線性加速比。同時，使數(shù)據(jù)中心PUE可以達到1.1，從而大大降低了電力消耗，進一步降低了成本。

　　“AI大模型的投入是AI技術邁向新臺階的必經(jīng)之路，是解決產(chǎn)業(yè)碎片化的一種很好的方式，AI大模型的技術發(fā)展與商業(yè)落地，也將會重塑目前的AI算力市場格局與AI應用市場格局”，高平表示，“未來，大模型的數(shù)量將遠遠少于目前的模型數(shù)量，這也有利于AI芯片針對性的設計開發(fā)與優(yōu)化，是AI算力企業(yè)生態(tài)建立的新機會，也可以預期，基于DSA架構(gòu)的AI芯片會在大模型的發(fā)展下大放異彩。”

　　此外，他認為大模型應用會形成新的上下游產(chǎn)業(yè)鏈，同時掌握大規(guī)模算力與數(shù)據(jù)的大型企業(yè)會把握產(chǎn)業(yè)鏈的上游；下游小企業(yè)利用大模型的能力，結(jié)合對行業(yè)理解的優(yōu)勢，能低成本地把AI技術應用到社會的各個方面。這將會是成熟的、進入良性循環(huán)的AI落地模式。

　　寫在最后

　　一直以來，AI的研發(fā)多數(shù)都依賴于模型：一是用數(shù)據(jù)訓練模型；二是基于數(shù)據(jù)得到更好的模型結(jié)果。這就離不開各個環(huán)節(jié)的分工，找數(shù)據(jù)、標注數(shù)據(jù)，AI專業(yè)人士調(diào)參……通過多個環(huán)節(jié)勞動成果的聚合，最終實現(xiàn)AI的落地。也正是這樣高度分散且具有壁壘的分工，對AI的大規(guī)模產(chǎn)業(yè)化帶來挑戰(zhàn)。從目前各大企業(yè)、研究機構(gòu)對AI大模型的愿景，它將能夠很好地解決這些難題。

　　不過，也有人認為AI大模型本質(zhì)上不過是深度學習的“加強版”，通過給模型“填喂”大數(shù)據(jù)提高其自學習能力，進而實現(xiàn)更強的智能程度。

　　但正如本文受訪者所介紹，通過在算法、數(shù)據(jù)等層面的創(chuàng)新，它可以通過零樣本、小樣本學習精度的提升、高質(zhì)量數(shù)據(jù)集的優(yōu)化等，進一步提升泛化能力和效率，這是AI產(chǎn)業(yè)全鏈條的創(chuàng)新，而不僅僅只是追求更大的模型。

　　它可能是走向強人工智能的必經(jīng)之路，也或許只是過渡手段，但不管怎么說，它已經(jīng)越來越清晰地呈現(xiàn)出了魅力。

　更多信息可以來這里獲取==>>電子技術應用-AET<<

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

从“大炼模型”到“炼大模型”，AI告别单打独斗

日期： 2022-09-30

作者： 张慧娟

來源：与非网eefocus

相關內(nèi)容

作者：张慧娟