6月14日,2024北京智源大會在中關村展示中心開幕,北京智源人工智能研究院(簡稱智源研究院)推出大模型“全家桶”。
智源研究院院長王仲遠表示,現(xiàn)階段語言大模型的發(fā)展已經具備了通用人工智能非常核心的理解和推理能力,并且形成了一條以語言大模型為核心對齊和映射其他模態(tài)的技術路線,從而讓模型具備了初步的多模態(tài)理解和生成能力。但這并不是讓人工智能感知、理解物理世界的終極技術路線,而是應該采取統(tǒng)一模型的范式,實現(xiàn)多模態(tài)的輸入和輸出,讓模型具備原生的多模態(tài)擴展能力,向世界模型演進。未來,大模型將以數(shù)字智能體的形態(tài)與智能硬件融合,以具身智能的形態(tài)從數(shù)字世界進入物理世界,同時,大模型這一技術手段可為科學研究提供新的知識表達范式,加速人類對微觀物理世界規(guī)律的探索與研究突破,不斷趨近通用人工智能的終極目標。
智源研究院此次推出的大模型“全家桶”,包括智源多模態(tài)大模型、具身智能大模型、生物計算大模型等。
針對大模型訓練算力消耗高的問題,智源研究院和中國電信人工智能研究院(TeleAI)基于模型生長和損失預測等關鍵技術,聯(lián)合研發(fā)并推出全球首個低碳單體稠密萬億語言模型Tele-FLM-1T。該模型與百億級的52B版本、千億級的102B版本共同構成Tele-FLM系列模型。Tele-FLM系列模型僅以業(yè)界普通訓練方案9%的算力資源,基于112臺A800服務器,用4個月完成3個模型總計2.3T tokens的訓練,訓練出萬億稠密模型Tele-FLM-1T。
針對大模型幻覺等問題,智源研究院自主研發(fā)了通用語義向量模型BGE(BAAI General Embedding)系列,基于檢索增強RAG技術,實現(xiàn)數(shù)據(jù)之間精準的語義匹配,支持大模型調用外部知識的調用。
行業(yè)現(xiàn)有的多模態(tài)大模型多為對于不同任務而訓練的專用模型,例如Stable Diffusion之于文生圖,Sora之于文生視頻,GPT-4V之于圖生文。每類模型都有對應的架構和方法,例如對于視頻生成,行業(yè)普遍參照Sora選擇了DiT架構。但是現(xiàn)有模型的能力多為單一分散的能力組合,而不是原生的統(tǒng)一能力,例如目前Sora還做不到圖像和視頻的理解。為了實現(xiàn)多模態(tài)、統(tǒng)一、端到端的下一代大模型,智源研究院推出Emu3原生多模態(tài)世界模型,采用智源自研多模態(tài)自回歸技術路徑,在圖像、視頻、文字上聯(lián)合訓練,使模型具備原生多模態(tài)能力,實現(xiàn)圖像、視頻、文字的統(tǒng)一輸入和輸出。
在具身大模型方面,對于具身智能通用抓取能力,智源針對跨任意形狀和材質的泛化難題,突破95%的真機實驗成功率,實現(xiàn)商業(yè)級動作執(zhí)行水平。借助這項技術,即使在復雜光線透射、反射的情況下,機器人依然能準確感知透明、高反光物體的形狀和姿態(tài),并預測出高成功率的抓取位姿。
在分級具身大模型系統(tǒng)方面,智源研發(fā)了能夠從失敗中重思考、再嘗試的鉸接物體操作大模型系統(tǒng)SAGE。該系統(tǒng)結合三維視覺小模型對空間幾何的精確感知能力和通用圖文大模型的通用物體操作知識,使大模型驅動的機器人能夠在任務執(zhí)行失敗時重新思考并再次嘗試新的交互方式,實現(xiàn)傳統(tǒng)機器人技術無法企及的智能性和魯棒性。此外,智源研究院探索了生成式人工智能在分子生物學中的應用,推出全原子生物分子模型OpenComplex 2,以及實時孿生心臟計算模型。