9月8日消息,今日,中國科學院自動化研究所宣布,該研究所李國齊、徐波團隊與沐曦MetaX合作,成功研發(fā)出類腦脈沖大模型“瞬悉1.0”(SpikingBrain-1.0)。
據(jù)介紹,該模型基于團隊原創(chuàng)的“內(nèi)生復雜性”理論構建,在國產(chǎn)GPU平臺上完成全流程訓練與推理,顯著提升了大模型高效處理極長文本或數(shù)據(jù)序列的效率和速度,展示了構建國產(chǎn)自主可控的新型(非Transformer)大模型架構生態(tài)的可行性。
據(jù)了解,當前主流的Transformer模型,在處理超長文章或?qū)υ挄r速度會非常慢且成本極高,造成了巨大的資源消耗。
與當前主流大模型架構(Transformer架構)不同,“瞬悉1.0”借鑒大腦神經(jīng)元內(nèi)部工作機制,清晰地展示了一條不斷提升模型復雜度和性能的新型可行路徑。
該模型僅需約主流模型2%的數(shù)據(jù)量,就能在多項語言理解和推理任務中達到媲美眾多主流模型的性能。
中國科學院自動化研究所表示,這是我國首次提出大規(guī)模類腦線性基礎模型架構,并首次在國產(chǎn)GPU算力集群上構建類腦脈沖大模型的訓練和推理框架。
其超長序列處理能力在法律與醫(yī)學文檔分析、復雜多智能體模擬、高能粒子物理實驗、DNA序列分析、分子動力學軌跡等超長序列任務建模場景中具有顯著的潛在效率優(yōu)勢。
本次發(fā)布的大模型為新一代人工智能發(fā)展提供了非Transformer架構的新技術路線,并將啟迪更低功耗的下一代神經(jīng)形態(tài)計算理論和芯片設計。
網(wǎng)絡端試用端口網(wǎng)址:https://controller-fold-injuries-thick.trycloudflare.com
中文技術報告網(wǎng)址:https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf
模型代碼網(wǎng)址:https://github.com/BICLab/SpikingBrain-7B