2月10日,阿里巴巴達(dá)摩院發(fā)布具身智能大腦基礎(chǔ)模型RynnBrain,并一次性開源了包括30B MoE在內(nèi)的7個(gè)全系列模型。RynnBrain首次讓機(jī)器人擁有了時(shí)空記憶和空間推理能力,智能水平實(shí)現(xiàn)大幅躍升,在16項(xiàng)具身開源評(píng)測(cè)榜單上刷新紀(jì)錄(SOTA),超越谷歌Gemini Robotics ER 1.5等行業(yè)頂尖模型。
據(jù)介紹,具身模型的智能水平已成為行業(yè)發(fā)展的重要瓶頸,尤其是泛化能力亟待提升。業(yè)界形成了多條技術(shù)路線的探索:一類是動(dòng)作模型,從機(jī)器人末端動(dòng)作輸出著手,發(fā)展出可以直接操作物理世界的VLA模型,但VLA模型往往因?yàn)閿?shù)據(jù)稀缺難以實(shí)現(xiàn)泛化;另一類是大腦模型,從本身具有泛化能力的VLM等模型入手,但他們普遍缺乏記憶能力,動(dòng)態(tài)認(rèn)知受限,且普遍存在物理幻覺(jué),難以支持人形機(jī)器人復(fù)雜的移動(dòng)操作。
為了克服這些問(wèn)題,達(dá)摩院的RynnBrain模型創(chuàng)造性地引入了時(shí)空記憶和物理世界推理,這是機(jī)器人與環(huán)境互動(dòng)所需的兩項(xiàng)基本能力。時(shí)空記憶能力可讓機(jī)器人在其完整的歷史記憶中定位物體、目標(biāo)區(qū)域,甚至預(yù)測(cè)運(yùn)動(dòng)軌跡,從而賦予機(jī)器人全局時(shí)空回溯能力。物理空間推理不同于傳統(tǒng)的純文本推理范式,RynnBrain 采用文本與空間定位交錯(cuò)進(jìn)行的推理策略,確保其推理過(guò)程緊密扎根于物理環(huán)境,大大減弱了幻覺(jué)問(wèn)題。舉例來(lái)說(shuō),運(yùn)行RynnBrain模型的機(jī)器人,在執(zhí)行A任務(wù)中被突然打斷要求先做B任務(wù),它能記住A任務(wù)的時(shí)間和空間狀態(tài),等完成B后繼續(xù)工作。

RynnBrain具有認(rèn)知、定位、推理、規(guī)劃等多重能力
RynnBrain在Qwen3-VL基礎(chǔ)上訓(xùn)練,使用自研的RynnScale架構(gòu)進(jìn)行訓(xùn)練優(yōu)化,同等資源加速兩倍,訓(xùn)練數(shù)據(jù)超過(guò)2000萬(wàn)對(duì)。結(jié)果顯示,RynnBrain能力全面,性能領(lǐng)先,在16項(xiàng)具身開源評(píng)測(cè)榜單上刷新紀(jì)錄(SOTA),包括環(huán)境感知與對(duì)象推理、第一人稱視覺(jué)問(wèn)答、空間推理、軌跡預(yù)測(cè)等,超越了谷歌Gemini Robotics ER 1.5、英偉達(dá) Cosmos Reason 2等具身頂尖模型。

RynnBrain在16項(xiàng)具身評(píng)測(cè)上實(shí)現(xiàn)SOTA
RynnBrain還擁有良好的可拓展性,能夠快速訓(xùn)練出導(dǎo)航、規(guī)劃、動(dòng)作等多種具身模型,有望成為具身行業(yè)的基礎(chǔ)模型。以具身規(guī)劃模型為例,其需要強(qiáng)大預(yù)測(cè)能力和場(chǎng)景解析能力,但基于RynnBrain為基礎(chǔ),只需幾百條數(shù)據(jù)微調(diào),效果就能超越Gemini 3 Pro,輕松實(shí)現(xiàn)SOTA。
以開源完整的推理與訓(xùn)練代碼的方式,達(dá)摩院此次開源了RynnBrain全系列模型,共計(jì)7個(gè),包含全尺寸基礎(chǔ)模型與后訓(xùn)練專有模型,其中有業(yè)界首個(gè)MoE架構(gòu)的30B具身模型,只需要3B的推理激活參數(shù)就能超越業(yè)界的72B模型效果,因此能讓機(jī)器人動(dòng)作更快、更絲滑。同時(shí),達(dá)摩院還開源了全新評(píng)測(cè)基準(zhǔn) RynnBrain-Bench,用于評(píng)測(cè)時(shí)空細(xì)粒度具身任務(wù),填補(bǔ)了行業(yè)空白。

RynnBrain模型架構(gòu)
達(dá)摩院具身智能實(shí)驗(yàn)室負(fù)責(zé)人趙德麗表示:“RynnBrain 首次實(shí)現(xiàn)了大腦對(duì)物理世界的深度理解與可靠規(guī)劃,為大小腦分層架構(gòu)下的通用具身智能邁出關(guān)鍵一步。我們期待它加速 AI 從數(shù)字世界走向真實(shí)物理場(chǎng)景的落地進(jìn)程?!睋?jù)了解,達(dá)摩院積極投入具身智能,正在構(gòu)建可部署、可擴(kuò)展、可進(jìn)化的具身智能系統(tǒng),已開源了融合世界模型和VLA模型的WorldVLA、世界理解模型 RynnEC等具身模型,以及業(yè)界首個(gè)機(jī)器人上下文協(xié)議 RynnRCP 。

