日前,西湖大學孵化的西湖機器人公司發(fā)布了搭載全球首個機器人領域首個動作泛化大模型的人形機器人“泰坦o1”,將這一神話場景帶入現(xiàn)實——這個名為“GAE身外化身系統(tǒng)”的通用動作預訓練大模型,相當于給來自不同廠家的機器人裝上了可通用的強大“小腦”,讓機器人可突破時空限制,實時模仿人類動作,只需一個人就能操控成百上千個身處天南地北不同地點的機器人“賽博分身”,實時進行同樣的操作。

實時復刻動作如影隨形
在演示現(xiàn)場,泰坦o1外觀呈橙、黑、銀拼接,風格頗具未來感。當身著動捕服的工作人員擺手、轉(zhuǎn)身、踢球時,泰坦o1會如影隨形地在毫秒間復刻所有動作:無論手臂擺動角度、轉(zhuǎn)身幅度,還是踢球時的步距與抬腳高度,甚至動作節(jié)奏,都與工作人員高度一致。
“這些動作并非預先編排,而是對人類隨機行為的實時響應?!蔽骱C器人創(chuàng)始人、西湖大學機器智能實驗室研究組長王東林教授介紹,無論操作者是誰、動作如何變化,泰坦o1都能快速跟上。
此外,泰坦o1還有不錯的“動作記憶”能力,可通過后臺指令復現(xiàn)已示范過的動作。在今年安徽衛(wèi)視春節(jié)聯(lián)歡晚會上,西湖機器人曾憑借這一能力完成了10臺機器人的五禽戲群控表演——僅用數(shù)天調(diào)試,即可實現(xiàn)自定義動作生成與部署,大幅降低應用門檻。
“只要具備網(wǎng)絡環(huán)境,穿上動捕設備,就可以遠程操控機器人執(zhí)行任務。”王東林表示,單人可同時控制多臺機器人完成一致動作,理論上控制規(guī)模不設上限。
最令人驚喜的是,這一系統(tǒng)幾乎不設使用門檻。無需編程經(jīng)驗,也不用依賴專業(yè)人員指導,用戶僅通過動捕設備或電腦端操作,即可讓機器人完成對應動作,實現(xiàn)“所想即所動”。
機器人領域首個動作泛化大模型
在人體中,小腦負責協(xié)調(diào)運動、維持平衡,讓動作精準流暢。而GAE則為人形機器人帶來了強大的“通用小腦”——它能讓機器人在收到信號后瞬間做出最合適的動作。王東林介紹,這套由西湖團隊完全自研的算法,比國際上其他團隊的同類技術(shù)領先至少6個月。

“泰坦o1”在打架子鼓
“目前市面上看到的機器人已經(jīng)能跑能跳能比武,但其實基本靠提前編程?!蓖鯑|林說,那就好像“背課文”,需要反復訓練才能做到一字不差,而這正是傳統(tǒng)機器人的最大技術(shù)瓶頸——由于缺乏通用的動作模型,一套程序只能對應一套動作,機器人無法舉一反三。
而GAE這個“通用小腦”則能讓機器人即使遇到?jīng)]做過的動作,也能輕松應對。而且,它還具備“跨本體”能力,很多不同結(jié)構(gòu)、不同尺寸的機器人都能搭載這套大模型。
“ChatGPT讓AI能理解并生成各種語言,擁有語言的泛化能力;Sora能生成各種視頻畫面,擁有視覺的泛化能力?!蓖鯑|林說,GAE則讓機器人能模仿和執(zhí)行各種人類動作,是機器人領域第一個實現(xiàn)動作泛化的大模型。
GAE的問世離不開長期的技術(shù)積累與數(shù)據(jù)支撐。此前,王東林團隊已在四足機器人(機器狗)、人形機器人領域深耕多年,積累了豐富的機器人運動控制技術(shù)。同時,他們還擁有全球領先、國內(nèi)最大的高質(zhì)量全身運動數(shù)據(jù)集,包含了人類各種日常動作、復雜動作的詳細數(shù)據(jù),為這顆“通用小腦”提供了充足的“學習素材”。
其實,“分身體驗”只是一個開始。王東林表示,泰坦o1更重要的意義在于可替代人類進入高風險場景,如消防救援、礦區(qū)作業(yè)、高空維護等。

