《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 业界动态 > 西湖大学发布机器人领域首个动作泛化大模型

西湖大学发布机器人领域首个动作泛化大模型

领先国际同行6个月以上
2026-03-23
來(lái)源:文汇报

日前,西湖大學(xué)孵化的西湖機(jī)器人公司發(fā)布了搭載全球首個(gè)機(jī)器人領(lǐng)域首個(gè)動(dòng)作泛化大模型人形機(jī)器人泰坦o1”,將這一神話場(chǎng)景帶入現(xiàn)實(shí)——這個(gè)名為“GAE身外化身系統(tǒng)”的通用動(dòng)作預(yù)訓(xùn)練大模型,相當(dāng)于給來(lái)自不同廠家的機(jī)器人裝上了可通用的強(qiáng)大“小腦”,讓機(jī)器人可突破時(shí)空限制,實(shí)時(shí)模仿人類動(dòng)作,只需一個(gè)人就能操控成百上千個(gè)身處天南地北不同地點(diǎn)的機(jī)器人“賽博分身”,實(shí)時(shí)進(jìn)行同樣的操作。

_url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0323%2F4e0e4b2bj00tcbmg60015d000p000gog.jpg

實(shí)時(shí)復(fù)刻動(dòng)作如影隨形

在演示現(xiàn)場(chǎng),泰坦o1外觀呈橙、黑、銀拼接,風(fēng)格頗具未來(lái)感。當(dāng)身著動(dòng)捕服的工作人員擺手、轉(zhuǎn)身、踢球時(shí),泰坦o1會(huì)如影隨形地在毫秒間復(fù)刻所有動(dòng)作:無(wú)論手臂擺動(dòng)角度、轉(zhuǎn)身幅度,還是踢球時(shí)的步距與抬腳高度,甚至動(dòng)作節(jié)奏,都與工作人員高度一致。

“這些動(dòng)作并非預(yù)先編排,而是對(duì)人類隨機(jī)行為的實(shí)時(shí)響應(yīng)?!蔽骱C(jī)器人創(chuàng)始人、西湖大學(xué)機(jī)器智能實(shí)驗(yàn)室研究組長(zhǎng)王東林教授介紹,無(wú)論操作者是誰(shuí)、動(dòng)作如何變化,泰坦o1都能快速跟上。

此外,泰坦o1還有不錯(cuò)的“動(dòng)作記憶”能力,可通過(guò)后臺(tái)指令復(fù)現(xiàn)已示范過(guò)的動(dòng)作。在今年安徽衛(wèi)視春節(jié)聯(lián)歡晚會(huì)上,西湖機(jī)器人曾憑借這一能力完成了10臺(tái)機(jī)器人的五禽戲群控表演——僅用數(shù)天調(diào)試,即可實(shí)現(xiàn)自定義動(dòng)作生成與部署,大幅降低應(yīng)用門檻。

“只要具備網(wǎng)絡(luò)環(huán)境,穿上動(dòng)捕設(shè)備,就可以遠(yuǎn)程操控機(jī)器人執(zhí)行任務(wù)?!蓖鯑|林表示,單人可同時(shí)控制多臺(tái)機(jī)器人完成一致動(dòng)作,理論上控制規(guī)模不設(shè)上限。

最令人驚喜的是,這一系統(tǒng)幾乎不設(shè)使用門檻。無(wú)需編程經(jīng)驗(yàn),也不用依賴專業(yè)人員指導(dǎo),用戶僅通過(guò)動(dòng)捕設(shè)備或電腦端操作,即可讓機(jī)器人完成對(duì)應(yīng)動(dòng)作,實(shí)現(xiàn)“所想即所動(dòng)”。

機(jī)器人領(lǐng)域首個(gè)動(dòng)作泛化大模型

在人體中,小腦負(fù)責(zé)協(xié)調(diào)運(yùn)動(dòng)、維持平衡,讓動(dòng)作精準(zhǔn)流暢。而GAE則為人形機(jī)器人帶來(lái)了強(qiáng)大的“通用小腦”——它能讓機(jī)器人在收到信號(hào)后瞬間做出最合適的動(dòng)作。王東林介紹,這套由西湖團(tuán)隊(duì)完全自研的算法,比國(guó)際上其他團(tuán)隊(duì)的同類技術(shù)領(lǐng)先至少6個(gè)月。

_url=http%3A%2F%2Fdingyue.ws.126.net%2F2026%2F0323%2Fca202ef5j00tcbmg6001wd000p000e2g.jpg

“泰坦o1”在打架子鼓

“目前市面上看到的機(jī)器人已經(jīng)能跑能跳能比武,但其實(shí)基本靠提前編程?!蓖鯑|林說(shuō),那就好像“背課文”,需要反復(fù)訓(xùn)練才能做到一字不差,而這正是傳統(tǒng)機(jī)器人的最大技術(shù)瓶頸——由于缺乏通用的動(dòng)作模型,一套程序只能對(duì)應(yīng)一套動(dòng)作,機(jī)器人無(wú)法舉一反三。

而GAE這個(gè)“通用小腦”則能讓機(jī)器人即使遇到?jīng)]做過(guò)的動(dòng)作,也能輕松應(yīng)對(duì)。而且,它還具備“跨本體”能力,很多不同結(jié)構(gòu)、不同尺寸的機(jī)器人都能搭載這套大模型。

“ChatGPT讓AI能理解并生成各種語(yǔ)言,擁有語(yǔ)言的泛化能力;Sora能生成各種視頻畫面,擁有視覺(jué)的泛化能力?!蓖鯑|林說(shuō),GAE則讓機(jī)器人能模仿和執(zhí)行各種人類動(dòng)作,是機(jī)器人領(lǐng)域第一個(gè)實(shí)現(xiàn)動(dòng)作泛化的大模型。

GAE的問(wèn)世離不開長(zhǎng)期的技術(shù)積累與數(shù)據(jù)支撐。此前,王東林團(tuán)隊(duì)已在四足機(jī)器人(機(jī)器狗)、人形機(jī)器人領(lǐng)域深耕多年,積累了豐富的機(jī)器人運(yùn)動(dòng)控制技術(shù)。同時(shí),他們還擁有全球領(lǐng)先、國(guó)內(nèi)最大的高質(zhì)量全身運(yùn)動(dòng)數(shù)據(jù)集,包含了人類各種日常動(dòng)作、復(fù)雜動(dòng)作的詳細(xì)數(shù)據(jù),為這顆“通用小腦”提供了充足的“學(xué)習(xí)素材”。

其實(shí),“分身體驗(yàn)”只是一個(gè)開始。王東林表示,泰坦o1更重要的意義在于可替代人類進(jìn)入高風(fēng)險(xiǎn)場(chǎng)景,如消防救援、礦區(qū)作業(yè)、高空維護(hù)等。

2.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。