123,123

北京大学与智元机器人联合实验室发布OmniManip架构

日期： 2025-01-23

來(lái)源：IT之家

關(guān)鍵詞： 智元机器人 OmniManip 北京大学

1 月 23 日消息，如何將視覺(jué)語(yǔ)?基礎(chǔ)模型（Vision Language Models, VLMs）應(yīng)?于機(jī)器?以實(shí)現(xiàn)通?操作是具身智能領(lǐng)域的?個(gè)核?問(wèn)題，這??標(biāo)的實(shí)現(xiàn)受兩?關(guān)鍵挑戰(zhàn)制約：

VLM 缺少精確的 3D 理解能?：通過(guò)對(duì)?學(xué)習(xí)范式訓(xùn)練、僅以 2D 圖像 / ?本作為輸?的 VLM 的天然局限；

?法輸出低層次動(dòng)作：將 VLM 在機(jī)器?數(shù)據(jù)上進(jìn)?微調(diào)以得到視覺(jué) - 語(yǔ)? - 動(dòng)作（VLA）模型是?種有前景的解決?案，但?前仍受到數(shù)據(jù)收集成本和泛化能?的限制。

上海智元新創(chuàng)技術(shù)有限公司官方今日發(fā)文稱(chēng)，北?攜?智元機(jī)器?團(tuán)隊(duì)提出 OmniManip 架構(gòu)，基于以對(duì)象為中?的 3D 交互基元，將 VLM 的高層次推理能力轉(zhuǎn)化為機(jī)器?的低層次高精度動(dòng)作。

針對(duì)?模型幻覺(jué)問(wèn)題和真實(shí)環(huán)境操作的不確定性，OmniManip 引?了 VLM 規(guī)劃和機(jī)器?執(zhí)?的雙閉環(huán)系統(tǒng)設(shè)計(jì)，實(shí)現(xiàn)了操作性能突破。目前項(xiàng)?主?與論?已上線，代碼與測(cè)試平臺(tái)即將開(kāi)源。

從智元機(jī)器人官方獲悉，OmniManip 的關(guān)鍵設(shè)計(jì)包括：

基于 VLM 的任務(wù)解析：利? VLM 強(qiáng)?的常識(shí)推理能?，將任務(wù)分解為多個(gè)結(jié)構(gòu)化階段（Stages），每個(gè)階段明確指定了主動(dòng)物體（Active）、被動(dòng)物體（Passive）和動(dòng)作類(lèi)型（Action）。

以物體為中?的交互基元作為空間約束：通過(guò) 3D 基座模型?成任務(wù)相關(guān)物體的 3D 模型和規(guī)范化空間（canonical space），使 VLM 能夠直接在該空間中采樣 3D 交互基元，作為 Action 的空間約束，從?優(yōu)化求解出 Active 物體在 Passive 物體規(guī)范坐標(biāo)系下的?標(biāo)交互姿態(tài)。

閉環(huán) VLM 規(guī)劃：將?標(biāo)交互姿態(tài)下的 Active / Passive 物體渲染成圖像，由 VLM 評(píng)估與重采樣，實(shí)現(xiàn) VLM 對(duì)?身規(guī)劃結(jié)果的閉環(huán)調(diào)整。

閉環(huán)機(jī)器?執(zhí)?：通過(guò)物體 6D 姿態(tài)跟蹤器實(shí)時(shí)更新 Active / Passive 物體的位姿，轉(zhuǎn)換為機(jī)械臂末端執(zhí)?器的操作軌跡，實(shí)現(xiàn)閉環(huán)執(zhí)?。

此外，OmniManip 具備通?泛化能?，不受特定場(chǎng)景和物體限制。團(tuán)隊(duì)已將其應(yīng)?于數(shù)字資產(chǎn)?動(dòng)標(biāo)注 / 合成管道，實(shí)現(xiàn)?規(guī)模的機(jī)器?軌跡?動(dòng)采集。該研究團(tuán)隊(duì)將開(kāi)源泛化操作?規(guī)模數(shù)據(jù)集和對(duì)應(yīng)的仿真評(píng)測(cè)基準(zhǔn)。

據(jù)IT之家此前報(bào)道，以“天才少年”身份加入華為的稚暉君于 2022 年底宣布離職，創(chuàng)業(yè)智元機(jī)器人。2024 年 9 月 3 日，智元機(jī)器人完成 A++++++ 輪融資，估值已超過(guò) 70 億元，得到了包括北汽、上汽、比亞迪在內(nèi)的國(guó)內(nèi)汽車(chē)巨頭支持。

目前，智元機(jī)器人量產(chǎn)的第 1000 臺(tái)通用具身機(jī)器人已于本月（1 月 6 日）正式下線，其中包括 731 臺(tái)雙足人形機(jī)器人（遠(yuǎn)征 A2 / 靈犀 X1）和 269 臺(tái)輪式通用機(jī)器人（遠(yuǎn)征 A2-D / A2-W）。

Magazine.Subscription.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

北京大学与智元机器人联合实验室发布OmniManip架构

日期： 2025-01-23

來(lái)源：IT之家

相關(guān)內(nèi)容