6月1日消息,銀河通用發(fā)布全球首個(gè)產(chǎn)品級(jí)端到端具身 FSD 大模型 —— TrackVLA,一款具備純視覺(jué)環(huán)境感知、語(yǔ)言指令驅(qū)動(dòng)、可自主推理、具備零樣本(Zero-Shot)泛化能力的具身大模型。
據(jù)了解,TrackVLA 是銀河通用推出的產(chǎn)品級(jí)導(dǎo)航大模型,純視覺(jué)環(huán)境感知、自然語(yǔ)言指令驅(qū)動(dòng)、端到端輸出語(yǔ)言和機(jī)器人動(dòng)作,是一個(gè)由仿真合成動(dòng)作數(shù)據(jù)訓(xùn)練的 " 視覺(jué) - 語(yǔ)言 - 動(dòng)作 "(Vision-Language-Action, VLA)大模型。它讓機(jī)器人擁有 " 聽(tīng) → 看 → 懂 → 走 " 的閉環(huán)運(yùn)動(dòng)能力:一雙眼睛看世界、一個(gè)智能 " 大腦 " 做推理,無(wú)需提前建圖、不依賴(lài)遙操控制,真正實(shí)現(xiàn)語(yǔ)言驅(qū)動(dòng)、泛化感知、自主推理、智能交互與運(yùn)動(dòng)。
TrackVLA 八大核心能力:
1. 聽(tīng)得懂你說(shuō)話,還能換人跟
你只需說(shuō)一句:" 跟著媽媽 ",它就能立即識(shí)別 " 媽媽 " 對(duì)應(yīng)的目標(biāo)位置。如果改口說(shuō) " 換成跟孩子 ",它也能瞬間切換對(duì)象,并通過(guò)語(yǔ)音回復(fù)確認(rèn)。甚至,Ta 還能跟蹤你的寵物。這背后,是模型具備的自然語(yǔ)言理解與目標(biāo)識(shí)別能力的協(xié)同工作。
2. 不怕人多也不跟錯(cuò)人
在人流密集的購(gòu)物中心中,面對(duì)復(fù)雜的場(chǎng)景、多變的環(huán)境中多個(gè)相似穿著的人,它能準(zhǔn)確識(shí)別原始目標(biāo)并長(zhǎng)時(shí)自主跟隨。通過(guò)空間理解和視覺(jué)記憶機(jī)制,避免 " 認(rèn)錯(cuò)人 "。
3. 丟了目標(biāo)能找回來(lái)
如果目標(biāo)走出視野,它不會(huì)原地 " 發(fā)呆 ",而是通過(guò)實(shí)時(shí)的空間智能和大模型推理能力根據(jù)目標(biāo)運(yùn)動(dòng)軌跡 " 分析出 " 目標(biāo)的大致位置,并規(guī)劃軌跡重新找回目標(biāo)。
4. 從沒(méi)見(jiàn)過(guò)的地方也能走
TrackVLA 不依賴(lài)建圖,靠純視覺(jué)輸入理解環(huán)境??稍诓灰蕾?lài)額外采集訓(xùn)練數(shù)據(jù)的情況下,直接部署在陌生商場(chǎng)、電梯、游樂(lè)區(qū)等環(huán)境,實(shí)現(xiàn)長(zhǎng)時(shí)穩(wěn)定自主跟隨。
5. 靈活避障,適應(yīng)復(fù)雜場(chǎng)景
在兒童游樂(lè)區(qū)、狹窄通道等復(fù)雜場(chǎng)景中,它能實(shí)時(shí)識(shí)別障礙物(包括兒童、玩具、地面水漬等),分析可通行區(qū)域,并可正確認(rèn)知自身本體能力,自主推理出自身構(gòu)型支持的合理路線。
6. 環(huán)境光線變化?不怕
從室外陽(yáng)光到室內(nèi)昏暗、從電梯鏡面反射到超市貨架夾縫,TrackVLA 展現(xiàn)出極強(qiáng)魯棒性,無(wú)需專(zhuān)門(mén)調(diào)參或切換模式。
7. 遠(yuǎn)程可視守護(hù),一目了然
通過(guò) App,你可以實(shí)時(shí)看到機(jī)器人眼中的第一視角,掌握家人動(dòng)態(tài)。系統(tǒng)還能主動(dòng)提醒風(fēng)險(xiǎn)行為(如小朋友奔跑、老人跌倒),提供 " 移動(dòng)守護(hù) "。
8. 技能涌現(xiàn)!
TrackVLA 不僅能穩(wěn)定跟隨人類(lèi),還可以泛化至任意移動(dòng)目標(biāo)。比如視頻最后展示了讓機(jī)器狗跟隨一只路上偶遇的動(dòng)物狗狗,其目標(biāo)形態(tài)、運(yùn)動(dòng)方式、遮擋情況都非常不確定。TrackVLA 也表現(xiàn)了同樣穩(wěn)定的跟隨能力,而這一能力是訓(xùn)練時(shí)從而教過(guò)的!
目前,該模型已搭載于宇樹(shù)機(jī)器狗化身 " 二寶保鏢 " 實(shí)現(xiàn)兒童看護(hù),在未訓(xùn)練過(guò)的真實(shí)場(chǎng)景中完成了嚴(yán)格的長(zhǎng)程驗(yàn)證。目前 TrackVLA 已在未訓(xùn)練過(guò)的真實(shí)場(chǎng)景中完成了嚴(yán)格的長(zhǎng)程驗(yàn)證:實(shí)現(xiàn)在超市中穿梭于人流和貨架之間,準(zhǔn)確跟隨母子;根據(jù)語(yǔ)音指令切換目標(biāo),并在兒童玩耍時(shí)發(fā)出提醒;可正確認(rèn)知自身本體能力,利用大模型自主推理分析;從電梯進(jìn)入陌生商場(chǎng),完成連續(xù)跟隨任務(wù);在人群密集的服裝店中穩(wěn)定識(shí)別并避讓他人干擾 ……