《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 業(yè)界動(dòng)態(tài) > 銀河通用發(fā)布全球首個(gè)產(chǎn)品級(jí)端到端具身FSD大模型

銀河通用發(fā)布全球首個(gè)產(chǎn)品級(jí)端到端具身FSD大模型

2025-06-03
來(lái)源:IT之家
關(guān)鍵詞: 銀河通用 具身大模型 TrackVLA

6月1日消息,銀河通用發(fā)布全球首個(gè)產(chǎn)品級(jí)端到端具身 FSD 大模型 —— TrackVLA,一款具備純視覺(jué)環(huán)境感知、語(yǔ)言指令驅(qū)動(dòng)、可自主推理、具備零樣本(Zero-Shot)泛化能力的具身大模型。

111.jpg

據(jù)了解,TrackVLA 是銀河通用推出的產(chǎn)品級(jí)導(dǎo)航大模型,純視覺(jué)環(huán)境感知、自然語(yǔ)言指令驅(qū)動(dòng)、端到端輸出語(yǔ)言和機(jī)器人動(dòng)作,是一個(gè)由仿真合成動(dòng)作數(shù)據(jù)訓(xùn)練的 " 視覺(jué) - 語(yǔ)言 - 動(dòng)作 "(Vision-Language-Action, VLA)大模型。它讓機(jī)器人擁有 " 聽(tīng) → 看 → 懂 → 走 " 的閉環(huán)運(yùn)動(dòng)能力:一雙眼睛看世界、一個(gè)智能 " 大腦 " 做推理,無(wú)需提前建圖、不依賴(lài)遙操控制,真正實(shí)現(xiàn)語(yǔ)言驅(qū)動(dòng)、泛化感知、自主推理、智能交互與運(yùn)動(dòng)。

TrackVLA 八大核心能力:

1. 聽(tīng)得懂你說(shuō)話,還能換人跟

你只需說(shuō)一句:" 跟著媽媽 ",它就能立即識(shí)別 " 媽媽 " 對(duì)應(yīng)的目標(biāo)位置。如果改口說(shuō) " 換成跟孩子 ",它也能瞬間切換對(duì)象,并通過(guò)語(yǔ)音回復(fù)確認(rèn)。甚至,Ta 還能跟蹤你的寵物。這背后,是模型具備的自然語(yǔ)言理解與目標(biāo)識(shí)別能力的協(xié)同工作。

2. 不怕人多也不跟錯(cuò)人

在人流密集的購(gòu)物中心中,面對(duì)復(fù)雜的場(chǎng)景、多變的環(huán)境中多個(gè)相似穿著的人,它能準(zhǔn)確識(shí)別原始目標(biāo)并長(zhǎng)時(shí)自主跟隨。通過(guò)空間理解和視覺(jué)記憶機(jī)制,避免 " 認(rèn)錯(cuò)人 "。

3. 丟了目標(biāo)能找回來(lái)

如果目標(biāo)走出視野,它不會(huì)原地 " 發(fā)呆 ",而是通過(guò)實(shí)時(shí)的空間智能和大模型推理能力根據(jù)目標(biāo)運(yùn)動(dòng)軌跡 " 分析出 " 目標(biāo)的大致位置,并規(guī)劃軌跡重新找回目標(biāo)。

4. 從沒(méi)見(jiàn)過(guò)的地方也能走

TrackVLA 不依賴(lài)建圖,靠純視覺(jué)輸入理解環(huán)境??稍诓灰蕾?lài)額外采集訓(xùn)練數(shù)據(jù)的情況下,直接部署在陌生商場(chǎng)、電梯、游樂(lè)區(qū)等環(huán)境,實(shí)現(xiàn)長(zhǎng)時(shí)穩(wěn)定自主跟隨。

5. 靈活避障,適應(yīng)復(fù)雜場(chǎng)景

在兒童游樂(lè)區(qū)、狹窄通道等復(fù)雜場(chǎng)景中,它能實(shí)時(shí)識(shí)別障礙物(包括兒童、玩具、地面水漬等),分析可通行區(qū)域,并可正確認(rèn)知自身本體能力,自主推理出自身構(gòu)型支持的合理路線。

6. 環(huán)境光線變化?不怕

從室外陽(yáng)光到室內(nèi)昏暗、從電梯鏡面反射到超市貨架夾縫,TrackVLA 展現(xiàn)出極強(qiáng)魯棒性,無(wú)需專(zhuān)門(mén)調(diào)參或切換模式。

7. 遠(yuǎn)程可視守護(hù),一目了然

通過(guò) App,你可以實(shí)時(shí)看到機(jī)器人眼中的第一視角,掌握家人動(dòng)態(tài)。系統(tǒng)還能主動(dòng)提醒風(fēng)險(xiǎn)行為(如小朋友奔跑、老人跌倒),提供 " 移動(dòng)守護(hù) "。

8. 技能涌現(xiàn)!

TrackVLA 不僅能穩(wěn)定跟隨人類(lèi),還可以泛化至任意移動(dòng)目標(biāo)。比如視頻最后展示了讓機(jī)器狗跟隨一只路上偶遇的動(dòng)物狗狗,其目標(biāo)形態(tài)、運(yùn)動(dòng)方式、遮擋情況都非常不確定。TrackVLA 也表現(xiàn)了同樣穩(wěn)定的跟隨能力,而這一能力是訓(xùn)練時(shí)從而教過(guò)的!

目前,該模型已搭載于宇樹(shù)機(jī)器狗化身 " 二寶保鏢 " 實(shí)現(xiàn)兒童看護(hù),在未訓(xùn)練過(guò)的真實(shí)場(chǎng)景中完成了嚴(yán)格的長(zhǎng)程驗(yàn)證。目前 TrackVLA 已在未訓(xùn)練過(guò)的真實(shí)場(chǎng)景中完成了嚴(yán)格的長(zhǎng)程驗(yàn)證:實(shí)現(xiàn)在超市中穿梭于人流和貨架之間,準(zhǔn)確跟隨母子;根據(jù)語(yǔ)音指令切換目標(biāo),并在兒童玩耍時(shí)發(fā)出提醒;可正確認(rèn)知自身本體能力,利用大模型自主推理分析;從電梯進(jìn)入陌生商場(chǎng),完成連續(xù)跟隨任務(wù);在人群密集的服裝店中穩(wěn)定識(shí)別并避讓他人干擾 ……


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。