《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 业界动态 > 英伟达发布业界首个专注于自动驾驶的视觉语言动作模型

英伟达发布业界首个专注于自动驾驶的视觉语言动作模型

2025-12-02
來源:IT之家

12 月 2 日消息,英偉達(dá)周一宣布推出新的基礎(chǔ)設(shè)施與人工智能模型,旨在構(gòu)建“具身智能”(Physical AI)的核心技術(shù)基礎(chǔ),包括能夠感知并與現(xiàn)實(shí)世界互動(dòng)的機(jī)器人自動(dòng)駕駛車輛。

6390026861809864531265963.jpg

這家半導(dǎo)體巨頭在加利福尼亞州圣地亞哥舉行的 NeurIPS 人工智能大會(huì)上發(fā)布了 Alpamayo-R1—— 一款面向自動(dòng)駕駛研究的開源推理型視覺語言模型。該公司稱,這是業(yè)界首個(gè)專注于自動(dòng)駕駛領(lǐng)域的視覺語言動(dòng)作模型。視覺語言模型能夠同時(shí)處理文本與圖像信息,使車輛能夠“看見”周圍環(huán)境,并基于所感知的內(nèi)容做出決策。

該新模型基于英偉達(dá)此前推出的 Cosmos-Reason 推理模型構(gòu)建,后者具備在響應(yīng)前對決策進(jìn)行邏輯推演的能力。英偉達(dá)最初于 2025 年 1 月發(fā)布了 Cosmos 模型系列,并于同年 8 月推出了更多擴(kuò)展版本。

英偉達(dá)在一篇博客文章中指出,Alpamayo-R1 這類技術(shù)對于致力于實(shí)現(xiàn) L4 級(jí)自動(dòng)駕駛的企業(yè)至關(guān)重要。L4 級(jí)自動(dòng)駕駛指在特定區(qū)域和限定條件下實(shí)現(xiàn)完全自動(dòng)駕駛。

英偉達(dá)希望,此類具備推理能力的模型能賦予自動(dòng)駕駛車輛類似人類的“常識(shí)”,從而更妥善地應(yīng)對復(fù)雜的駕駛場景中的細(xì)微決策。

目前,該新模型已在 GitHub 和 Hugging Face 平臺(tái)開源發(fā)布。

除發(fā)布新視覺模型外,英偉達(dá)還同步在 GitHub 上推出了名為“Cosmos Cookbook”的全套開發(fā)資源包,包含分步指南、推理工具及訓(xùn)練后工作流,以幫助開發(fā)者針對自身應(yīng)用場景更高效地使用和訓(xùn)練 Cosmos 系列模型。該資源包涵蓋數(shù)據(jù)整理、合成數(shù)據(jù)生成以及模型評估等關(guān)鍵環(huán)節(jié)。

上述發(fā)布正值英偉達(dá)全力進(jìn)軍具身智能領(lǐng)域,將其視為其先進(jìn) AI GPU 技術(shù)的新增長方向。

注意到,英偉達(dá)聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛多次表示,人工智能的下一波浪潮將是具身智能。今年夏天,英偉達(dá)首席科學(xué)家比爾?達(dá)利(Bill Dally)在接受 TechCrunch 采訪時(shí)也表達(dá)了相同觀點(diǎn),并特別強(qiáng)調(diào)了具身智能在機(jī)器人領(lǐng)域的應(yīng)用前景。

6390026860500990129425787.png

“我認(rèn)為,機(jī)器人最終將成為全球的重要角色,而我們的目標(biāo)就是打造所有機(jī)器人的‘大腦’,”達(dá)利當(dāng)時(shí)表示,“要實(shí)現(xiàn)這一目標(biāo),我們必須從現(xiàn)在開始研發(fā)關(guān)鍵技術(shù)?!?/p>


subscribe.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。