123,123,123

英伟达发布业界首个专注于自动驾驶的视觉语言动作模型

日期： 2025-12-02

來源：IT之家

關鍵詞： 英伟达具身智能 PhysicalAI 自动驾驶机器人

12 月 2 日消息，英偉達周一宣布推出新的基礎設施與人工智能模型，旨在構(gòu)建“具身智能”（Physical AI）的核心技術基礎，包括能夠感知并與現(xiàn)實世界互動的機器人和自動駕駛車輛。

這家半導體巨頭在加利福尼亞州圣地亞哥舉行的 NeurIPS 人工智能大會上發(fā)布了 Alpamayo-R1—— 一款面向自動駕駛研究的開源推理型視覺語言模型。該公司稱，這是業(yè)界首個專注于自動駕駛領域的視覺語言動作模型。視覺語言模型能夠同時處理文本與圖像信息，使車輛能夠“看見”周圍環(huán)境，并基于所感知的內(nèi)容做出決策。

該新模型基于英偉達此前推出的 Cosmos-Reason 推理模型構(gòu)建，后者具備在響應前對決策進行邏輯推演的能力。英偉達最初于 2025 年 1 月發(fā)布了 Cosmos 模型系列，并于同年 8 月推出了更多擴展版本。

英偉達在一篇博客文章中指出，Alpamayo-R1 這類技術對于致力于實現(xiàn) L4 級自動駕駛的企業(yè)至關重要。L4 級自動駕駛指在特定區(qū)域和限定條件下實現(xiàn)完全自動駕駛。

英偉達希望，此類具備推理能力的模型能賦予自動駕駛車輛類似人類的“常識”，從而更妥善地應對復雜的駕駛場景中的細微決策。

目前，該新模型已在 GitHub 和 Hugging Face 平臺開源發(fā)布。

除發(fā)布新視覺模型外，英偉達還同步在 GitHub 上推出了名為“Cosmos Cookbook”的全套開發(fā)資源包，包含分步指南、推理工具及訓練后工作流，以幫助開發(fā)者針對自身應用場景更高效地使用和訓練 Cosmos 系列模型。該資源包涵蓋數(shù)據(jù)整理、合成數(shù)據(jù)生成以及模型評估等關鍵環(huán)節(jié)。

上述發(fā)布正值英偉達全力進軍具身智能領域，將其視為其先進 AI GPU 技術的新增長方向。

注意到，英偉達聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛多次表示，人工智能的下一波浪潮將是具身智能。今年夏天，英偉達首席科學家比爾?達利（Bill Dally）在接受 TechCrunch 采訪時也表達了相同觀點，并特別強調(diào)了具身智能在機器人領域的應用前景。

“我認為，機器人最終將成為全球的重要角色，而我們的目標就是打造所有機器人的‘大腦’，”達利當時表示，“要實現(xiàn)這一目標，我們必須從現(xiàn)在開始研發(fā)關鍵技術?！?/p>

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

英伟达发布业界首个专注于自动驾驶的视觉语言动作模型

日期： 2025-12-02

來源：IT之家

相關內(nèi)容