12 月 2 日消息,英偉達周一宣布推出新的基礎設施與人工智能模型,旨在構建“具身智能”(Physical AI)的核心技術基礎,包括能夠感知并與現(xiàn)實世界互動的機器人和自動駕駛車輛。

這家半導體巨頭在加利福尼亞州圣地亞哥舉行的 NeurIPS 人工智能大會上發(fā)布了 Alpamayo-R1—— 一款面向自動駕駛研究的開源推理型視覺語言模型。該公司稱,這是業(yè)界首個專注于自動駕駛領域的視覺語言動作模型。視覺語言模型能夠同時處理文本與圖像信息,使車輛能夠“看見”周圍環(huán)境,并基于所感知的內(nèi)容做出決策。
該新模型基于英偉達此前推出的 Cosmos-Reason 推理模型構建,后者具備在響應前對決策進行邏輯推演的能力。英偉達最初于 2025 年 1 月發(fā)布了 Cosmos 模型系列,并于同年 8 月推出了更多擴展版本。
英偉達在一篇博客文章中指出,Alpamayo-R1 這類技術對于致力于實現(xiàn) L4 級自動駕駛的企業(yè)至關重要。L4 級自動駕駛指在特定區(qū)域和限定條件下實現(xiàn)完全自動駕駛。
英偉達希望,此類具備推理能力的模型能賦予自動駕駛車輛類似人類的“常識”,從而更妥善地應對復雜的駕駛場景中的細微決策。
目前,該新模型已在 GitHub 和 Hugging Face 平臺開源發(fā)布。
除發(fā)布新視覺模型外,英偉達還同步在 GitHub 上推出了名為“Cosmos Cookbook”的全套開發(fā)資源包,包含分步指南、推理工具及訓練后工作流,以幫助開發(fā)者針對自身應用場景更高效地使用和訓練 Cosmos 系列模型。該資源包涵蓋數(shù)據(jù)整理、合成數(shù)據(jù)生成以及模型評估等關鍵環(huán)節(jié)。
上述發(fā)布正值英偉達全力進軍具身智能領域,將其視為其先進 AI GPU 技術的新增長方向。
注意到,英偉達聯(lián)合創(chuàng)始人兼首席執(zhí)行官黃仁勛多次表示,人工智能的下一波浪潮將是具身智能。今年夏天,英偉達首席科學家比爾?達利(Bill Dally)在接受 TechCrunch 采訪時也表達了相同觀點,并特別強調(diào)了具身智能在機器人領域的應用前景。

“我認為,機器人最終將成為全球的重要角色,而我們的目標就是打造所有機器人的‘大腦’,”達利當時表示,“要實現(xiàn)這一目標,我們必須從現(xiàn)在開始研發(fā)關鍵技術。”

