人形機器人一般是指具有與人類類似的身體結(jié)構(gòu)和運動方式(雙足行走、雙手協(xié)作等)的智能機器人。人形機器人既需要極強的運動控制能力,也需要具備非常強的感知計算能力。人形機器人更能適應(yīng)于各類現(xiàn)實生活場景,使得機器人能從“專用”轉(zhuǎn)向“通用”,以此形成規(guī)模效應(yīng)和降低成本。
隨著人工智能技術(shù)不斷發(fā)展,通過結(jié)合人工智能、機械工程和傳感技術(shù),人形機器人可以模仿人類的動作和行為,執(zhí)行各種任務(wù)。
NVIDIA 機器人與邊緣計算副總裁 Deepu Talla 表示,技術(shù)進步和仿真環(huán)境的改進是激發(fā)人形機器人即將爆發(fā)的兩大源動力。
生成式人工智能和大語言模型技術(shù)的進步,打破了數(shù)字應(yīng)用和物理應(yīng)用間的界限,而仿真環(huán)境的改進,使得機器人研發(fā)不再受限于物理環(huán)境,從而使得機器人技術(shù)獲得了跨越式發(fā)展。
為了推動機器人從“專用”走向“通用”,NVIDIA以其在計算領(lǐng)域突破性創(chuàng)新成果為基礎(chǔ),面向機器人領(lǐng)域推出了集合訓練、仿真和計算的“三臺計算機”解決方案。
第一臺計算機用于訓練:這是用于訓練AI模型的系統(tǒng)。訓練通常在云端、數(shù)據(jù)中心或像NVIDIA DGX這樣的強大系統(tǒng)上進行,這是構(gòu)建機器人“大腦”的關(guān)鍵步驟。
第二臺計算機用于仿真:一旦訓練完成,就需要進行測試。以往的標準是物理測試,但這種方式既慢又昂貴,還存在風險。更好的解決方案是引入一個“仿真層”,即“數(shù)字孿生”,在虛擬環(huán)境中完成測試。仿真允許在大規(guī)模、快速且安全的條件下運行數(shù)千種場景測試,無需受到真實世界時間或成本的限制。
第三臺計算機用于部署:第三種系統(tǒng)安裝在機器人內(nèi)部,它就是操作物理機器人的“大腦”。對NVIDIA來說,這可以通過像Jetson或AGX這樣的系統(tǒng)來實現(xiàn)。
Deepu Talla 表示,通過整合上述三個系統(tǒng),在機器人正式部署之前,通過仿真進行成千上萬次測試,可以顯著縮短機器人的開發(fā)時間,加速整個流程。
NVIDIA,并不直接制造機器人,而是通過構(gòu)建一個包含三種計算系統(tǒng)以及相關(guān)軟件工具和工作流程的平臺,幫助機器人專家、研究人員、機械工程師和測試人員更輕松地開發(fā)機器人解決方案。
與ChatGPT大模型可以通過數(shù)據(jù)訓練獲得進步不同的是,應(yīng)用于機器人的大模型還無法獲得執(zhí)行各種動作的海量數(shù)據(jù)。目前僅僅通過使用Apple Vision Pro或動作捕捉套裝來記錄人類動作的示范,而這些方法雖能提供有用的數(shù)據(jù),但規(guī)模太小,無法完全滿足機器人模型的訓練需求。沒有足夠的數(shù)據(jù),機器人模型無法進行有效的訓練、測試或部署。這使得數(shù)據(jù)的收集和生成成為解決機器人開發(fā)挑戰(zhàn)的關(guān)鍵第一步。
為了解決這一問題,合成數(shù)據(jù)生成變得至關(guān)重要。
銀河通用創(chuàng)始人、CTO王鶴表示,通過合成數(shù)據(jù),可以生成特定動作(例如抓取物體)的無數(shù)種變化,或者構(gòu)建完整的虛擬環(huán)境。通過將少量的現(xiàn)實世界數(shù)據(jù)與使用像NVIDIA Cosmos這樣的工具生成的大規(guī)模合成數(shù)據(jù)相結(jié)合,可以克服機器人技術(shù)中數(shù)據(jù)稀缺的問題,解決機器人領(lǐng)域的基礎(chǔ)數(shù)據(jù)挑戰(zhàn)。
NVIDIA Cosmos是一個“世界基礎(chǔ)模型”,可以生成高度逼真、類似視頻游戲的環(huán)境,用于機器人訓練。在這里,“世界”指的并不是地球,而是機器人交互的環(huán)境,例如機器人操作的房間內(nèi)可見區(qū)域。通過采用這種結(jié)合現(xiàn)實與合成數(shù)據(jù)的創(chuàng)新工作流,NVIDIA正為機器人領(lǐng)域的重大進步鋪平道路。