在英偉達GTC大會期間,英偉達(NVIDIA)首席科學家兼研究高級副總裁Bill Dally、英偉達AI研究副總裁Sanja Fidler與智東西等全球媒體進行交流,分享了NVIDIA Research的進展,并現(xiàn)場演示英偉達最新文生3D模型LATTE3D。
LATTE3D模型就像一臺虛擬3D打印機。只需在文本框輸入文字描述,在單張消費級GPU上運行,不到1秒時間,該模型就能按要求生成對應的物體和動物的幾個不同的3D形狀,供創(chuàng)建者選擇,再在幾分鐘內(nèi)優(yōu)化成更高的質(zhì)量。而3D形狀可以隨意放大、旋轉(zhuǎn),360度無死角。
“一年前,AI模型需要1小時才能生成這種質(zhì)量的3D視覺效果,而目前的技術(shù)水平大約是10到12秒?!盨anja Fidler說。
現(xiàn)場演示了讓LATTE3D生成小蛋糕、豬豬氣球、踩滑板且戴著高帽子的針織鴨、踩著滑雪板并戴著聚會帽的小兔子。全程都很絲滑迅速,接近實時生成。生成的3D素材能直接導入圖形軟件應用程序或平臺中,比如Omniverse平臺。
對于開發(fā)視頻游戲、廣告活動、設(shè)計項目或虛擬機器人訓練場地等應用來說,這都是個看起來很有吸引力的3D素材創(chuàng)建工具。
Bill Dally說,NVIDIA Research為未來的成功播下種子,既有登月項目,又有很多研究小組,研究方向包括GPU存儲系統(tǒng)、編程系統(tǒng)、網(wǎng)絡(luò)、架構(gòu)、超大規(guī)模集成電路(VLSI)、圖形、感知與學習等。這些研究塑造了英偉達的與眾不同。
據(jù)Bill Dally分享,NVIDIA Research團隊有三個原則:1、希望以最少的努力獲得最大的回報;2、提高影響力,而不是出版物記錄;3、希望與產(chǎn)品保持緊密的聯(lián)系。
NVIDIA Research由全球數(shù)百名科學家和工程師組成,專注于AI、計算機圖形學、計算機視覺、自動駕駛汽車和機器人等主題。很多源自研究院的技術(shù),如OptiX、CuDNN、光線追蹤算法和硬件、Volta SM、Flip-Flops、NVSwitch、DLSS等,都成功轉(zhuǎn)化成商業(yè)用途。
其研究團隊分布在世界各地。面向3D生成式AI模型的新模型LATTE3D便是由英偉達位于加拿大多倫多的AI實驗室團隊研發(fā)的。該團隊還研發(fā)過GANverse3D、GET3D、Magic3D、ASE、GameGAN、VideoLDM等模型。
LATTE3D使用英偉達A100 GPU進行訓練,模型先生成神經(jīng)3D形狀,然后用圖像擴散模型作為老師來對渲染圖像進行反饋。除了3D形狀外,該模型還接受了使用ChatGPT生成的各種文本提示詞的訓練,以提高模型處理用戶描述特定3D對象的各種短語的能力。比如,它能理解以各種犬類為特征的提示應該都生成類似狗的形狀。
當研究人員在特定的動物和日常用品數(shù)據(jù)集上訓練LATTE3D時,開發(fā)人員可使用相同的模型架構(gòu)在其他數(shù)據(jù)類型上訓練AI。
例如,如果在3D植物數(shù)據(jù)集上進行訓練,LATTE3D可幫助景觀設(shè)計師在與客戶進行頭腦風暴時快速填充樹木,開花灌木和多肉植物的花園渲染。如果對家用物品進行訓練,該模型可以生成物品來填充家庭場景的3D模擬,開發(fā)人員可以用它來訓練個人助理機器人,然后再在現(xiàn)實世界中進行測試和部署。