《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 前沿專訪 商湯科技欒青 :人工智能的基礎是現(xiàn)實世界數(shù)字化

前沿專訪 商湯科技欒青 :人工智能的基礎是現(xiàn)實世界數(shù)字化

2022-04-06
來源:人民資訊

《科創(chuàng)板日報》(上海,記者 黃心怡)隨著元宇宙概念的興起,AR/VR與人工智能的結合備受關注。想要構建元宇宙,“沉浸感”至關重要,而兩者的融合,將推動全新的用戶體驗以及人們與世界互動的新方式。Frost

近日,商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理欒青接受了《科創(chuàng)板日報》記者的專訪,分享了對于AR/VR與AI結合的應用前景與挑戰(zhàn)的看法。

欒青認為,AI是把現(xiàn)實世界數(shù)字化的重要工具。有了人工智能,就可以在虛擬世界里更快生成人、物、場景,大大降低元宇宙的構建門檻和成本。AR/VR與AI的結合,能跨行業(yè)解決很多不同問題。除了游戲、社交外,在工業(yè)、建筑、醫(yī)療等產(chǎn)業(yè)數(shù)字化領域,也有比較多的應用空間。

不過,欒青也指出,目前相關產(chǎn)業(yè)還是處于初期發(fā)展的階段,不管是硬件體驗、內容生成平臺,還是所涉及的經(jīng)濟系統(tǒng)、授權認證系統(tǒng)等均需時間來建立。五年通常被認為是硬件的一個迭代周期,而最終的成熟時間依然很難預測。但在終極的數(shù)字世界建立之前,會有比較多的雛形形態(tài),能夠解決日常生活中的一些問題。

人工智能的核心,在于持續(xù)把現(xiàn)實世界數(shù)字化

《科創(chuàng)板日報》: AI 與AR/VR的結合,是業(yè)內較為關注的熱點,您認為AI將會為元宇宙帶來哪些價值?

欒青:不管是稱其為元宇宙,還是叫混合現(xiàn)實,或者數(shù)字世界也好,類似的概念已經(jīng)存在非常久了。目前來看,AI所起到的作用主要包括三個方面。

首先,人需要擁有一個新的身份,AI將幫助大家以數(shù)字分身Avatar,更好地進入到虛擬世界里;其次是虛擬世界的多模態(tài)人機交互體驗,即這些數(shù)字人對不同的虛擬世界、不同服務進行人機的交互;第三,虛擬要與真實結合,AI可以更快速地構建虛擬世界。

《科創(chuàng)板日報》:當下已經(jīng)有哪些落地的應用場景?

欒青:目前所基于的載體是各類屏幕、電子設備,比如手機、電腦、大屏,當然還有開始初步應用的VR和AR眼鏡。

在To C的應用方面,包括了各種各樣的VR社交應用、會議系統(tǒng)等。在To B的方向,較為常見的是通過智能數(shù)字人,來替代某一項服務的重復性勞動。比如在商場、銀行、醫(yī)院等,數(shù)字人可以幫助前臺來完成刷卡、來訪登記等這些簡單、重復的工作。

AI還能實現(xiàn)三維內容的快速生成,比如通過無人機或者手機快速掃描,就可以把現(xiàn)實場景在數(shù)字空間里建立起來。這在智慧城市的管理,智能遙感技術的應用已經(jīng)非常多了。

在今年冬奧會期間,我們就對冰壺賽場冰立方的整個場館進行了三維數(shù)字化。通過AI技術捕捉冰壺在三維場景中的位置,成功實現(xiàn)了在超大空間范圍內,遠距離精準檢測并識別定位跟蹤可能被遮擋的運動冰壺。不僅如此,我們還通過“虛實結合”的方式,在現(xiàn)場大屏和咪咕視頻還原冰壺的運動軌跡曲線。這不僅可以幫助運動員分析研判對戰(zhàn)形式,適時調整戰(zhàn)術,還能讓觀眾更好地了解和感受冰壺運動的精髓。

《科創(chuàng)板日報》:完成對水立方場景的三維數(shù)字化重建,大概需要多久時間?

欒青:我們在場館內走一圈的時間大概是十幾、二十分鐘,然后在兩個小時之內就能把整個水立方冰壺比賽場館進行完整建模。這還是普通服務器的建模速度,如果使用性能更強的服務器,還有可能會更快。

《科創(chuàng)板日報》:AI為現(xiàn)實世界數(shù)字化所帶來的效率提升,您有沒有相關的數(shù)據(jù)?

欒青:比如,過去建立一個數(shù)字人,平均時長大概剩3-4個月。通過AI的優(yōu)化之后,在初步情況下可達到一個月以內。未來我們還將會把整個流程優(yōu)化到以天為單位的級別,這樣可以讓很多行業(yè)高效率使用自己的虛擬形象代言人,這是我們正在努力的方向。

可以說,現(xiàn)實世界數(shù)字化,是AI最核心在做的事情。如何更快生成人、物、場景,降低成本和門檻,而不是需要專業(yè)的設計師花很長時間才能做完。

《科創(chuàng)板日報》:所謂現(xiàn)實世界數(shù)字化,在產(chǎn)業(yè)化場景也有應用空間,比如說像工業(yè)領域一直在提的數(shù)字孿生。

欒青:是的,三維建模和數(shù)字化管理是比較通用的技能,可以跨行業(yè)解決很多不同問題。在工業(yè)、建筑、醫(yī)療等等,都有比較多的可能性。

其中,工業(yè)是非常典型的場景。我們也實現(xiàn)了許多工廠,包括對工業(yè)園區(qū)、工業(yè)廠房等的快速三維建模。通過快速三維建模后,對現(xiàn)有的各種攝像頭設備或者其他分配的信號進行連接,就形成了一個典型的數(shù)字孿生場景。

AI的優(yōu)勢在于,不需要設計師進行場景的三維重建,這是一項較為勞動力密集的工作。我們用普通的民用攝像頭產(chǎn)品,甚至手機圍繞現(xiàn)場走一圈就可以把場景快速地建立出來。

而且這些部署的攝像頭,可以實現(xiàn)三維高清定位,快速地標定至三維的空間位置中,這樣不管廠區(qū)還是園區(qū)的數(shù)字化管理就會非常高效地進行。

數(shù)據(jù)化和硬件體驗是兩大挑戰(zhàn)

《科創(chuàng)板日報》:“AI+XR”的結合應用還是處于初期發(fā)展階段,您覺得可能還存在哪些挑戰(zhàn)?

欒青:挑戰(zhàn)主要有兩個方面。

首先是體驗。這是需要全行業(yè)一起解決的事情,包括大家常說的VR或AR內容生態(tài),依賴整個行業(yè)一系列的技術提升,把整個體驗和內容建立起來。

其次則是數(shù)據(jù)化。虛擬世界或者說數(shù)字世界的存在,最終要幫助到真實世界解決實際的問題。但挑戰(zhàn)在于,很多的場景是具有長尾效應。比如在工廠,有些設備是在別的廠區(qū)見不到的,或者在這個特殊行業(yè)才擁有的,那就需要進行一系列長尾內容的數(shù)據(jù)化。如何高效率低成本識別不同的內容,并且實時的數(shù)據(jù)化到我們系統(tǒng)當中,這也是一大挑戰(zhàn)。

《科創(chuàng)板日報》:虛擬現(xiàn)實應用要真正發(fā)展起來的話,可能涉及到哪些關鍵產(chǎn)業(yè)鏈?

欒青:首先硬件的產(chǎn)業(yè)鏈肯定是第一步。必須采用大家習慣、能夠日常使用的體驗方式,才能普及。就像手機如果非常重,又很昂貴,那么大家不太可能用起來,很多應用也無從落腳。

所以,硬件成本的降低,以及重量、散熱、耗能等的提升,仍然要不斷去攻克的瓶頸。由此來看,光學顯示,包括輕量化的芯片等,應該都會有較強的發(fā)展空間。同時,基于硬件的各種智能化,包括手勢識別、面部驅動,三維人建模等內容工具,也亟待發(fā)展。

內容生成平臺也非常關鍵。三維比二維的內容制作要復雜很多。以前可能只有游戲廠商,需要做復雜的三維內容,但投入也是非常大的。如果我們希望走向全民普適,比如銀行、商場、辦事大廳等,都進入到三維數(shù)字世界之中,你發(fā)現(xiàn)成本就會變得非常巨大。各種各樣高效的內容生產(chǎn)工具和平臺也會有一輪需要被突破的過程。

此外,如果所有人都需要在三維互聯(lián)網(wǎng)進行更深入地交流,那么大規(guī)模云端的協(xié)同性計算,也會有一個巨大的發(fā)展契機。當然,還包括經(jīng)濟系統(tǒng)、授權認證系統(tǒng)等,都要在這個體系下被建立起來。

看好數(shù)字文創(chuàng)和數(shù)字人

《科創(chuàng)板日報》:您預估成熟期需要多久呢?

欒青:現(xiàn)在還比較難預測。不過,在終極的數(shù)字世界建立之前,會有比較多的雛形形態(tài),可以解決日常生活中比較多的問題。

比如剛才提到的數(shù)字人在垂直領域的應用,已經(jīng)可以消除很多服務體驗和效率上的難點。并不一定非要有全新的硬件或者不同的內容生產(chǎn)生態(tài)。只要在專業(yè)領域做得比較好,就可以有效地提升生產(chǎn)效率。這種行業(yè)級別的應用,我們認為已經(jīng)到來了。

而全民的、普適性的三維互聯(lián)網(wǎng)級別,可能還需要一定的發(fā)展周期,大家常說5年是一個硬件迭代周期,我們也拭目以待。

《科創(chuàng)板日報》:目前比較有前景的應用,除了數(shù)字人之外還有哪些?

欒青:數(shù)字世界需要各種各樣的內容,人是一方面,物是另一方面。把很多現(xiàn)實物品進行數(shù)字化,也已經(jīng)成為一個重要的體驗環(huán)節(jié)。

在這方面,數(shù)字文創(chuàng)擁有比較大的發(fā)展契機。我們已經(jīng)與敦煌、故宮等大型IP合作,來進行數(shù)字內容的體驗提升,更好地展示中國傳統(tǒng)文化的魅力。

事實上,數(shù)字世界可以有更大的創(chuàng)造空間,展示現(xiàn)實文創(chuàng)產(chǎn)品展現(xiàn)不了的內容。過去是數(shù)字賦能實物,現(xiàn)在是實物賦能數(shù)字,通過AI/AR的方式,把虛擬的數(shù)字內容附著在實體上面,這是我們對數(shù)字文創(chuàng)的定義。

《科創(chuàng)板日報》:您在人工智能從事研究工作多年,您認為人工智能對人類而言,所具有的最大意義是什么?

欒青:人工智能本質上模擬了人類大腦處理信號的方式。在人工智能出現(xiàn)之前,計算機只能處理數(shù)字化的信號,沒有辦法表達自己的思想,依然需要人對這些信號進行解析,才讓其變得有意義。

人工智能出現(xiàn),首先是把現(xiàn)實世界數(shù)字化。這樣計算機在很多領域就能看懂現(xiàn)實世界的信號,而不用依靠人力。計算機可以自動地、主動去做一些事情,這樣提升了數(shù)據(jù)處理的效率。其核心是解決了信息入口的問題。也就是原先需要人進行輸入,現(xiàn)在整個世界的數(shù)據(jù)信息不斷自動地流入到計算世界里。

當然,人工智能不只是解決入口問題,還要進行各種三維數(shù)字內容生成,這是另一價值所在。這方面,人工智能可以把許多重復性勞動替代掉,也是我認為未來重要的發(fā)展方向。




1最后文章空三行圖片11.jpg


本站內容除特別聲明的原創(chuàng)文章之外,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。