《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 前沿專訪 商湯科技欒青 :人工智能的基礎(chǔ)是現(xiàn)實世界數(shù)字化

前沿專訪 商湯科技欒青 :人工智能的基礎(chǔ)是現(xiàn)實世界數(shù)字化

2022-04-06
來源:人民資訊
關(guān)鍵詞: 商湯科技 人工智能 元宇宙

《科創(chuàng)板日報》(上海,記者 黃心怡)隨著元宇宙概念的興起,AR/VR與人工智能的結(jié)合備受關(guān)注。想要構(gòu)建元宇宙,“沉浸感”至關(guān)重要,而兩者的融合,將推動全新的用戶體驗以及人們與世界互動的新方式。Frost

近日,商湯科技數(shù)字空間事業(yè)群數(shù)字文娛事業(yè)部總經(jīng)理欒青接受了《科創(chuàng)板日報》記者的專訪,分享了對于AR/VR與AI結(jié)合的應(yīng)用前景與挑戰(zhàn)的看法。

欒青認(rèn)為,AI是把現(xiàn)實世界數(shù)字化的重要工具。有了人工智能,就可以在虛擬世界里更快生成人、物、場景,大大降低元宇宙的構(gòu)建門檻和成本。AR/VR與AI的結(jié)合,能跨行業(yè)解決很多不同問題。除了游戲、社交外,在工業(yè)、建筑、醫(yī)療等產(chǎn)業(yè)數(shù)字化領(lǐng)域,也有比較多的應(yīng)用空間。

不過,欒青也指出,目前相關(guān)產(chǎn)業(yè)還是處于初期發(fā)展的階段,不管是硬件體驗、內(nèi)容生成平臺,還是所涉及的經(jīng)濟(jì)系統(tǒng)、授權(quán)認(rèn)證系統(tǒng)等均需時間來建立。五年通常被認(rèn)為是硬件的一個迭代周期,而最終的成熟時間依然很難預(yù)測。但在終極的數(shù)字世界建立之前,會有比較多的雛形形態(tài),能夠解決日常生活中的一些問題。

人工智能的核心,在于持續(xù)把現(xiàn)實世界數(shù)字化

《科創(chuàng)板日報》: AI 與AR/VR的結(jié)合,是業(yè)內(nèi)較為關(guān)注的熱點,您認(rèn)為AI將會為元宇宙帶來哪些價值?

欒青:不管是稱其為元宇宙,還是叫混合現(xiàn)實,或者數(shù)字世界也好,類似的概念已經(jīng)存在非常久了。目前來看,AI所起到的作用主要包括三個方面。

首先,人需要擁有一個新的身份,AI將幫助大家以數(shù)字分身Avatar,更好地進(jìn)入到虛擬世界里;其次是虛擬世界的多模態(tài)人機(jī)交互體驗,即這些數(shù)字人對不同的虛擬世界、不同服務(wù)進(jìn)行人機(jī)的交互;第三,虛擬要與真實結(jié)合,AI可以更快速地構(gòu)建虛擬世界。

《科創(chuàng)板日報》:當(dāng)下已經(jīng)有哪些落地的應(yīng)用場景?

欒青:目前所基于的載體是各類屏幕、電子設(shè)備,比如手機(jī)、電腦、大屏,當(dāng)然還有開始初步應(yīng)用的VR和AR眼鏡。

在To C的應(yīng)用方面,包括了各種各樣的VR社交應(yīng)用、會議系統(tǒng)等。在To B的方向,較為常見的是通過智能數(shù)字人,來替代某一項服務(wù)的重復(fù)性勞動。比如在商場、銀行、醫(yī)院等,數(shù)字人可以幫助前臺來完成刷卡、來訪登記等這些簡單、重復(fù)的工作。

AI還能實現(xiàn)三維內(nèi)容的快速生成,比如通過無人機(jī)或者手機(jī)快速掃描,就可以把現(xiàn)實場景在數(shù)字空間里建立起來。這在智慧城市的管理,智能遙感技術(shù)的應(yīng)用已經(jīng)非常多了。

在今年冬奧會期間,我們就對冰壺賽場冰立方的整個場館進(jìn)行了三維數(shù)字化。通過AI技術(shù)捕捉冰壺在三維場景中的位置,成功實現(xiàn)了在超大空間范圍內(nèi),遠(yuǎn)距離精準(zhǔn)檢測并識別定位跟蹤可能被遮擋的運動冰壺。不僅如此,我們還通過“虛實結(jié)合”的方式,在現(xiàn)場大屏和咪咕視頻還原冰壺的運動軌跡曲線。這不僅可以幫助運動員分析研判對戰(zhàn)形式,適時調(diào)整戰(zhàn)術(shù),還能讓觀眾更好地了解和感受冰壺運動的精髓。

《科創(chuàng)板日報》:完成對水立方場景的三維數(shù)字化重建,大概需要多久時間?

欒青:我們在場館內(nèi)走一圈的時間大概是十幾、二十分鐘,然后在兩個小時之內(nèi)就能把整個水立方冰壺比賽場館進(jìn)行完整建模。這還是普通服務(wù)器的建模速度,如果使用性能更強(qiáng)的服務(wù)器,還有可能會更快。

《科創(chuàng)板日報》:AI為現(xiàn)實世界數(shù)字化所帶來的效率提升,您有沒有相關(guān)的數(shù)據(jù)?

欒青:比如,過去建立一個數(shù)字人,平均時長大概剩3-4個月。通過AI的優(yōu)化之后,在初步情況下可達(dá)到一個月以內(nèi)。未來我們還將會把整個流程優(yōu)化到以天為單位的級別,這樣可以讓很多行業(yè)高效率使用自己的虛擬形象代言人,這是我們正在努力的方向。

可以說,現(xiàn)實世界數(shù)字化,是AI最核心在做的事情。如何更快生成人、物、場景,降低成本和門檻,而不是需要專業(yè)的設(shè)計師花很長時間才能做完。

《科創(chuàng)板日報》:所謂現(xiàn)實世界數(shù)字化,在產(chǎn)業(yè)化場景也有應(yīng)用空間,比如說像工業(yè)領(lǐng)域一直在提的數(shù)字孿生。

欒青:是的,三維建模和數(shù)字化管理是比較通用的技能,可以跨行業(yè)解決很多不同問題。在工業(yè)、建筑、醫(yī)療等等,都有比較多的可能性。

其中,工業(yè)是非常典型的場景。我們也實現(xiàn)了許多工廠,包括對工業(yè)園區(qū)、工業(yè)廠房等的快速三維建模。通過快速三維建模后,對現(xiàn)有的各種攝像頭設(shè)備或者其他分配的信號進(jìn)行連接,就形成了一個典型的數(shù)字孿生場景。

AI的優(yōu)勢在于,不需要設(shè)計師進(jìn)行場景的三維重建,這是一項較為勞動力密集的工作。我們用普通的民用攝像頭產(chǎn)品,甚至手機(jī)圍繞現(xiàn)場走一圈就可以把場景快速地建立出來。

而且這些部署的攝像頭,可以實現(xiàn)三維高清定位,快速地標(biāo)定至三維的空間位置中,這樣不管廠區(qū)還是園區(qū)的數(shù)字化管理就會非常高效地進(jìn)行。

數(shù)據(jù)化和硬件體驗是兩大挑戰(zhàn)

《科創(chuàng)板日報》:“AI+XR”的結(jié)合應(yīng)用還是處于初期發(fā)展階段,您覺得可能還存在哪些挑戰(zhàn)?

欒青:挑戰(zhàn)主要有兩個方面。

首先是體驗。這是需要全行業(yè)一起解決的事情,包括大家常說的VR或AR內(nèi)容生態(tài),依賴整個行業(yè)一系列的技術(shù)提升,把整個體驗和內(nèi)容建立起來。

其次則是數(shù)據(jù)化。虛擬世界或者說數(shù)字世界的存在,最終要幫助到真實世界解決實際的問題。但挑戰(zhàn)在于,很多的場景是具有長尾效應(yīng)。比如在工廠,有些設(shè)備是在別的廠區(qū)見不到的,或者在這個特殊行業(yè)才擁有的,那就需要進(jìn)行一系列長尾內(nèi)容的數(shù)據(jù)化。如何高效率低成本識別不同的內(nèi)容,并且實時的數(shù)據(jù)化到我們系統(tǒng)當(dāng)中,這也是一大挑戰(zhàn)。

《科創(chuàng)板日報》:虛擬現(xiàn)實應(yīng)用要真正發(fā)展起來的話,可能涉及到哪些關(guān)鍵產(chǎn)業(yè)鏈?

欒青:首先硬件的產(chǎn)業(yè)鏈肯定是第一步。必須采用大家習(xí)慣、能夠日常使用的體驗方式,才能普及。就像手機(jī)如果非常重,又很昂貴,那么大家不太可能用起來,很多應(yīng)用也無從落腳。

所以,硬件成本的降低,以及重量、散熱、耗能等的提升,仍然要不斷去攻克的瓶頸。由此來看,光學(xué)顯示,包括輕量化的芯片等,應(yīng)該都會有較強(qiáng)的發(fā)展空間。同時,基于硬件的各種智能化,包括手勢識別、面部驅(qū)動,三維人建模等內(nèi)容工具,也亟待發(fā)展。

內(nèi)容生成平臺也非常關(guān)鍵。三維比二維的內(nèi)容制作要復(fù)雜很多。以前可能只有游戲廠商,需要做復(fù)雜的三維內(nèi)容,但投入也是非常大的。如果我們希望走向全民普適,比如銀行、商場、辦事大廳等,都進(jìn)入到三維數(shù)字世界之中,你發(fā)現(xiàn)成本就會變得非常巨大。各種各樣高效的內(nèi)容生產(chǎn)工具和平臺也會有一輪需要被突破的過程。

此外,如果所有人都需要在三維互聯(lián)網(wǎng)進(jìn)行更深入地交流,那么大規(guī)模云端的協(xié)同性計算,也會有一個巨大的發(fā)展契機(jī)。當(dāng)然,還包括經(jīng)濟(jì)系統(tǒng)、授權(quán)認(rèn)證系統(tǒng)等,都要在這個體系下被建立起來。

看好數(shù)字文創(chuàng)和數(shù)字人

《科創(chuàng)板日報》:您預(yù)估成熟期需要多久呢?

欒青:現(xiàn)在還比較難預(yù)測。不過,在終極的數(shù)字世界建立之前,會有比較多的雛形形態(tài),可以解決日常生活中比較多的問題。

比如剛才提到的數(shù)字人在垂直領(lǐng)域的應(yīng)用,已經(jīng)可以消除很多服務(wù)體驗和效率上的難點。并不一定非要有全新的硬件或者不同的內(nèi)容生產(chǎn)生態(tài)。只要在專業(yè)領(lǐng)域做得比較好,就可以有效地提升生產(chǎn)效率。這種行業(yè)級別的應(yīng)用,我們認(rèn)為已經(jīng)到來了。

而全民的、普適性的三維互聯(lián)網(wǎng)級別,可能還需要一定的發(fā)展周期,大家常說5年是一個硬件迭代周期,我們也拭目以待。

《科創(chuàng)板日報》:目前比較有前景的應(yīng)用,除了數(shù)字人之外還有哪些?

欒青:數(shù)字世界需要各種各樣的內(nèi)容,人是一方面,物是另一方面。把很多現(xiàn)實物品進(jìn)行數(shù)字化,也已經(jīng)成為一個重要的體驗環(huán)節(jié)。

在這方面,數(shù)字文創(chuàng)擁有比較大的發(fā)展契機(jī)。我們已經(jīng)與敦煌、故宮等大型IP合作,來進(jìn)行數(shù)字內(nèi)容的體驗提升,更好地展示中國傳統(tǒng)文化的魅力。

事實上,數(shù)字世界可以有更大的創(chuàng)造空間,展示現(xiàn)實文創(chuàng)產(chǎn)品展現(xiàn)不了的內(nèi)容。過去是數(shù)字賦能實物,現(xiàn)在是實物賦能數(shù)字,通過AI/AR的方式,把虛擬的數(shù)字內(nèi)容附著在實體上面,這是我們對數(shù)字文創(chuàng)的定義。

《科創(chuàng)板日報》:您在人工智能從事研究工作多年,您認(rèn)為人工智能對人類而言,所具有的最大意義是什么?

欒青:人工智能本質(zhì)上模擬了人類大腦處理信號的方式。在人工智能出現(xiàn)之前,計算機(jī)只能處理數(shù)字化的信號,沒有辦法表達(dá)自己的思想,依然需要人對這些信號進(jìn)行解析,才讓其變得有意義。

人工智能出現(xiàn),首先是把現(xiàn)實世界數(shù)字化。這樣計算機(jī)在很多領(lǐng)域就能看懂現(xiàn)實世界的信號,而不用依靠人力。計算機(jī)可以自動地、主動去做一些事情,這樣提升了數(shù)據(jù)處理的效率。其核心是解決了信息入口的問題。也就是原先需要人進(jìn)行輸入,現(xiàn)在整個世界的數(shù)據(jù)信息不斷自動地流入到計算世界里。

當(dāng)然,人工智能不只是解決入口問題,還要進(jìn)行各種三維數(shù)字內(nèi)容生成,這是另一價值所在。這方面,人工智能可以把許多重復(fù)性勞動替代掉,也是我認(rèn)為未來重要的發(fā)展方向。




1最后文章空三行圖片11.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。