編者按:隨著時(shí)代的發(fā)展,內(nèi)容傳播的形式在不斷演進(jìn),而從2維升級(jí)到3維,是科技發(fā)展之必然。在未來幾年,3D影像技術(shù)將加速全面向市場(chǎng)滲透。LiveVideoStack邀請(qǐng)到了螳螂慧視的駱曉峰老師,為我們介紹3D成像技術(shù)。
今天,我分享的內(nèi)容主要分為三個(gè)章節(jié)。首先,介紹一些相關(guān)的背景。然后,介紹3D成像技術(shù)。最后,介紹幾種3D的應(yīng)用場(chǎng)景。
01 2d到3d
首先,介紹從2D到3D的背景。
兩百年前,人類拍下了第一張照片。經(jīng)過兩百年的發(fā)展,2D影像技術(shù)滲透到各行各業(yè),為了追求更好的展示,開始了3D影像技術(shù)的研究。從2維升級(jí)到3維,也是科技發(fā)展之必然。
我們的感受也在不斷變化。最初,我們從平面媒體(比如報(bào)紙)獲取信息,這涉及到視覺。然后,我們可以從廣播獲取信息,這涉及到聽覺。接著,我們可以看電視來獲取信息,這涉及到視覺和聽覺。再然后,我們使用電腦和智能手機(jī)來獲取信息,這涉及到視覺和聽覺,并且我們還獲得了交互體驗(yàn)。現(xiàn)在我們可以使用VR、AR和XR,而3D光學(xué)是AR、VR和XR的核心。從硬件方面來看,硬件已經(jīng)發(fā)展到了一定的階段,可以在現(xiàn)有的硬件上呈現(xiàn)一些3D的效果。
無論是元宇宙還是虛擬現(xiàn)實(shí),都需要大量3D數(shù)據(jù)。之前認(rèn)為3D數(shù)據(jù)可以通過建模得到,比如需要一個(gè)桌子,可以通過計(jì)算機(jī)建模得到。那么有沒有更好的方法來獲取3D數(shù)據(jù)呢?
02 3D成像技術(shù)
3D成像技術(shù)就是利用3D相機(jī)使一個(gè)3D物體進(jìn)行快速成像。我們的主要目標(biāo)是使現(xiàn)實(shí)世界數(shù)字化。
3D成像技術(shù)的原理是三角成像原理。三角成像原理參考了眼睛成像原理,單個(gè)眼睛或單一鏡頭無法獲取深度數(shù)據(jù),所以需要兩個(gè)眼睛。右圖展示了與結(jié)構(gòu)光相關(guān)的原理,攝像頭拍攝激光上的激光數(shù)據(jù)來成像。
目前主流的3D成像技術(shù)主要是以下幾種。首先是雙目,這是大家常用的技術(shù),現(xiàn)在的閘機(jī)就采用了這種技術(shù)。雙目模擬了人的眼睛,觀察同一物體時(shí),兩只眼睛看到的物體是不一樣的,通過該差異性可以計(jì)算得到3D數(shù)據(jù)。然后是結(jié)構(gòu)光,主要有兩種方案。一種是散斑結(jié)構(gòu)光,目前很多公司都在使用這項(xiàng)技術(shù)。散斑結(jié)構(gòu)光在2005年由以色列的PrimeSense公司創(chuàng)建,iPhone使用了這項(xiàng)技術(shù),并使這項(xiàng)技術(shù)進(jìn)入大眾視野。目前,蘋果公司掌握了散斑結(jié)構(gòu)光的大部分專利。PrimeSense曾與微軟一起開發(fā)Kinect,在國內(nèi)也會(huì)經(jīng)常接觸到Kinect,因此國內(nèi)很多3D方面的研究基于Kinect 3D相機(jī),國內(nèi)大部分使用的也是散斑結(jié)構(gòu)光技術(shù)。另一種是編碼結(jié)構(gòu)光,散斑結(jié)構(gòu)光投射出來的是點(diǎn),而編碼結(jié)構(gòu)光投射出來的是圖案。編碼結(jié)構(gòu)光在2005年由以色列的MantisVision公司創(chuàng)建。目前,小米8透明探索版的前置攝像頭采用了編碼結(jié)構(gòu)光技術(shù)。最后是TOF,即飛行時(shí)間,其計(jì)算發(fā)射光和光從物體反射回來的時(shí)間差,激光雷達(dá)就使用了TOF技術(shù)。TOF主要有兩種方案,一種是dTOF,其原理是通過光源發(fā)射脈沖,接收端接收從物體發(fā)射回來的脈沖,并計(jì)算兩個(gè)脈沖的時(shí)間差。另一種是iTOF,光經(jīng)過連續(xù)波調(diào)制后發(fā)射出去,通過比較發(fā)射時(shí)的圖和接收時(shí)的圖得到載波相位差,并基于此得到深度信息。
接下來詳細(xì)介紹散斑結(jié)構(gòu)光。這是一張鏡頭的示意圖,其原理如下。首先是一個(gè)發(fā)光器件,由其發(fā)射光。然后經(jīng)過準(zhǔn)直鏡,發(fā)射出來的光較為發(fā)散,亮度不夠,而準(zhǔn)直鏡可將發(fā)散光路變成平行光路。最后,通過DOE投射出點(diǎn)陣。眾所周知,在遠(yuǎn)的地方看點(diǎn)會(huì)發(fā)現(xiàn)點(diǎn)比較小,在近的地方看點(diǎn)會(huì)發(fā)現(xiàn)點(diǎn)比較大(結(jié)果大致如圖所示),這就是散斑結(jié)構(gòu)光的原理。
然后,詳細(xì)介紹編碼結(jié)構(gòu)光。與散斑結(jié)構(gòu)光不同的是,編碼結(jié)構(gòu)光投射出來的是圖案。這個(gè)現(xiàn)象可以參考我們小時(shí)候的手指游戲,即用手指做出不同形狀,然后手電筒照射手指,可以投影出不同動(dòng)物的樣子。同理,在鏡頭上放置一個(gè)mask圖案,發(fā)射光時(shí)就可以將圖案投影到物體上。由于物體是凹凸不平的,投影到物體上的圖案會(huì)變形,可以基于此計(jì)算得到3D數(shù)據(jù)信息。在散斑結(jié)構(gòu)光和編碼結(jié)構(gòu)光中,光發(fā)射出去和光反射回來即為一幀。
目前,大多使用IR攝像頭,這是因?yàn)闉榱伺c可見光有區(qū)別,我們使用了紅外光。激光器發(fā)射光,IR攝像頭則拍下相應(yīng)圖像然后進(jìn)行計(jì)算。由于有時(shí)需要獲取顏色的信息,所以會(huì)增加一個(gè)RGB攝像頭。以上內(nèi)容就組成了整個(gè)模組,iPhone和小米8就有此類前置攝像頭模組。除了這些基本構(gòu)成,還添加了接近感應(yīng)器等。iPhone配備了接近感應(yīng)器,一方面是為了在接聽電話時(shí)使手機(jī)自動(dòng)滅屏,另一方面是為了保證安全性,因?yàn)榧t外光對(duì)人眼有損害,所以在人眼離手機(jī)的距離在一定范圍內(nèi)時(shí),會(huì)關(guān)閉發(fā)射器。
在散斑結(jié)構(gòu)光中,DOE會(huì)發(fā)射散斑光。當(dāng)鏡頭損壞或DOE破損時(shí),準(zhǔn)直后的激光光束可能會(huì)直接照射到人眼,從而對(duì)人眼造成傷害,所以采用散斑結(jié)構(gòu)光技術(shù)時(shí)必須做人眼安全方面的工作。在編碼結(jié)構(gòu)光中,在投影鏡頭上放置了mask,光束受到了遮擋,不會(huì)直接照射到人眼,所以在編碼結(jié)構(gòu)光中,一般不會(huì)引進(jìn)人眼安全相關(guān)的技術(shù)。
接下來,詳細(xì)介紹dTOF,即LiDAR。在dTOF中,發(fā)光器發(fā)射脈沖,脈沖碰到物體時(shí)會(huì)反射回來,然后計(jì)算得到脈沖的時(shí)間差。時(shí)間差越小則距離越近,時(shí)間差越大則距離越遠(yuǎn)。這其中有一個(gè)難點(diǎn),由于很多時(shí)候拍攝時(shí)距離物體較近,時(shí)間差較小,所以需要一個(gè)精密度較高的時(shí)鐘。
iPhone 12 Pro和iPad Pro采用了dTOF,華為、vivo和OPPO采用了iTOF。這是因?yàn)樘O果掌握了dTOF的大部分專利,且很多功能不開放。在iTOF中,發(fā)射出來的不是脈沖而是正弦波,然后計(jì)算發(fā)射時(shí)的波和接收到的波的相位差,可以得到時(shí)間等信息。總之,iTOF以面發(fā)射光,dTOF以點(diǎn)發(fā)射光。
此外,還有很多其他的3D成像技術(shù),此處不再做介紹。
03 3D攝像錄制
最后,介紹幾種3D的應(yīng)用場(chǎng)景。
這是iPhone上的攝像頭,當(dāng)人在解鎖手機(jī)或進(jìn)行支付時(shí),拍攝單幀圖像就可完成相關(guān)操作。這通常用于活體識(shí)別、人臉識(shí)別和人臉支付等。比如,在前段時(shí)間比較火的人臉支付中,就采用了這種單幀攝像的方式,即拍攝單幀深度圖或點(diǎn)云進(jìn)行處理。
采用3D攝像頭還可以避免“照片攻擊”。在2019年,曾有新聞報(bào)道稱可以用照片解鎖豐巢快遞柜,因此人們開始質(zhì)疑人臉識(shí)別的安全性。iPhone X采用了3D攝像頭,其識(shí)別到的是3D數(shù)據(jù),可以進(jìn)行活體識(shí)別,避免了“照片攻擊”。
接下來介紹單設(shè)備掃描。當(dāng)一幀圖像不夠時(shí),可以使用設(shè)備對(duì)物體進(jìn)行掃描。在掃描的過程中,3D圖像會(huì)慢慢呈現(xiàn)出來。當(dāng)物體有遮擋時(shí),要采用合適的掃描方式。單設(shè)備掃描的主要對(duì)象是靜態(tài)物體,比如石獅子、杯子、沙發(fā)等。
另一種是多設(shè)備靜態(tài)拼接。如圖是一個(gè)demo,采用一組攝像頭使其各拍攝一幀圖像,并將圖像拼接起來得到人臉模型。目前,這種設(shè)備已經(jīng)開始出售,其原理就是使用多設(shè)備對(duì)物體進(jìn)行多角度同時(shí)拍攝。單設(shè)備掃描的成像速度較慢(需要持續(xù)掃描才能成像),而多設(shè)備靜態(tài)拼接的成像速度較快,就像只按了一下快門,因?yàn)槠洳捎昧硕嘣O(shè)備進(jìn)行拍攝。在遮擋部位較多的情況下,比如拍攝人的下頜,就要采用多設(shè)備拍攝。
接下來介紹動(dòng)態(tài)3D影棚。之前介紹的錄制方式的對(duì)象主要是靜態(tài)物體,動(dòng)態(tài)3D影棚則可實(shí)現(xiàn)實(shí)時(shí)預(yù)覽和動(dòng)態(tài)直播,延遲可以控制在500ms以內(nèi)。其中,主要的問題是3D相機(jī)同步和多鏡頭干擾。之前提到,為了與可見光有區(qū)別,我們采用了紅外光,當(dāng)兩個(gè)鏡頭同時(shí)向同一個(gè)物體發(fā)射光束時(shí),物體上會(huì)有兩個(gè)疊加在一起的圖案,這就造成了多鏡頭干擾。為了解決這個(gè)問題,多鏡頭需要進(jìn)行分時(shí)拍攝,但間隔時(shí)間不宜太長,要保證當(dāng)前鏡頭拍攝完后,緊接著下一個(gè)鏡頭就開始拍攝,將速度保持在20-30fps。這樣,拍攝出來的就是動(dòng)態(tài)的畫面。
以上就是今天介紹的主要內(nèi)容,謝謝大家!
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<