編者按:隨著時代的發(fā)展,內(nèi)容傳播的形式在不斷演進,而從2維升級到3維,是科技發(fā)展之必然。在未來幾年,3D影像技術將加速全面向市場滲透。LiveVideoStack邀請到了螳螂慧視的駱曉峰老師,為我們介紹3D成像技術。
今天,我分享的內(nèi)容主要分為三個章節(jié)。首先,介紹一些相關的背景。然后,介紹3D成像技術。最后,介紹幾種3D的應用場景。
01 2d到3d
首先,介紹從2D到3D的背景。
兩百年前,人類拍下了第一張照片。經(jīng)過兩百年的發(fā)展,2D影像技術滲透到各行各業(yè),為了追求更好的展示,開始了3D影像技術的研究。從2維升級到3維,也是科技發(fā)展之必然。
我們的感受也在不斷變化。最初,我們從平面媒體(比如報紙)獲取信息,這涉及到視覺。然后,我們可以從廣播獲取信息,這涉及到聽覺。接著,我們可以看電視來獲取信息,這涉及到視覺和聽覺。再然后,我們使用電腦和智能手機來獲取信息,這涉及到視覺和聽覺,并且我們還獲得了交互體驗?,F(xiàn)在我們可以使用VR、AR和XR,而3D光學是AR、VR和XR的核心。從硬件方面來看,硬件已經(jīng)發(fā)展到了一定的階段,可以在現(xiàn)有的硬件上呈現(xiàn)一些3D的效果。
無論是元宇宙還是虛擬現(xiàn)實,都需要大量3D數(shù)據(jù)。之前認為3D數(shù)據(jù)可以通過建模得到,比如需要一個桌子,可以通過計算機建模得到。那么有沒有更好的方法來獲取3D數(shù)據(jù)呢?
02 3D成像技術
3D成像技術就是利用3D相機使一個3D物體進行快速成像。我們的主要目標是使現(xiàn)實世界數(shù)字化。
3D成像技術的原理是三角成像原理。三角成像原理參考了眼睛成像原理,單個眼睛或單一鏡頭無法獲取深度數(shù)據(jù),所以需要兩個眼睛。右圖展示了與結(jié)構(gòu)光相關的原理,攝像頭拍攝激光上的激光數(shù)據(jù)來成像。
目前主流的3D成像技術主要是以下幾種。首先是雙目,這是大家常用的技術,現(xiàn)在的閘機就采用了這種技術。雙目模擬了人的眼睛,觀察同一物體時,兩只眼睛看到的物體是不一樣的,通過該差異性可以計算得到3D數(shù)據(jù)。然后是結(jié)構(gòu)光,主要有兩種方案。一種是散斑結(jié)構(gòu)光,目前很多公司都在使用這項技術。散斑結(jié)構(gòu)光在2005年由以色列的PrimeSense公司創(chuàng)建,iPhone使用了這項技術,并使這項技術進入大眾視野。目前,蘋果公司掌握了散斑結(jié)構(gòu)光的大部分專利。PrimeSense曾與微軟一起開發(fā)Kinect,在國內(nèi)也會經(jīng)常接觸到Kinect,因此國內(nèi)很多3D方面的研究基于Kinect 3D相機,國內(nèi)大部分使用的也是散斑結(jié)構(gòu)光技術。另一種是編碼結(jié)構(gòu)光,散斑結(jié)構(gòu)光投射出來的是點,而編碼結(jié)構(gòu)光投射出來的是圖案。編碼結(jié)構(gòu)光在2005年由以色列的MantisVision公司創(chuàng)建。目前,小米8透明探索版的前置攝像頭采用了編碼結(jié)構(gòu)光技術。最后是TOF,即飛行時間,其計算發(fā)射光和光從物體反射回來的時間差,激光雷達就使用了TOF技術。TOF主要有兩種方案,一種是dTOF,其原理是通過光源發(fā)射脈沖,接收端接收從物體發(fā)射回來的脈沖,并計算兩個脈沖的時間差。另一種是iTOF,光經(jīng)過連續(xù)波調(diào)制后發(fā)射出去,通過比較發(fā)射時的圖和接收時的圖得到載波相位差,并基于此得到深度信息。
接下來詳細介紹散斑結(jié)構(gòu)光。這是一張鏡頭的示意圖,其原理如下。首先是一個發(fā)光器件,由其發(fā)射光。然后經(jīng)過準直鏡,發(fā)射出來的光較為發(fā)散,亮度不夠,而準直鏡可將發(fā)散光路變成平行光路。最后,通過DOE投射出點陣。眾所周知,在遠的地方看點會發(fā)現(xiàn)點比較小,在近的地方看點會發(fā)現(xiàn)點比較大(結(jié)果大致如圖所示),這就是散斑結(jié)構(gòu)光的原理。
然后,詳細介紹編碼結(jié)構(gòu)光。與散斑結(jié)構(gòu)光不同的是,編碼結(jié)構(gòu)光投射出來的是圖案。這個現(xiàn)象可以參考我們小時候的手指游戲,即用手指做出不同形狀,然后手電筒照射手指,可以投影出不同動物的樣子。同理,在鏡頭上放置一個mask圖案,發(fā)射光時就可以將圖案投影到物體上。由于物體是凹凸不平的,投影到物體上的圖案會變形,可以基于此計算得到3D數(shù)據(jù)信息。在散斑結(jié)構(gòu)光和編碼結(jié)構(gòu)光中,光發(fā)射出去和光反射回來即為一幀。
目前,大多使用IR攝像頭,這是因為為了與可見光有區(qū)別,我們使用了紅外光。激光器發(fā)射光,IR攝像頭則拍下相應圖像然后進行計算。由于有時需要獲取顏色的信息,所以會增加一個RGB攝像頭。以上內(nèi)容就組成了整個模組,iPhone和小米8就有此類前置攝像頭模組。除了這些基本構(gòu)成,還添加了接近感應器等。iPhone配備了接近感應器,一方面是為了在接聽電話時使手機自動滅屏,另一方面是為了保證安全性,因為紅外光對人眼有損害,所以在人眼離手機的距離在一定范圍內(nèi)時,會關閉發(fā)射器。
在散斑結(jié)構(gòu)光中,DOE會發(fā)射散斑光。當鏡頭損壞或DOE破損時,準直后的激光光束可能會直接照射到人眼,從而對人眼造成傷害,所以采用散斑結(jié)構(gòu)光技術時必須做人眼安全方面的工作。在編碼結(jié)構(gòu)光中,在投影鏡頭上放置了mask,光束受到了遮擋,不會直接照射到人眼,所以在編碼結(jié)構(gòu)光中,一般不會引進人眼安全相關的技術。
接下來,詳細介紹dTOF,即LiDAR。在dTOF中,發(fā)光器發(fā)射脈沖,脈沖碰到物體時會反射回來,然后計算得到脈沖的時間差。時間差越小則距離越近,時間差越大則距離越遠。這其中有一個難點,由于很多時候拍攝時距離物體較近,時間差較小,所以需要一個精密度較高的時鐘。
iPhone 12 Pro和iPad Pro采用了dTOF,華為、vivo和OPPO采用了iTOF。這是因為蘋果掌握了dTOF的大部分專利,且很多功能不開放。在iTOF中,發(fā)射出來的不是脈沖而是正弦波,然后計算發(fā)射時的波和接收到的波的相位差,可以得到時間等信息??傊?,iTOF以面發(fā)射光,dTOF以點發(fā)射光。
此外,還有很多其他的3D成像技術,此處不再做介紹。
03 3D攝像錄制
最后,介紹幾種3D的應用場景。
這是iPhone上的攝像頭,當人在解鎖手機或進行支付時,拍攝單幀圖像就可完成相關操作。這通常用于活體識別、人臉識別和人臉支付等。比如,在前段時間比較火的人臉支付中,就采用了這種單幀攝像的方式,即拍攝單幀深度圖或點云進行處理。
采用3D攝像頭還可以避免“照片攻擊”。在2019年,曾有新聞報道稱可以用照片解鎖豐巢快遞柜,因此人們開始質(zhì)疑人臉識別的安全性。iPhone X采用了3D攝像頭,其識別到的是3D數(shù)據(jù),可以進行活體識別,避免了“照片攻擊”。
接下來介紹單設備掃描。當一幀圖像不夠時,可以使用設備對物體進行掃描。在掃描的過程中,3D圖像會慢慢呈現(xiàn)出來。當物體有遮擋時,要采用合適的掃描方式。單設備掃描的主要對象是靜態(tài)物體,比如石獅子、杯子、沙發(fā)等。
另一種是多設備靜態(tài)拼接。如圖是一個demo,采用一組攝像頭使其各拍攝一幀圖像,并將圖像拼接起來得到人臉模型。目前,這種設備已經(jīng)開始出售,其原理就是使用多設備對物體進行多角度同時拍攝。單設備掃描的成像速度較慢(需要持續(xù)掃描才能成像),而多設備靜態(tài)拼接的成像速度較快,就像只按了一下快門,因為其采用了多設備進行拍攝。在遮擋部位較多的情況下,比如拍攝人的下頜,就要采用多設備拍攝。
接下來介紹動態(tài)3D影棚。之前介紹的錄制方式的對象主要是靜態(tài)物體,動態(tài)3D影棚則可實現(xiàn)實時預覽和動態(tài)直播,延遲可以控制在500ms以內(nèi)。其中,主要的問題是3D相機同步和多鏡頭干擾。之前提到,為了與可見光有區(qū)別,我們采用了紅外光,當兩個鏡頭同時向同一個物體發(fā)射光束時,物體上會有兩個疊加在一起的圖案,這就造成了多鏡頭干擾。為了解決這個問題,多鏡頭需要進行分時拍攝,但間隔時間不宜太長,要保證當前鏡頭拍攝完后,緊接著下一個鏡頭就開始拍攝,將速度保持在20-30fps。這樣,拍攝出來的就是動態(tài)的畫面。
以上就是今天介紹的主要內(nèi)容,謝謝大家!
更多信息可以來這里獲取==>>電子技術應用-AET<<