《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信与网络 > 设计应用 > 基于距离正则化的单视图三维重建
基于距离正则化的单视图三维重建
信息技术与网络安全
胡茂林,李金龙,胡 涛
(中国科学技术大学 计算机科学与技术学院,安徽 合肥230027)
摘要: 针对从一张物体有限的二维RGB图像信息中还原物体的三维形状信息,提出了基于距离正则化的单视图三维重建。利用二维卷积神经网络(Convolutional Neural Network,CNN)设计图像编码器和三维卷积神经网络设计残差块,再利用残差块为基础设计三维形状生成器,即三维残差生成器。给定一张物体的二维RGB图像,首先使用图像编码器提取RGB图像的语义信息;然后,三维形状生成器使用语义信息,恢复RGB图像中物体的三维形状信息。同时,提出了距离规则化损失,在训练过程中,保证三维物体形状重建质量。实验结果显示,本方法在交并比(Intersection over Union,IoU)评价指标上超过了之前最好的方法。
中圖分類號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.010
引用格式: 胡茂林,李金龍,胡濤. 基于距離正則化的單視圖三維重建[J].信息技術(shù)與網(wǎng)絡(luò)安全,2021,40(5):56-61.
Single-view 3D reconstruction based on margin regularization
Hu Maolin,Li Jinlong,Hu Tao
(School of Computer Science and Technology,University of Science and Technology of China,Hefei 230027,China)
Abstract: In order to recover the 3D shape of the object in the input image from the limited information of 2D RGB image, this paper proposes a single image 3D reconstruction method based on a margin regularization loss. This paper uses 2D convolutional neural network(CNN) to design an image encoder and employ 3D CNN to design a special residual block, and then uses residual block to design 3D residual generator. Given a 2D RGB image of an object, firstly, we use our designed image encoder to extract the semantic information of the RGB image; then, the 3D residual generator takes the semantic information as input and recover the 3D shape of the object in the RGB image. At the training phase, this paper proposes a distance regularization loss to ensure the quality of 3D object shape reconstruction during the recovering process. Experiment results demonstrate that the proposed method surpasses the previous best method in the metrics of Intersection over Union(IoU).
Key words : 3D reconstruction;convolutional neural networks;residual block;residual network

0 引言

三維重建是指給定一張或多張RGB圖像的情況下重建該RGB圖像中物體的三維形狀。三維重建已經(jīng)被探索了幾十年,它是計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)基礎(chǔ)性任務(wù)之一,擁有大量應(yīng)用場(chǎng)景,例如,機(jī)器人導(dǎo)航、虛擬現(xiàn)實(shí)、計(jì)算機(jī)輔助設(shè)計(jì)、無(wú)人駕駛、醫(yī)學(xué)圖像處理等領(lǐng)域。三維重建是一個(gè)非常復(fù)雜的過(guò)程,從二維圖像恢復(fù)三維形狀,恢復(fù)缺失的信息往往具有歧義性。為克服三維形狀的歧義性,三維重建方法通常需要結(jié)合圖像信息和先驗(yàn)形狀知識(shí)。

隨著大型數(shù)據(jù)集的出現(xiàn),數(shù)據(jù)驅(qū)動(dòng)的方法一定程度上克服歧義性問(wèn)題,數(shù)據(jù)集提供三維形狀先驗(yàn)知識(shí)。三維重建方法利用CNN在大型數(shù)據(jù)集進(jìn)行預(yù)測(cè)物體三維形狀取得了巨大的成功,預(yù)測(cè)的三維形狀可以被歸結(jié)為三類:體素網(wǎng)格表示[1]、點(diǎn)云表示[2]、網(wǎng)格表示[3]。近年來(lái),大量基于深度學(xué)習(xí)的方法被提出來(lái)進(jìn)行三維重建,例如,3D-R2N2[4]、Pix2Vox、PSGN[2]和AttSets[5]。CHOY C B[4]率先提出使用長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)[6]來(lái)融合不同視角圖像的信息,一步一步重建三維物體的形狀。PSGN使用點(diǎn)云表示三維形狀進(jìn)行單視圖三維重建。Pix2Vox++直接使用CNN融合不同視角圖像信息來(lái)進(jìn)行三維重建。AttSets使用一個(gè)注意力聚合模塊去預(yù)測(cè)一個(gè)權(quán)重矩陣作為輸入特征的注意力得分。



本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000003552




作者信息:

胡茂林,李金龍,胡  濤

(中國(guó)科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥230027)


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載。