中文引用格式: 陳德鋒,胡軍國(guó),劉正豐,等. 基于多尺度特征融合的NeRF三維重建方法[J]. 電子技術(shù)應(yīng)用,2026,52(4):89-95.
英文引用格式: Chen Defeng,Hu Junguo,Liu Zhengfeng,et al. NeRF-based 3D reconstruction with multi-scale feature fusion[J]. Application of Electronic Technique,2026,52(4):89-95.
引言
多視角三維重建[1]是計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)中的一個(gè)重要領(lǐng)域,旨在從多個(gè)視角的圖像中恢復(fù)三維場(chǎng)景的幾何和紋理信息。傳統(tǒng)的三維重建方法依賴于幾何學(xué)和光學(xué)原理,通過(guò)多視角立體(Multi-View Stereo, MVS)技術(shù)[2]、結(jié)構(gòu)光[3]、激光掃描[4]等方法來(lái)進(jìn)行場(chǎng)景重建。MVS方法通過(guò)對(duì)多張圖像的特征提取、匹配和視差計(jì)算,從而生成稠密的三維點(diǎn)云。這類方法在早期取得了顯著的成功,但由于其依賴于精確的相機(jī)標(biāo)定、視角的豐富性及表面的紋理信息,在復(fù)雜場(chǎng)景或缺乏紋理的表面(如光滑的物體或陰影區(qū)域)中表現(xiàn)較差,且計(jì)算復(fù)雜度較高。
隨著深度學(xué)習(xí)的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)[5](Convolutional Neural Networks, CNN)開始被廣泛應(yīng)用于三維重建領(lǐng)域,極大地推動(dòng)了多視角三維重建技術(shù)的發(fā)展。YAO Y等人的MVSNet[6-7]作為一種里程碑式的工作,提出了一種基于深度學(xué)習(xí)的框架,通過(guò)體素體積匹配(volumetric matching)[8]技術(shù)顯著提高了重建的精度和效率。MVSNet通過(guò)端到端的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)和視差計(jì)算,克服了傳統(tǒng)方法在特征提取和匹配上的限制,能夠有效處理更多樣化的場(chǎng)景和輸入數(shù)據(jù)。盡管MVSNet在精度上取得了突破,但其在處理大場(chǎng)景時(shí)仍然面臨計(jì)算資源的挑戰(zhàn)。隨后,同樣是YAO Y等人提出了R-MVSNet[9],在MVSNet的基礎(chǔ)上,改進(jìn)了網(wǎng)絡(luò)的正則化過(guò)程,并引入了更高效的計(jì)算策略,顯著減少了GPU的計(jì)算負(fù)擔(dān),使得處理大規(guī)模場(chǎng)景和高分辨率圖像變得更加高效。在R-MVSNet的成功基礎(chǔ)上,GU X等人進(jìn)一步提出了CasMVSNet[10],這是一種針對(duì)復(fù)雜場(chǎng)景和高分辨率圖像優(yōu)化的多視角立體重建方法。CasMVSNet通過(guò)引入條件自適應(yīng)模塊,能夠動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)的計(jì)算資源,以適應(yīng)不同復(fù)雜度的場(chǎng)景,從而有效提高了深度估計(jì)的準(zhǔn)確性和效率。與此同時(shí),MILDENHALL B等人提出的神經(jīng)輻射場(chǎng)(Neural Radiance Field, NeRF)[11]技術(shù)帶來(lái)了革命性的變化。NeRF通過(guò)學(xué)習(xí)場(chǎng)景的隱式表示,結(jié)合體積渲染技術(shù),能夠生成高質(zhì)量的合成圖像,處理光照變化和視角變換。GARBIN S J等人提出FastNeRF[12],通過(guò)層次化體積采樣、網(wǎng)絡(luò)壓縮和并行計(jì)算等技術(shù),大幅提升了NeRF渲染速度。CHEN A等[13]結(jié)合了多視角立體技術(shù)與神經(jīng)輻射場(chǎng)模型,提出了MVSNeRF,該方法通過(guò)利用多個(gè)視角的圖像信息,增強(qiáng)了神經(jīng)輻射場(chǎng)在復(fù)雜場(chǎng)景下的表現(xiàn),優(yōu)化了深度估計(jì)和視圖合成的過(guò)程。YU A等[14]提出了PlenOctrees,該方法結(jié)合了神經(jīng)網(wǎng)絡(luò)和八叉樹數(shù)據(jù)結(jié)構(gòu),通過(guò)將神經(jīng)輻射場(chǎng)的表示轉(zhuǎn)化為稀疏體積表示,顯著加快了三維場(chǎng)景的渲染過(guò)程,同時(shí)保留了高質(zhì)量的圖像生成能力。
本文提出了一種端到端的基于注意力機(jī)制與神經(jīng)輻射場(chǎng)的多視角三維重建網(wǎng)絡(luò)。針對(duì)神經(jīng)網(wǎng)絡(luò)在復(fù)雜場(chǎng)景中常出現(xiàn)的特征錯(cuò)誤匹配問題,本文在特征提取部分引入了SE(Squeeze-and-Excitation)注意力機(jī)制[15],以增強(qiáng)網(wǎng)絡(luò)在特征學(xué)習(xí)中的自適應(yīng)能力。通過(guò)使用SE模塊,網(wǎng)絡(luò)能夠動(dòng)態(tài)地調(diào)整不同特征通道的權(quán)重,從而更加關(guān)注圖像中重要的幾何和紋理信息,尤其是在弱紋理或表面光滑的區(qū)域,有效地提升了細(xì)節(jié)恢復(fù)的準(zhǔn)確性。為了解決大規(guī)模場(chǎng)景中的多尺度特征提取和融合問題,本文還引入了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)[16]。FPN通過(guò)多尺度特征融合的方式,幫助網(wǎng)絡(luò)在不同層次上提取場(chǎng)景的全局和局部信息。該模塊能夠有效捕捉到細(xì)節(jié)層次的變化,同時(shí)保證全局結(jié)構(gòu)的穩(wěn)定性,使得網(wǎng)絡(luò)在處理復(fù)雜和高分辨率圖像時(shí),能夠更好地平衡精度與計(jì)算效率。此外,為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)場(chǎng)景結(jié)構(gòu)的建模能力,本文還引入了圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)[17],通過(guò)對(duì)圖像中的空間結(jié)構(gòu)進(jìn)行建模,使網(wǎng)絡(luò)能夠更好地理解和推理場(chǎng)景的幾何關(guān)系,尤其是在復(fù)雜的幾何形狀和物體交互部分。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://ihrv.cn/resource/share/2000007044
作者信息:
陳德鋒1,2,3,胡軍國(guó)1,劉正豐1,2,3,朱超1
(1.浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 浙江 杭州 311300;
2.國(guó)家林草局林業(yè)感知技術(shù)與智能裝備重點(diǎn)實(shí)驗(yàn)室, 浙江 杭州 311300;
3.臨安市農(nóng)業(yè)信息中心實(shí)踐基地, 浙江 杭州 311300)

