123,123

基于多尺度特征融合的NeRF三维重建方法

电子技术应用

陈德锋1，2，3，胡军国1，刘正丰1，2，3，朱超1

1.浙江农林大学数学与计算机科学学院；2.国家林草局林业感知技术与智能装备重点实验室；3.临安市农业信息中心实践基地

摘要： 三维重建在计算机视觉与人工智能、医学影像、建筑与城市规划等领域中至关重要。针对传统手工建模效率低下的问题，提出一种基于神经辐射场的多尺度融合和注意力机制的方法。该方法引入了多尺度特征模块，并结合图卷积网络增强了网络对空间结构的理解，从而精确捕捉局部与全局的几何关系。多尺度特征模块能够在不同层次上提取信息，改善细节重建的准确性和全面性，进而提升整体重建质量。此外，为了进一步提高模型的鲁棒性与精度，通过引入特征金字塔网络，确保网络在不同尺度下均能有效捕捉重要信息，尤其是在复杂场景中能够避免细节丢失。结合SE注意力机制，模型能够自适应地对图像中的关键区域进行聚焦，增强重要特征的表现，提升了在复杂环境下的重建效果。实验结果表明，该方法在自建建筑物数据集上的结构相似性、峰值信噪比和感知损失分别为0.784、25.42、0.183，较NeRF模型分别提升了4.39%、3.29%、15.84%，能够更好地处理复杂的重建任务，为各类应用领域中的三维重建提供了一个新思路。

關(guān)鍵詞： 三维重建图卷积网络特征金字塔 NeRF SE

中圖分類號(hào)：TP391.4 文獻(xiàn)標(biāo)志碼：A DOI: 10.16157/j.issn.0258-7998.256786
中文引用格式： 陳德鋒，胡軍國(guó)，劉正豐，等. 基于多尺度特征融合的NeRF三維重建方法[J]. 電子技術(shù)應(yīng)用，2026，52(4)：89-95.
英文引用格式： Chen Defeng，Hu Junguo，Liu Zhengfeng，et al. NeRF-based 3D reconstruction with multi-scale feature fusion[J]. Application of Electronic Technique，2026，52(4)：89-95.

NeRF-based 3D reconstruction with multi-scale feature fusion

Chen Defeng1，2，3，Hu Junguo1，Liu Zhengfeng1，2，3，Zhu Chao1

1.College of Mathematics and Computer Science， Zhejiang A & F University；2.Key Laboratory of Forestry Perception Technology and Intelligent Equipment of the State Forestry and Grassland Administration；3.Lin'an Agricultural Information Center Practice Base

Abstract： 3D reconstruction plays a critical role in various fields, including computer vision and artificial intelligence, medical imaging, architecture, and urban planning. To address the inefficiency of traditional manual modeling methods, this paper proposes a method based on Neural Radiance Fields(NeRF) that incorporates multi-scale fusion and attention mechanisms. The approach introduces a multi-scale feature module combined with graph convolutional networks to enhance the network's understanding of spatial structures, allowing for more accurate capture of both local and global geometric relationships. The multi-scale feature module extracts information at different levels, improving the accuracy and comprehensiveness of detail reconstruction, which in turn enhances overall reconstruction quality.Additionally, to further improve the model's robustness and precision, a feature pyramid network is introduced to ensure the network can effectively capture important information across different scales, particularly in complex scenes where details might otherwise be lost. The integration of the Squeeze-and-Excitation attention mechanism allows the model to adaptively focus on key regions in the image, enhancing the representation of important features and improving reconstruction performance in challenging environments.Experimental results demonstrate that the proposed method outperforms the NeRF model on a self-built building dataset, achieving SSIM, PSNR and LPIPS of 0.784, 25.42 and 0.183, respectively. These metrics show improvements of 4.39%, 3.29% and 15.84% over the NeRF model, indicating better handling of complex reconstruction tasks. This method provides a new approach for 3D reconstruction in various application domains.

Key words : 3D reconstruction；graph convolutional network；feature pyramid network；NeRF；SE attention

引言

多視角三維重建[1]是計(jì)算機(jī)視覺和計(jì)算機(jī)圖形學(xué)中的一個(gè)重要領(lǐng)域，旨在從多個(gè)視角的圖像中恢復(fù)三維場(chǎng)景的幾何和紋理信息。傳統(tǒng)的三維重建方法依賴于幾何學(xué)和光學(xué)原理，通過(guò)多視角立體（Multi-View Stereo, MVS）技術(shù)[2]、結(jié)構(gòu)光[3]、激光掃描[4]等方法來(lái)進(jìn)行場(chǎng)景重建。MVS方法通過(guò)對(duì)多張圖像的特征提取、匹配和視差計(jì)算，從而生成稠密的三維點(diǎn)云。這類方法在早期取得了顯著的成功，但由于其依賴于精確的相機(jī)標(biāo)定、視角的豐富性及表面的紋理信息，在復(fù)雜場(chǎng)景或缺乏紋理的表面（如光滑的物體或陰影區(qū)域）中表現(xiàn)較差，且計(jì)算復(fù)雜度較高。

隨著深度學(xué)習(xí)的快速發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)[5]（Convolutional Neural Networks, CNN）開始被廣泛應(yīng)用于三維重建領(lǐng)域，極大地推動(dòng)了多視角三維重建技術(shù)的發(fā)展。YAO Y等人的MVSNet[6-7]作為一種里程碑式的工作，提出了一種基于深度學(xué)習(xí)的框架，通過(guò)體素體積匹配（volumetric matching）[8]技術(shù)顯著提高了重建的精度和效率。MVSNet通過(guò)端到端的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí)和視差計(jì)算，克服了傳統(tǒng)方法在特征提取和匹配上的限制，能夠有效處理更多樣化的場(chǎng)景和輸入數(shù)據(jù)。盡管MVSNet在精度上取得了突破，但其在處理大場(chǎng)景時(shí)仍然面臨計(jì)算資源的挑戰(zhàn)。隨后，同樣是YAO Y等人提出了R-MVSNet[9]，在MVSNet的基礎(chǔ)上，改進(jìn)了網(wǎng)絡(luò)的正則化過(guò)程，并引入了更高效的計(jì)算策略，顯著減少了GPU的計(jì)算負(fù)擔(dān)，使得處理大規(guī)模場(chǎng)景和高分辨率圖像變得更加高效。在R-MVSNet的成功基礎(chǔ)上，GU X等人進(jìn)一步提出了CasMVSNet[10]，這是一種針對(duì)復(fù)雜場(chǎng)景和高分辨率圖像優(yōu)化的多視角立體重建方法。CasMVSNet通過(guò)引入條件自適應(yīng)模塊，能夠動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)的計(jì)算資源，以適應(yīng)不同復(fù)雜度的場(chǎng)景，從而有效提高了深度估計(jì)的準(zhǔn)確性和效率。與此同時(shí)，MILDENHALL B等人提出的神經(jīng)輻射場(chǎng)（Neural Radiance Field, NeRF）[11]技術(shù)帶來(lái)了革命性的變化。NeRF通過(guò)學(xué)習(xí)場(chǎng)景的隱式表示，結(jié)合體積渲染技術(shù)，能夠生成高質(zhì)量的合成圖像，處理光照變化和視角變換。GARBIN S J等人提出FastNeRF[12]，通過(guò)層次化體積采樣、網(wǎng)絡(luò)壓縮和并行計(jì)算等技術(shù)，大幅提升了NeRF渲染速度。CHEN A等[13]結(jié)合了多視角立體技術(shù)與神經(jīng)輻射場(chǎng)模型，提出了MVSNeRF，該方法通過(guò)利用多個(gè)視角的圖像信息，增強(qiáng)了神經(jīng)輻射場(chǎng)在復(fù)雜場(chǎng)景下的表現(xiàn)，優(yōu)化了深度估計(jì)和視圖合成的過(guò)程。YU A等[14]提出了PlenOctrees，該方法結(jié)合了神經(jīng)網(wǎng)絡(luò)和八叉樹數(shù)據(jù)結(jié)構(gòu)，通過(guò)將神經(jīng)輻射場(chǎng)的表示轉(zhuǎn)化為稀疏體積表示，顯著加快了三維場(chǎng)景的渲染過(guò)程，同時(shí)保留了高質(zhì)量的圖像生成能力。

本文提出了一種端到端的基于注意力機(jī)制與神經(jīng)輻射場(chǎng)的多視角三維重建網(wǎng)絡(luò)。針對(duì)神經(jīng)網(wǎng)絡(luò)在復(fù)雜場(chǎng)景中常出現(xiàn)的特征錯(cuò)誤匹配問題，本文在特征提取部分引入了SE（Squeeze-and-Excitation）注意力機(jī)制[15]，以增強(qiáng)網(wǎng)絡(luò)在特征學(xué)習(xí)中的自適應(yīng)能力。通過(guò)使用SE模塊，網(wǎng)絡(luò)能夠動(dòng)態(tài)地調(diào)整不同特征通道的權(quán)重，從而更加關(guān)注圖像中重要的幾何和紋理信息，尤其是在弱紋理或表面光滑的區(qū)域，有效地提升了細(xì)節(jié)恢復(fù)的準(zhǔn)確性。為了解決大規(guī)模場(chǎng)景中的多尺度特征提取和融合問題，本文還引入了特征金字塔網(wǎng)絡(luò)（Feature Pyramid Network，F(xiàn)PN）[16]。FPN通過(guò)多尺度特征融合的方式，幫助網(wǎng)絡(luò)在不同層次上提取場(chǎng)景的全局和局部信息。該模塊能夠有效捕捉到細(xì)節(jié)層次的變化，同時(shí)保證全局結(jié)構(gòu)的穩(wěn)定性，使得網(wǎng)絡(luò)在處理復(fù)雜和高分辨率圖像時(shí)，能夠更好地平衡精度與計(jì)算效率。此外，為了進(jìn)一步增強(qiáng)網(wǎng)絡(luò)對(duì)場(chǎng)景結(jié)構(gòu)的建模能力，本文還引入了圖卷積網(wǎng)絡(luò)（Graph Convolutional Network, GCN）[17]，通過(guò)對(duì)圖像中的空間結(jié)構(gòu)進(jìn)行建模，使網(wǎng)絡(luò)能夠更好地理解和推理場(chǎng)景的幾何關(guān)系，尤其是在復(fù)雜的幾何形狀和物體交互部分。

本文詳細(xì)內(nèi)容請(qǐng)下載：

http://ihrv.cn/resource/share/2000007044

作者信息：

陳德鋒1，2，3，胡軍國(guó)1，劉正豐1，2，3，朱超1

（1.浙江農(nóng)林大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院，浙江杭州 311300；

2.國(guó)家林草局林業(yè)感知技術(shù)與智能裝備重點(diǎn)實(shí)驗(yàn)室，浙江杭州 311300；

3.臨安市農(nóng)業(yè)信息中心實(shí)踐基地，浙江杭州 311300）

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容