文獻標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.222725
中文引用格式: 雷根華,王蕾,張志勇. 基于Light-BotNet的激光點云分類研究[J].電子技術(shù)應(yīng)用,2022,48(6):84-88,97.
英文引用格式: Lei Genhua,Wang Lei,Zhang Zhiyong. Research on laser point cloud classification based on Light-BotNet[J]. Application of Electronic Technique,2022,48(6):84-88,97.
0 引言
大多的深度學(xué)習(xí)點云分類方法都是采用卷積層與池化層交替實現(xiàn)的,卷積層中的神經(jīng)元僅與上一層的部分區(qū)域相連接,學(xué)習(xí)局部特征,在點云數(shù)據(jù)特征提取時容易丟失部分特征,從而導(dǎo)致分類精度下降等問題。而Transform的提出則帶來了一種新的思路,主要利用自我注意機制提取內(nèi)在特征[1-3]。Transform最初應(yīng)用在自然語言處理(NLP)領(lǐng)域,并且取得了重大的成功,受到NLP中Transformer功能的啟發(fā),研究人員開始將Transformer應(yīng)用在計算機視覺(CV)任務(wù)。研究發(fā)現(xiàn)CNN曾是視覺應(yīng)用的基本組件[4-5],但Transformer正在顯示其作為CNN替代品的能力。Chen等人[6]訓(xùn)練序列變換器,以自回歸預(yù)測像素,并在圖像分類任務(wù)上與CNN取得競爭性結(jié)果。卷積操作擅長提取細節(jié),但是在大數(shù)據(jù)量的大場景三維點云數(shù)據(jù)分類任務(wù)中,要掌握三維點云的全局信息往往需要堆疊很多個卷積層,而Transform中的注意力善于把握整體信息,但又需要大量的數(shù)據(jù)進行訓(xùn)練。
BotNet[7]網(wǎng)絡(luò)是伯克利與谷歌的研究人員在Convolution+Transformer組合方面一個探索,它采用混合方式同時利用了CNN的特征提取能力、Transformer的內(nèi)容自注意力與位置自注意力機制,取得了優(yōu)于純CNN或者自注意力的性能,在ImageNet中取得了84.7%的精度。將CNN與Transform結(jié)合起來,達到取長補短的效果。BoTNet與ResNet[8]網(wǎng)絡(luò)框架的不同之處在于:ResNet[8]框架在最后3個bottleneck blocks中使用的是3×3的空間卷積,而BotNet框架則是采用全局自我注意替代空間卷積。帶自注意力模塊的Bottleneck模塊可以視作Transformer模塊。
本文詳細內(nèi)容請下載:http://ihrv.cn/resource/share/2000004426。
作者信息:
雷根華1,王 蕾1,2,張志勇1
(1.東華理工大學(xué) 信息工程學(xué)院,江西 南昌330013;
2.江西省核地學(xué)數(shù)據(jù)科學(xué)與系統(tǒng)工程技術(shù)研究中心,江西 南昌330013)