中文引用格式: 顧明珠,明瑞成,邱創(chuàng)一,等. 一種多教師模型知識蒸餾深度神經(jīng)網(wǎng)絡(luò)模型壓縮算法[J]. 電子技術(shù)應(yīng)用,2023,49(8):7-12.
英文引用格式: Gu Mingzhu,Ming Ruicheng,Qiu Chuangyi,et al. A multi-teacher knowledge distillation model compression algorithm for deep neural network[J]. Application of Electronic Technique,2023,49(8):7-12.
0 引言
隨著人工智能技術(shù)發(fā)展,要將越來越龐大的的模型部署到實際的工業(yè)社會中時,相應(yīng)硬件的算力要求和存儲要求成為了最大障礙。因此,為加快人工智能技術(shù)在社會生活和工業(yè)的廣泛使用,越來越多的學(xué)者們對深度學(xué)習(xí)模型進行輕量化壓縮進行研究[1],而知識蒸餾方法已然成為比較主流的模型輕量化方法[2]。
知識蒸餾是指利用已經(jīng)訓(xùn)練好的大型深度學(xué)習(xí)模型輔助訓(xùn)練出一個小型模型,其中大型模型稱為教師模型,起到監(jiān)督和輔助小型模型訓(xùn)練的作用。小型模型稱為學(xué)生模型,接受來自教師模型的知識,并最終用于實際部署。2015年Hinton[3]首次提出了知識蒸餾這一概念以來,研究者們開始對壓縮后如何保證學(xué)生模型精度這一問題進行研究。知識蒸餾從教師模型規(guī)模分為單教師模型的蒸餾和多教師模型知識蒸餾兩類。單教師模型即只使用一個教師模型對學(xué)生模型進行蒸餾,如Romero[4]將學(xué)生模型的網(wǎng)絡(luò)設(shè)計成較細(xì)且層數(shù)較深的形狀,并且將學(xué)生模型和教師模型的特征層連接,讓學(xué)生模型從教師模型的特征層提層知識。Chen[5]等在蒸餾中加入GAN結(jié)構(gòu),模擬原始數(shù)據(jù)集擴大數(shù)據(jù)量提供給新的模型進行知識蒸餾。Liu[6]等人將NAS引入知識蒸餾,根據(jù)教師模型結(jié)構(gòu)從NAS中選擇最契合的學(xué)生網(wǎng)絡(luò)與之匹配以達(dá)到最佳蒸餾效果,但NAS需要巨大內(nèi)存使該方法難以大面積推廣。Dai[7]等提出利用教師模型和學(xué)生模型預(yù)測實例的差異,提出實例差異的評估指標(biāo),并利用可區(qū)分的實例進行蒸餾。知識蒸餾中學(xué)生網(wǎng)絡(luò)的知識大部分來源于教師模型,因此由單個教師模型知識蒸餾得到的學(xué)生模型精度上限受限于對應(yīng)的教師模型,難以有很大提升。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000005484
作者信息:
顧明珠1,2,明瑞成2,邱創(chuàng)一1,2,王新文1,2
(1.福州大學(xué) 先進制造學(xué)院,福建 泉州 362000;2.中國科學(xué)院海西研究院泉州裝備制造研究中心,福建 泉州 362000)