目前開(kāi)發(fā)者可以使用非常多的移動(dòng)端 CNN 架構(gòu),也可以在機(jī)器上訓(xùn)練新穎的視覺(jué)模型并部署到手機(jī)端。但各種各樣的移動(dòng)端任務(wù)可能并不能借助已有的 CNN 架構(gòu)達(dá)到非常好的效果,因此谷歌近日將神經(jīng)架構(gòu)搜索方法引入了輕量級(jí)的 CNN 網(wǎng)絡(luò),并提出基于強(qiáng)化學(xué)習(xí)的 MnasNet 以自動(dòng)設(shè)計(jì)移動(dòng)端模型。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)已被廣泛用于圖像分類(lèi)、人臉識(shí)別、目標(biāo)檢測(cè)和其他領(lǐng)域。然而,為移動(dòng)設(shè)備設(shè)計(jì) CNN 是一項(xiàng)具有挑戰(zhàn)性的工作,因?yàn)橐苿?dòng)端模型需要體積小、速度快,還要保持精準(zhǔn)。盡管人們已經(jīng)做了大量努力來(lái)設(shè)計(jì)和改進(jìn)移動(dòng)端模型,如 MobileNet 和 MobileNetV2,但手動(dòng)創(chuàng)建高效模型仍然是一項(xiàng)挑戰(zhàn),因?yàn)橐紤]的因素太多。從最近 AutoML 神經(jīng)架構(gòu)搜索方面的進(jìn)展受到啟發(fā),我們?cè)谙胍苿?dòng)端 CNN 模型的設(shè)計(jì)是否也能受益于 AutoML 方法。
在《MnasNet: Platform-Aware Neural Architecture Search for Mobile》一文中,我們探索了一種使用強(qiáng)化學(xué)習(xí)設(shè)計(jì)移動(dòng)端模型的自動(dòng)化神經(jīng)架構(gòu)搜索方法。為了處理移動(dòng)端速度限制,我們明確地將速度信息納入搜索算法的主要獎(jiǎng)勵(lì)函數(shù)中,以便搜索可以識(shí)別一個(gè)在準(zhǔn)確率和速度之間實(shí)現(xiàn)良好平衡的模型。如此,MnasNet 能夠找到運(yùn)行速度比 MobileNet V2(手工制造的最先進(jìn)水平)快 1.5 倍、比 NASNet 快 2.4 倍的型號(hào),同時(shí)達(dá)到同樣的 ImageNet top-1 準(zhǔn)確率。
不同于以前的架構(gòu)搜索方法,在這種方法中,模型速度是通過(guò)另一個(gè)替代品(如 FLOPS)來(lái)考慮的。我們的方法通過(guò)在特定平臺(tái)上執(zhí)行模型來(lái)直接測(cè)量模型速度,例如本研究中使用的 Pixel 手機(jī)。通過(guò)這種方式,我們可以直接測(cè)量現(xiàn)實(shí)世界中可以實(shí)現(xiàn)的指標(biāo),因?yàn)槊糠N類(lèi)型的移動(dòng)設(shè)備都有自己的軟件和硬件特性,并且可能需要不同的架構(gòu)來(lái)在準(zhǔn)確率和速度之間做出最佳權(quán)衡。
我們方法的總體流程主要包括三個(gè)部分:一個(gè)基于 RNN 的學(xué)習(xí)和采樣模型架構(gòu)控制器,一個(gè)建立和訓(xùn)練模型以獲得準(zhǔn)確率的訓(xùn)練器,以及一個(gè)使用 TensorFlow Lite 測(cè)量真實(shí)手機(jī)上模型速度的推理引擎。我們制定了一個(gè)多目標(biāo)優(yōu)化問(wèn)題,旨在實(shí)現(xiàn)高準(zhǔn)確率和高速,并利用帶有定制獎(jiǎng)勵(lì)函數(shù)的強(qiáng)化學(xué)習(xí)算法來(lái)尋找帕累托最優(yōu)解 (例如,具有最高準(zhǔn)確率但速度不變的模型)。
移動(dòng)端自動(dòng)神經(jīng)架構(gòu)搜索方法的整體流程圖
為了在搜索靈活性與搜索空間大小之間取得適當(dāng)?shù)钠胶?,我們提出了一種新型因子化的層級(jí)搜索空間,它將卷積神經(jīng)網(wǎng)絡(luò)分解為一個(gè)由模塊組成的序列,然后使用層級(jí)搜索空間決定每一個(gè)模塊的層級(jí)結(jié)構(gòu)。通過(guò)這種方式,我們的方法允許不同的層級(jí)使用不同的運(yùn)算與連接。同時(shí),我們強(qiáng)制每一個(gè)模塊共享相同的結(jié)構(gòu),因此與逐層搜索相比搜索空間要顯著地小幾個(gè)數(shù)量級(jí)。
我們的 MnasNet 網(wǎng)絡(luò)從新型因子化層級(jí)搜索空間中采樣,上圖展示了網(wǎng)絡(luò)架構(gòu)中的不同層級(jí)。
我們?cè)?ImageNet 分類(lèi)和 COCO 目標(biāo)檢測(cè)任務(wù)上測(cè)試了該方法的有效性。我們的實(shí)驗(yàn)在典型的移動(dòng)端資源下實(shí)現(xiàn)了新的當(dāng)前最優(yōu)準(zhǔn)確度。特別地,下圖展示了該網(wǎng)絡(luò)在 ImageNet 上的結(jié)果。
ImageNet 準(zhǔn)確率和推理延遲的對(duì)比。
在相同的準(zhǔn)確率下,MnasNet 模型的速度比手工調(diào)參得到的當(dāng)前最佳模型 MobileNet V2 快 1.5 倍,并且比 NASNet 快 2.4 倍,它也是使用架構(gòu)搜索的算法。在應(yīng)用壓縮和激活(squeeze-and-excitation)優(yōu)化方法后,MnasNet+SE 模型獲得了 76.1% 的 ResNet 級(jí)別的 top-1 準(zhǔn)確率,其中參數(shù)數(shù)量是 ResNet 的 1/19,且乘法-加法運(yùn)算量是它的 1/10。在 COCO 目標(biāo)檢測(cè)任務(wù)上,我們的模型族獲得了比 MobileNet 更快的速度和更高的準(zhǔn)確率,并在 1/35 的計(jì)算成本下獲得了和 SSD300 相當(dāng)?shù)臏?zhǔn)確率。
我們很高興看到該自動(dòng)化架構(gòu)搜索方法可以在多個(gè)復(fù)雜移動(dòng)設(shè)備視覺(jué)任務(wù)上取得當(dāng)前最佳性能。在未來(lái),我們計(jì)劃把更多的運(yùn)算和優(yōu)化方法整合到搜索空間中,并將其應(yīng)用到更多的移動(dòng)設(shè)備視覺(jué)任務(wù)上,例如語(yǔ)義分割。