當(dāng)前的分類模型泛化到新數(shù)據(jù)時(shí)總會(huì)有不同程度的準(zhǔn)確率下降,傳統(tǒng)觀點(diǎn)認(rèn)為這種下降與模型的適應(yīng)性相關(guān)。但本文通過實(shí)驗(yàn)證明,準(zhǔn)確率下降的原因是模型無法泛化到比原始測(cè)試集中更難分類的圖像上。
機(jī)器學(xué)習(xí)的首要目標(biāo)是生成泛化模型。我們常通過測(cè)量模型在測(cè)試集上的性能來量化模型的泛化能力。在測(cè)試集上的良好性能是指什么?至少在遵循相同的數(shù)據(jù)清理協(xié)議時(shí),模型在由相同數(shù)據(jù)源組成的新測(cè)試集上也能表現(xiàn)良好。
在本文中,研究人員通過復(fù)制兩個(gè)重要基線數(shù)據(jù)集(CIFAR-10 和 ImageNet)的創(chuàng)建過程來實(shí)現(xiàn)這一實(shí)驗(yàn)。與理想結(jié)果相反,他們發(fā)現(xiàn)很多分類模型未能達(dá)到其原始的準(zhǔn)確率分?jǐn)?shù)。CIFAR-10 的準(zhǔn)確率下降了 3%~15%,ImageNet 的準(zhǔn)確率下降了 11%~14%。在 ImageNet 上,損失的準(zhǔn)確率大概需要機(jī)器學(xué)習(xí)研究高度活躍時(shí)期五年的進(jìn)步來彌補(bǔ)。
傳統(tǒng)觀點(diǎn)認(rèn)為,出現(xiàn)這種下降的原因是模型已經(jīng)適應(yīng)了原始測(cè)試集中的特定圖像,例如,通過廣泛的超參數(shù)調(diào)整。然而,本文的實(shí)驗(yàn)表明,模型的相對(duì)順序在新測(cè)試集上幾乎保持不變:在原始測(cè)試集上具有最高準(zhǔn)確率的模型仍然是新測(cè)試集上具有最高準(zhǔn)確率的模型。而且,準(zhǔn)確率方面也沒有遞減。實(shí)際上,原始測(cè)試集上的準(zhǔn)確率每提高一個(gè)百分點(diǎn)都意味著新測(cè)試集上更大的改進(jìn)。因此,雖然后來的模型本可以更好地適應(yīng)測(cè)試集,但它們的準(zhǔn)確率下降較小。實(shí)驗(yàn)結(jié)果證明,全面的測(cè)試集評(píng)估是改進(jìn)圖像分類模型的有效方法。因此,自適應(yīng)性不太可能是準(zhǔn)確率下降的原因。
相反,研究人員基于原始和新測(cè)試集的相對(duì)難度提出了另一種解釋。他們證明,如果新數(shù)據(jù)集只包含候選池中最簡(jiǎn)單的圖像,幾乎可以完全恢復(fù)原始的 ImageNet 準(zhǔn)確率。這表明即使是最好的圖像分類器,其準(zhǔn)確率分?jǐn)?shù)也對(duì)數(shù)據(jù)清理過程的細(xì)節(jié)高度敏感。它還表明,即使在精心控制的重復(fù)性實(shí)驗(yàn)的良性環(huán)境中,目前的分類器仍然不能可靠地泛化。
圖 1 顯示了實(shí)驗(yàn)的主要結(jié)果。為了支持未來研究,研究人員還發(fā)布了新的測(cè)試集和相應(yīng)的代碼。
圖 1:在原始測(cè)試集和新測(cè)試集上的模型準(zhǔn)確率。每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)于測(cè)試平臺(tái)中的一個(gè)模型(顯示為 95%的 Clopper-Pearson 置信區(qū)間)。該圖揭示了兩個(gè)主要現(xiàn)象:1)從原始測(cè)試集到新測(cè)試集的準(zhǔn)確率明顯下降。2)模型準(zhǔn)確率遵循斜率大于 1 的線性函數(shù)(CIFAR-10 為 1.7,ImageNet 為 1.1)。這意味著原始測(cè)試集上的每個(gè)百分點(diǎn)的改進(jìn)會(huì)轉(zhuǎn)換為新測(cè)試集上超過一個(gè)百分點(diǎn)的改進(jìn)。從上圖可以直觀地對(duì)比兩邊的斜率。紅色區(qū)域是 10 萬個(gè) bootstrap 樣本線性擬合的 95%置信區(qū)域。
論文:Do ImageNet Classifiers Generalize to ImageNet?
論文地址:http://people.csail.mit.edu/ludwigs/papers/imagenet.pdf
摘要:我們?yōu)?CIFAR-10 和 ImageNet 數(shù)據(jù)集構(gòu)建了新的測(cè)試集。這兩個(gè)基準(zhǔn)測(cè)試集近十年來一直是研究的焦點(diǎn),增加了過度重復(fù)使用測(cè)試集的風(fēng)險(xiǎn)。通過密切關(guān)注原始數(shù)據(jù)集創(chuàng)建過程,我們測(cè)試了當(dāng)前分類模型泛化到新數(shù)據(jù)的程度。我們?cè)u(píng)估了大量模型,發(fā)現(xiàn)在 CIFAR-10 上的準(zhǔn)確率下降了 3%~15%,在 ImageNet 上的準(zhǔn)確率下降了 11%~14%。但是,原始測(cè)試集上準(zhǔn)確率的改進(jìn)能夠?yàn)樾聹y(cè)試集帶來更大的改進(jìn)。結(jié)果表明,準(zhǔn)確率下降不是由適應(yīng)性造成的,而是由于模型無法泛化到比原始測(cè)試集中更難分類的圖像上。
實(shí)驗(yàn)總結(jié)
可重復(fù)性實(shí)驗(yàn)的主要步驟如下。附錄 B 和 C 詳細(xì)地描述了此方法。第一步是選擇信息性數(shù)據(jù)集。
表 1:原始 CIFAR-10 測(cè)試集、原始 ImageNet 驗(yàn)證集和新測(cè)試集上的模型準(zhǔn)確率。ΔRank 是所有模型完整排序中從原始測(cè)試集到新測(cè)試集的排名相對(duì)差異(參見附錄 B.3.3 和 C.4.4)。例如,ΔRank= -2 意味著與原始測(cè)試集相比,新測(cè)試集上的模型下降了兩名。置信區(qū)間為 95%的 Clopper-Pearson 區(qū)間。由于篇幅限制,模型的參考資料見附錄 B.3.2 和 C.4.3。
表 2:三種采樣策略對(duì) ImageNet 測(cè)試集的影響。該表顯示了結(jié)果數(shù)據(jù)集中的平均 MTurk 選擇頻率,以及與原始驗(yàn)證集相比模型準(zhǔn)確率的平均變化。所有三個(gè)測(cè)試集的平均選擇頻率都超過 0.7,但模型準(zhǔn)確率仍然相差很大。相比之下,在 MTurk 實(shí)驗(yàn)中,原始 ImageNet 驗(yàn)證集的平均選擇頻率為 0.71。在 top-1 和 top-5 中,平均準(zhǔn)確率的變化分別為 14%和 10%。這表明采樣策略的細(xì)節(jié)對(duì)結(jié)果的準(zhǔn)確率有很大影響。
圖 2:原始 ImageNet 驗(yàn)證集上的模型準(zhǔn)確率 vs. 新測(cè)試集的兩個(gè)變體上的準(zhǔn)確率。每個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)于測(cè)試平臺(tái)中的一個(gè)模型(顯示為 95%的 Clopper-Pearson 置信區(qū)間)。閾值為 0.7 時(shí),模型準(zhǔn)確率比在原始測(cè)試集上低了 3%。在 MTurk 工作人員最常選擇圖像的 TopImages 上,模型的性能比在原始測(cè)試集上提高了 2%。兩個(gè)數(shù)據(jù)集的準(zhǔn)確率都遵循線性函數(shù)規(guī)律,類似于圖 1 中的 MatchedFrequency。紅色陰影區(qū)域是 10 萬個(gè) bootstrap 樣本線性擬合的 95%置信區(qū)域。