《電子技術(shù)應(yīng)用》
欢迎订阅(电子2025)
欢迎订阅(网数2025)
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 常用測(cè)試集帶來(lái)過(guò)擬合?你真的能控制自己不根據(jù)測(cè)試集調(diào)參嗎
NI-LabVIEW 2025

常用測(cè)試集帶來(lái)過(guò)擬合?你真的能控制自己不根據(jù)測(cè)試集調(diào)參嗎

2018-06-06

在驗(yàn)證集上調(diào)優(yōu)模型已經(jīng)是機(jī)器學(xué)習(xí)社區(qū)通用的做法,雖然理論上驗(yàn)證集調(diào)優(yōu)后不論測(cè)試集有什么樣的效果都不能再調(diào)整模型,但實(shí)際上模型的超參配置或多或少都會(huì)受到測(cè)試集性能的影響。因此研究社區(qū)可能設(shè)計(jì)出只在特定測(cè)試集上性能良好,但無(wú)法泛化至新數(shù)據(jù)的模型。本論文通過(guò)創(chuàng)建一組真正「未見(jiàn)過(guò)」的同類圖像來(lái)測(cè)量 CIFAR-10 分類器的準(zhǔn)確率,因而充分了解當(dāng)前的測(cè)試集是否會(huì)帶來(lái)過(guò)擬合風(fēng)險(xiǎn)。


1 引言


過(guò)去五年中,機(jī)器學(xué)習(xí)成為一塊實(shí)驗(yàn)田。受深度學(xué)習(xí)研究熱潮的驅(qū)動(dòng),大量論文圍繞這樣一種范式——新型學(xué)習(xí)技術(shù)出現(xiàn)的主要依據(jù)是它在多項(xiàng)關(guān)鍵基準(zhǔn)上的性能提升。同時(shí),很少有人解釋為什么這項(xiàng)技術(shù)是對(duì)先前技術(shù)的可靠改進(jìn)。研究者對(duì)研究進(jìn)展的認(rèn)知主要依賴于少量標(biāo)準(zhǔn)基準(zhǔn),如 CIFAR-10、ImageNet 或 MuJoCo。這就引出了一個(gè)關(guān)鍵問(wèn)題:


目前機(jī)器學(xué)習(xí)領(lǐng)域衡量研究進(jìn)展的標(biāo)準(zhǔn)有多可靠?


對(duì)機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展進(jìn)行恰當(dāng)評(píng)估是一件非常精細(xì)的事情。畢竟,學(xué)習(xí)算法的目標(biāo)是生成一個(gè)可有效泛化至未見(jiàn)數(shù)據(jù)的模型。由于通常無(wú)法獲取真實(shí)數(shù)據(jù)的分布,因此研究人員轉(zhuǎn)而在測(cè)試集上評(píng)估模型性能。只要不利用測(cè)試集來(lái)選擇模型,這就是一種原則性強(qiáng)的評(píng)估方案。


不幸的是,我們通常只能獲取具備同樣分布的有限新數(shù)據(jù)?,F(xiàn)在大家普遍接受在算法和模型設(shè)計(jì)過(guò)程中多次重用同樣的測(cè)試集。該實(shí)踐有很多例子,包括一篇論文中的調(diào)整超參數(shù)(層數(shù)等),以及基于其他研究者的研究構(gòu)建模型。盡管對(duì)比新模型與之前模型的結(jié)果是非常自然的想法,但很明顯當(dāng)前的研究方法論削弱了一個(gè)關(guān)鍵假設(shè):分類器與測(cè)試集是獨(dú)立的。這種不匹配帶來(lái)了一種顯而易見(jiàn)的危險(xiǎn),研究社區(qū)可能會(huì)輕易設(shè)計(jì)出只在特定測(cè)試集上性能良好,但無(wú)法泛化至新數(shù)據(jù)的模型 [1]。


1.1 在 CIFAR-10 上的復(fù)現(xiàn)性研究


為了了解機(jī)器學(xué)習(xí)當(dāng)前進(jìn)展的可靠性,本文作者設(shè)計(jì)并實(shí)施了一種新型復(fù)現(xiàn)性研究。主要目標(biāo)是衡量現(xiàn)在的分類器泛化至來(lái)自同一分布的未見(jiàn)數(shù)據(jù)的性能。研究者主要使用標(biāo)準(zhǔn) CIFAR-10 數(shù)據(jù)集,因?yàn)樗膭?chuàng)建過(guò)程是透明的,尤其適合這項(xiàng)任務(wù)。此外,近十年的大量研究使用 CIFAR-10。由于該過(guò)程的競(jìng)爭(zhēng)性本質(zhì),這是一項(xiàng)調(diào)查適應(yīng)性(adaptivity)是否導(dǎo)致過(guò)擬合的優(yōu)秀測(cè)試用例。


該研究分為三步:


1. 首先,研究者創(chuàng)建一個(gè)新的測(cè)試集,將新測(cè)試集的子類別分布與原始 CIFAR-10 數(shù)據(jù)集進(jìn)行仔細(xì)匹配。


2. 在收集了大約 2000 張新圖像之后,研究者在新測(cè)試集上評(píng)估 30 個(gè)圖像分類模型的性能。結(jié)果顯示出兩個(gè)重要現(xiàn)象。一方面,從原始測(cè)試集到新測(cè)試集的模型準(zhǔn)確率顯著下降。例如,VGG 和 ResNet 架構(gòu) [7, 18] 的準(zhǔn)確率從 93% 下降至新測(cè)試集上的 85%。另一方面,研究者發(fā)現(xiàn)在已有測(cè)試集上的性能可以高度預(yù)測(cè)新測(cè)試集上的性能。即使在 CIFAR-10 上的微小改進(jìn)通常也能遷移至留出數(shù)據(jù)。


3. 受原始準(zhǔn)確率和新準(zhǔn)確率之間差異的影響,第三步研究了多個(gè)解釋這一差距的假設(shè)。一種自然的猜想是重新調(diào)整標(biāo)準(zhǔn)超參數(shù)能夠彌補(bǔ)部分差距,但是研究者發(fā)現(xiàn)該舉措的影響不大,僅能帶來(lái)大約 0.6% 的改進(jìn)。盡管該實(shí)驗(yàn)和未來(lái)實(shí)驗(yàn)可以解釋準(zhǔn)確率損失,但差距依然存在。


總之,研究者的結(jié)果使得當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域的進(jìn)展意味不明。適應(yīng) CIFAR-10 測(cè)試集的努力已經(jīng)持續(xù)多年,模型表現(xiàn)的測(cè)試集適應(yīng)性并沒(méi)有太大提升。頂級(jí)模型仍然是近期出現(xiàn)的使用 Cutout 正則化的 Shake-Shake 網(wǎng)絡(luò) [3, 4]。此外,該模型比標(biāo)準(zhǔn) ResNet 的優(yōu)勢(shì)從 4% 上升至新測(cè)試集上的 8%。這說(shuō)明當(dāng)前對(duì)測(cè)試集進(jìn)行長(zhǎng)時(shí)間「攻擊」的研究方法具有驚人的抗過(guò)擬合能力。


但是該研究結(jié)果令人對(duì)當(dāng)前分類器的魯棒性產(chǎn)生質(zhì)疑。盡管新數(shù)據(jù)集僅有微小的分布變化,但廣泛使用的模型的分類準(zhǔn)確率卻顯著下降。例如,前面提到的 VGG 和 ResNet 架構(gòu),其準(zhǔn)確率損失相當(dāng)于模型在 CIFAR-10 上的多年進(jìn)展 [9]。注意該實(shí)驗(yàn)中引入的分布變化不是對(duì)抗性的,也不是不同數(shù)據(jù)源的結(jié)果。因此即使在良性設(shè)置中,分布變化也對(duì)當(dāng)前模型的真正泛化能力帶來(lái)了嚴(yán)峻挑戰(zhàn)。


4 模型性能結(jié)果


完成新測(cè)試集構(gòu)建之后,研究者評(píng)估了多種不同的圖像分類模型。主要問(wèn)題在于如何對(duì)原始 CIFAR-10 測(cè)試集上的準(zhǔn)確率和新測(cè)試集上的準(zhǔn)確率進(jìn)行比較。為此,研究者對(duì)機(jī)器學(xué)習(xí)研究領(lǐng)域中出現(xiàn)多年的多種分類器進(jìn)行了實(shí)驗(yàn),這些模型包括廣泛使用的卷積網(wǎng)絡(luò)(VGG 和 ResNet [7,18])、近期出現(xiàn)的架構(gòu)(ResneXt、PyramidNet、DenseNet [6,10,20])、已發(fā)布的當(dāng)前最優(yōu)模型 Shake-Drop[21],以及從基于強(qiáng)化學(xué)習(xí)的超參數(shù)搜索而得到的模型 NASNet [23]。此外,他們還評(píng)估了基于隨機(jī)特征的「淺層」方法 [2,16]。總體來(lái)說(shuō),原始 CIFAR-10 測(cè)試集上的準(zhǔn)確率的范圍是 80% 到 97%。


對(duì)于所有深層架構(gòu),研究者都使用了之前在線發(fā)布的代碼來(lái)實(shí)現(xiàn)(參見(jiàn)附錄 A 的列表)。為了避免特定模型 repo 或框架帶來(lái)的偏差,研究者還評(píng)估了兩個(gè)廣泛使用的架構(gòu) VGG 和 ResNet(來(lái)自于在不同深度學(xué)習(xí)庫(kù)中實(shí)現(xiàn)的兩個(gè)不同來(lái)源)。研究者基于隨機(jī)特征為模型編寫(xiě)實(shí)現(xiàn)。


主要的實(shí)驗(yàn)結(jié)果見(jiàn)表 1 和圖 2 上,接下來(lái)將介紹結(jié)果中的兩個(gè)重要趨勢(shì),然后在第 6 部分中討論結(jié)果。

微信圖片_20180606200314.jpg


表 1:在原始 CIFAR-10 測(cè)試集和新測(cè)試集上的模型準(zhǔn)確率,其中 Gap 表示兩個(gè)準(zhǔn)確率之間的差距。? Rank 是從原始測(cè)試集到新測(cè)試集的排名的相對(duì)變化。例如,? Rank = ?2 表示模型在新測(cè)試集中的準(zhǔn)確率排名下降了兩位。

微信圖片_20180606200406.jpg


圖 2:新測(cè)試集上的模型準(zhǔn)確率 vs 原始數(shù)據(jù)集上的模型準(zhǔn)確率。


4.1 準(zhǔn)確率顯著下降


所有模型在新測(cè)試集上的準(zhǔn)確率都有顯著的下降。對(duì)于在原始測(cè)試集上表現(xiàn)較差的模型,這個(gè)差距更大;對(duì)于在原始測(cè)試集上表現(xiàn)較好的模型,這個(gè)差距較小。例如,VGG 和 ResNet 架構(gòu)的原始準(zhǔn)確率(約 93%)和新準(zhǔn)確率(約 85%)的差距大約為 8%。最佳準(zhǔn)確率由 shake_shake_64d_cutout 得到,其準(zhǔn)確率大致下降了 4%(從 97% 到 93%)。雖然準(zhǔn)確率下降幅度存在變化,但沒(méi)有一個(gè)模型是例外。


關(guān)于相對(duì)誤差,擁有更高原始準(zhǔn)確率的模型的誤差可能有更大的增長(zhǎng)。某些模型例如 DARC、shake_shake_32d 和 resnext_29_4x64d 在誤差率上有 3 倍的增長(zhǎng)。對(duì)于較簡(jiǎn)單的模型例如 VGG、AlexNet 或 ResNet,相對(duì)誤差增長(zhǎng)在 1.7 倍到 2.3 倍之間。參見(jiàn)附錄 C 中的全部相對(duì)誤差的表格。


4.2 相對(duì)順序變化不大


按照模型的新舊準(zhǔn)確率順序?qū)ζ溥M(jìn)行分類時(shí),總體排序結(jié)果差別不大。具有類似原始準(zhǔn)確率的模型往往出現(xiàn)相似的性能下降。實(shí)際上,如圖 2 所示,從最小二乘法擬合中派生出的線性函數(shù)可以對(duì)新舊準(zhǔn)確率之間的關(guān)系做出很好的解釋。模型的新準(zhǔn)確率大致由以下公式得出:


微信圖片_20180606200452.jpg

另一方面,值得注意的是一些技術(shù)在新測(cè)試集上有了持續(xù)的大幅提升。例如,將 Cutout 數(shù)據(jù)增強(qiáng) [3] 添加到 shake_shake_64d 網(wǎng)絡(luò),在原始測(cè)試集上準(zhǔn)確率只增加了 0.12%,而在新測(cè)試集上準(zhǔn)確率增加了大約 1.5%。同樣,在 wide_resnet_28_10 分類器中添加 Cutout,在原始測(cè)試集上準(zhǔn)確度提高了約 1%,在新測(cè)試集上提高了 2.2%。在另一個(gè)例子里,請(qǐng)注意,增加 ResNet 的寬度而不是深度可以為在新測(cè)試集上的性能帶來(lái)更大的好處。


4.3 線性擬合模型


盡管圖 2 中觀察到的線性擬合排除了新測(cè)試集與原始測(cè)試集分布相同的可能性,但新舊測(cè)試誤差之間的線性關(guān)系仍然非常顯著。對(duì)此有各種各樣的合理解釋。例如,假設(shè)原始測(cè)試集由兩個(gè)子集組成。在「easy」子集上,分類器達(dá)到了 a_0 的精度?!竓ard」子集的難度是κ倍,因?yàn)檫@些例子的分類誤差是κ倍。因此,該子集的精度為 1 ? κ(1 ? a_0)。如果這兩個(gè)子集的相對(duì)頻率是 p_1 和 p_2,可以得到以下總體準(zhǔn)確率:

微信圖片_20180606200527.jpg


可以重寫(xiě)為 a_0 的簡(jiǎn)單線性函數(shù):


微信圖片_20180606200603.jpg

對(duì)于新的測(cè)試集,研究者也假設(shè)有由不同比例的兩個(gè)相同分量組成的混合分布,相對(duì)頻率現(xiàn)在是 q_1 和 q_2。然后,可以將新測(cè)試集上的準(zhǔn)確率寫(xiě)為:



微信圖片_20180606200623.jpg

此處像之前一樣把項(xiàng)集合成一個(gè)簡(jiǎn)單的線性函數(shù)。


現(xiàn)在很容易看出,新的準(zhǔn)確率實(shí)際上是原始準(zhǔn)確率的線性函數(shù):


微信圖片_20180606200647.jpg

研究人員注意到,這種混合模型并不是一種真實(shí)的解釋,而是一個(gè)說(shuō)明性的例子,說(shuō)明原始和新的測(cè)試準(zhǔn)確率之間的線性相關(guān)性是如何在數(shù)據(jù)集之間的小分布移位下自然產(chǎn)生的。實(shí)際上,兩個(gè)測(cè)試集在不同的子集上具有不同準(zhǔn)確率的更復(fù)雜的組成。盡管如此,該模型揭示了即使分類器的相對(duì)排序保持不變,分布移位也可能存在令人驚訝的敏感性。研究人員希望這種對(duì)分布偏移的敏感性能夠在之后的研究中得到實(shí)驗(yàn)驗(yàn)證。


5. 解釋差異


為了解釋新舊準(zhǔn)確率之間的巨大差距,研究人員探究了多種假設(shè)(詳見(jiàn)原文)。


統(tǒng)計(jì)誤差

近似重復(fù)移除的差異

超參數(shù)調(diào)整

檢測(cè)高難度圖像

在部分新測(cè)試集上進(jìn)行訓(xùn)練

交叉驗(yàn)證

微信圖片_20180606200708.jpg


表 2:交叉驗(yàn)證拆分的模型準(zhǔn)確率。


6 討論


過(guò)擬合:實(shí)驗(yàn)是否顯示出過(guò)擬合?這是解釋結(jié)果時(shí)的主要問(wèn)題。簡(jiǎn)單來(lái)說(shuō),首先定義過(guò)擬合的兩個(gè)概念:


訓(xùn)練集過(guò)擬合。過(guò)擬合的一個(gè)概念是訓(xùn)練準(zhǔn)確率和測(cè)試準(zhǔn)確率之間的差異。請(qǐng)注意,本研究的實(shí)驗(yàn)中的深度神經(jīng)網(wǎng)絡(luò)通常達(dá)到 100% 的訓(xùn)練準(zhǔn)確率。所以這個(gè)過(guò)擬合的概念已經(jīng)出現(xiàn)在已有數(shù)據(jù)集上了。

測(cè)試集過(guò)擬合。過(guò)擬合的另一個(gè)概念是測(cè)試準(zhǔn)確率和潛在數(shù)據(jù)分布準(zhǔn)確率之間的差距。通過(guò)使模型設(shè)計(jì)選擇適應(yīng)測(cè)試集,他們擔(dān)心的是這將隱性地使模型適應(yīng)測(cè)試集。測(cè)試準(zhǔn)確率隨后失去了對(duì)真正未見(jiàn)過(guò)數(shù)據(jù)準(zhǔn)確性進(jìn)行測(cè)量的有效性。


由于機(jī)器學(xué)習(xí)的整體目標(biāo)是泛化到未見(jiàn)過(guò)的數(shù)據(jù),研究者認(rèn)為通過(guò)測(cè)試集適應(yīng)性實(shí)現(xiàn)的第二種過(guò)擬合更重要。令人驚訝的是,他們的研究結(jié)果顯示在 CIFAR-10 并沒(méi)有這種過(guò)擬合的跡象。盡管在該數(shù)據(jù)集上具有多年的競(jìng)爭(zhēng)適應(yīng)性,但在真正的留出數(shù)據(jù)(held out data)上并沒(méi)有停滯不前。事實(shí)上,在新測(cè)試集中,性能最好的模型比更成熟的基線有更大的優(yōu)勢(shì)。盡管這一趨勢(shì)與通過(guò)適應(yīng)性實(shí)現(xiàn)過(guò)擬合所暗示的相反。雖然最終的結(jié)果需要進(jìn)一步的復(fù)制實(shí)驗(yàn),但研究者認(rèn)為他們的結(jié)果支持基于競(jìng)爭(zhēng)的方法來(lái)提高準(zhǔn)確率。


研究者注意到 Blum 和 Hardt 的 Ladder 算法分析可以支持這一項(xiàng)聲明 [1]。事實(shí)上,他們表明向標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)競(jìng)賽中加入一些小修改就能避免這種程度的過(guò)擬合,即通過(guò)激進(jìn)的適應(yīng)性導(dǎo)致過(guò)擬合。他們的結(jié)果表明即使沒(méi)有這些修改,基于測(cè)試誤差的模型調(diào)優(yōu)也不會(huì)在標(biāo)準(zhǔn)數(shù)據(jù)集上產(chǎn)生過(guò)擬合現(xiàn)象。


分布轉(zhuǎn)移(distribution shift)。盡管研究者的結(jié)果并不支持基于適應(yīng)性的過(guò)擬合假設(shè),但仍需要解釋原始準(zhǔn)確率和新準(zhǔn)確率之間的顯著性差異。他們認(rèn)為這種差異是原始 CIFAR-10 數(shù)據(jù)集與新的測(cè)試集之間小的分布轉(zhuǎn)移造成的。盡管研究者努力復(fù)制 CIFAR-10 數(shù)據(jù)集的創(chuàng)建過(guò)程,但它和原始數(shù)據(jù)集之間的差距還是很大,因此也就影響了所有模型。通常可以通過(guò)對(duì)數(shù)據(jù)生成過(guò)程中的特定變換(如光照條件的改變),或用對(duì)抗樣本進(jìn)行攻擊來(lái)研究數(shù)據(jù)分布的轉(zhuǎn)移。本研究的實(shí)驗(yàn)更加溫和而沒(méi)有引起這些挑戰(zhàn)。盡管如此,所有模型的準(zhǔn)確率都下降了 4-15%,對(duì)應(yīng)的誤差率增大了 3 倍。這表明目前 CIFAR-10 分類器難以泛化到圖像數(shù)據(jù)的自然變化。


論文:Do CIFAR-10 Classifiers Generalize to CIFAR-10?


微信圖片_20180606200731.jpg

論文地址:https://arxiv.org/abs/1806.00451


摘要:目前大部分機(jī)器學(xué)習(xí)做的都是實(shí)驗(yàn)性的工作,主要集中在一些關(guān)鍵任務(wù)的改進(jìn)上。然而,性能最好的模型所具有的令人印象深刻的準(zhǔn)確率令人懷疑,因?yàn)槎嗄陙?lái)一直使用相同的測(cè)試集來(lái)選擇這些模型。為了充分了解其中的過(guò)擬合風(fēng)險(xiǎn),我們通過(guò)創(chuàng)建一組新的真正未見(jiàn)過(guò)的圖像來(lái)測(cè)量 CIFAR-10 分類器的準(zhǔn)確率。盡管確保了新的測(cè)試集盡可能接近原始數(shù)據(jù)分布,但我們發(fā)現(xiàn),很多深度學(xué)習(xí)模型的準(zhǔn)確率下降很大(4% 到 10%)。然而,具有較高原始準(zhǔn)確率的較新模型顯示出較小的下降和較好的整體性能,這表明這種下降可能不是由基于適應(yīng)能力的過(guò)擬合造成的。相反,我們認(rèn)為我們的結(jié)果表明了當(dāng)前的準(zhǔn)確率是脆弱的,并且容易受到數(shù)據(jù)分布中微小自然變化的影響。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。