近日,一篇來自德國癌癥研究中心、海德堡大學(xué)以及海德堡大學(xué)醫(yī)院研究人員的名為nnU-Net的醫(yī)學(xué)影像分割論文引起了廣泛關(guān)注。
該團隊提出了一個可以自適應(yīng)任何新數(shù)據(jù)集的醫(yī)學(xué)影像分割框架,該框架能根據(jù)給定數(shù)據(jù)集的屬性自動調(diào)整所有超參數(shù),整個過程無需人工干預(yù)。僅僅依賴于樸素的U-Net結(jié)構(gòu)和魯棒的訓(xùn)練方案,nnU-Net在六個得到公認(rèn)的分割挑戰(zhàn)中實現(xiàn)了最先進的性能。
摘要
在數(shù)據(jù)集的多樣性的推動下,語義分割是醫(yī)學(xué)圖像分析中的一個熱門子領(lǐng)域,每年都會有大量的新方法提出。然而,這種不斷增長的錯綜復(fù)雜的方法變得越來越難以捉摸。同時,許多提出的方法未能在提出的論文之外進行推廣,從而妨礙了在新數(shù)據(jù)集上開發(fā)分割算法的過程。
在這里,我們提出了nnU-Net ('no-new-Net')——一個自適應(yīng)任何給定新數(shù)據(jù)集的框架。雖然到目前為止這個過程完全由人為驅(qū)動,但我們首先嘗試根據(jù)給定數(shù)據(jù)集的屬性自動執(zhí)行必要的調(diào)整,例如數(shù)據(jù)預(yù)處理、圖像分塊大小、批量大小和推理設(shè)置。
值得注意的是,nnU-Net去掉了在學(xué)界提出的花哨的網(wǎng)絡(luò)結(jié)構(gòu),而僅僅依賴于嵌入在魯棒的訓(xùn)練方案中的樸素U-Net結(jié)構(gòu)。nnU-Net在六個得到公認(rèn)的的分割挑戰(zhàn)中實現(xiàn)了最先進的性能。
介紹
語義分割仍然是醫(yī)學(xué)圖像計算領(lǐng)域的一個熱門研究課題,70%的國際競賽都是圍繞著它展開。引起持久關(guān)注的重要原因當(dāng)然是醫(yī)學(xué)領(lǐng)域中遇到的成像數(shù)據(jù)集的多樣性和個體特性:數(shù)據(jù)集之間的數(shù)據(jù)規(guī)模、圖像維度、圖像大小、體素灰度范圍和灰度表示方面差別很大。
圖像中的類標(biāo)簽可能高度不平衡,也可能不明確,而且數(shù)據(jù)集之間標(biāo)注質(zhì)量的差別也很大。此外,某些數(shù)據(jù)集在圖像幾何形狀方面非常不均勻,或者可能出現(xiàn)片層不對齊和極不均勻的間距的情況??偠灾?,這些情況使得將一項任務(wù)的結(jié)果推廣到其他任務(wù)變得更加困難,并且當(dāng)重新應(yīng)用這些方法來解決另一個問題時,它們往往會失敗。
調(diào)整設(shè)計決策或提出新設(shè)計概念的過程是復(fù)雜的:大多數(shù)選擇高度依賴于彼此,證明選擇的證據(jù)分布在無數(shù)的論文中,其中包括許多“噪音”。所以,近年來學(xué)者們提出了大量的分割方法。一個突出的例子是:U-Net這樣的帶跳過連接的解碼-編碼結(jié)構(gòu)的各種變體,包括引入殘差連接、密集連接、注意力機制、額外輔助的損失層、特征重新校準(zhǔn)和其他(如自動聚焦層)。
具體的修改彼此大不相同,但是它們都在網(wǎng)絡(luò)結(jié)構(gòu)修改上有一個特別的關(guān)注點。考慮到大量與分割相關(guān)的論文,以及具體實現(xiàn)的多樣性以及數(shù)據(jù)集相關(guān)的挑戰(zhàn),越來越難以遵循這些文獻來確定哪些設(shè)計原則真正地在實驗之外得到了推廣驗證。根據(jù)我們自己的經(jīng)驗,許多新的設(shè)計概念并沒有提升分割性能,有時甚至損害了基線的性能。
當(dāng)今醫(yī)學(xué)圖像計算的一個關(guān)鍵問題是將(分割)方法應(yīng)用于新問題的過程完全由人為驅(qū)動。它基于經(jīng)驗,論文主要關(guān)注網(wǎng)絡(luò)結(jié)構(gòu),而略過所有其他超參數(shù)?;€方法次優(yōu)調(diào)整通常通過新結(jié)構(gòu)的提出來進行補償。 由于超參數(shù)空間中的強依賴性和大量的局部最小值,使得將方法更好地適應(yīng)新問題變得非常困難,因此在這個循環(huán)中的任何人都不能真正地被指責(zé)。這種情況對研究人員和整個學(xué)術(shù)圈來說都是令人沮喪的。特別是在數(shù)據(jù)集如此多樣化的醫(yī)學(xué)成像領(lǐng)域,進展在很大程度上取決于我們解決這些問題的能力。
本文試圖朝這個方向邁出第一步:我們提出了no-new-Net(nnU-Net),一種包含自動適應(yīng)新數(shù)據(jù)集的分割方法?;趯?shù)據(jù)集的自動分析,nnU-Net自動設(shè)計并執(zhí)行網(wǎng)絡(luò)訓(xùn)練流程。圍繞標(biāo)準(zhǔn)的 U-Net網(wǎng)絡(luò)結(jié)構(gòu),我們假定通過給定的一組系統(tǒng)且謹(jǐn)慎選擇的超參數(shù)的分割方法仍將產(chǎn)生有競爭力的性能。實際上,在沒有任何手動微調(diào)的情況下,該方法在幾個有名的醫(yī)學(xué)分割基準(zhǔn)上實現(xiàn)了最先進的性能。
方法
分割算法可以形式化為函數(shù)fθ(x)= y?,其中x是圖像,y?是相應(yīng)的預(yù)測分割,θ 是訓(xùn)練和應(yīng)用該方法所需的超參數(shù)集合。θ 的維度可以非常大,包括了從預(yù)處理到推理的整個流程。許多已有論文通常側(cè)重于報告和證實關(guān)于θ 的最相關(guān)的選擇,理想情況下會提供源代碼以完全覆蓋θ。但是,如果轉(zhuǎn)換到具有不同屬性的新數(shù)據(jù)集,則此過程缺乏對如何調(diào)整θ 的深入了解。 在這里,我們首次嘗試將此過程形式化。
具體來說,我們尋找在數(shù)據(jù)集之間很好地推廣的函數(shù)g(X, Y)=θ。在第一步中,需要識別那些不需要調(diào)整的超參數(shù),在我們的例子中,這些超參數(shù)反映了一個強大但簡單的分割體系和一個魯棒的訓(xùn)練方案,這些影響因素都是動態(tài)的,需要根據(jù)X和Y作出相應(yīng)改變的。
在第二步中,我們定義動態(tài)參數(shù)g,在我們的例子中是一組啟發(fā)式規(guī)則,以用于調(diào)整規(guī)范化和重采樣方案,配置圖像分塊大小和批量大小以及計算網(wǎng)絡(luò)的具體結(jié)構(gòu),其包括網(wǎng)絡(luò)集成和推理方法??偠灾琻nU-Net是一個可以在沒有任何用戶交互的情況下適應(yīng)不同未見過數(shù)據(jù)集的分割框架。
2.1 預(yù)處理
圖像標(biāo)準(zhǔn)化
這一步驟需要輸入數(shù)據(jù)的模態(tài)信息。如果模態(tài)不是CT,則nnU-Net通過減去平均值并除以標(biāo)準(zhǔn)差來標(biāo)準(zhǔn)化強灰度值。如果模態(tài)是CT,則自動地根據(jù)訓(xùn)練集分割前景區(qū)域灰度分布的0.5%到99.5%執(zhí)行強灰度值的類似窗位的剪切。為了符合典型的權(quán)重初始化方法,使用全局前景均值和標(biāo)準(zhǔn)偏差對數(shù)據(jù)進行歸一化。
體素間距
nnU-Net會統(tǒng)計訓(xùn)練數(shù)據(jù)中的所有間距,并且選擇每個軸的中值間距作為目標(biāo)間距。然后使用三階樣條插值對所有訓(xùn)練集進行重采樣。各向異性間距(這里特指平面外間距比平面內(nèi)間距大三倍以上的情況)會引起插值偽影。在這種情況下,我們使用最近鄰?fù)瓿善矫嫱獠逯怠τ谙鄳?yīng)的每一類分割標(biāo)簽,則使用線性插值來進行重采樣。
2.2 訓(xùn)練步驟
網(wǎng)絡(luò)結(jié)構(gòu)
三個U-net模型(2D U-Net、3D U-Net和兩個3D U-Net模型的級聯(lián)方式)彼此獨立配置、設(shè)計和訓(xùn)練。在兩個3D U-Net模型的級聯(lián)構(gòu)架下,其第一個模型產(chǎn)生低分辨率分割結(jié)果,隨后由第二個模型進行下一步細(xì)化。相對于原始的U-Net網(wǎng)絡(luò),我們只進行了下面三個改變:其一是使用帶邊緣填充的卷積操作來實現(xiàn)輸出和輸入形狀的一致,其二是使用實例歸一化,其三是使用Leaky ReLUs代替ReLUs。
網(wǎng)絡(luò)超參數(shù)
這些參數(shù)需要根據(jù)預(yù)處理的訓(xùn)練數(shù)據(jù)的形狀來調(diào)整。具體來說,nnU-Net自動設(shè)置批量大小,圖像分塊大小和每個軸的pooling次數(shù),使得顯存消耗保持在特定范圍(12 GB TitanXp GPU)內(nèi)。在這一步中,較大的h圖像分塊大小優(yōu)先于批量大?。ㄗ钚∨看笮?),以獲取更多的空間上下文信息。每個軸的大小會pooling到4個體素以下。所有U-Net結(jié)構(gòu)在第一層使用30個卷積濾波器,并在每個pooling操作時將此數(shù)量加倍。如果在典型case中所選擇的圖像分塊大小覆蓋的體素少于25%,則會使用下采樣的數(shù)據(jù)訓(xùn)練級聯(lián)的3D U-Net。級聯(lián)旨在當(dāng)圖像分塊大小太小而無法覆蓋整個分辨率,使nnU-Net仍能獲得足夠的上下文。
網(wǎng)絡(luò)訓(xùn)練
所有U-Net結(jié)構(gòu)都經(jīng)過五折交叉驗證訓(xùn)練。每輪設(shè)置250個小批量。使用交叉熵?fù)p失和Dice損失之和作為損失函數(shù)。使用Adam作為優(yōu)化器,初始學(xué)習(xí)率為 3×10?4 ,l2 權(quán)重衰減為 3×10?5。每當(dāng)訓(xùn)練損失的指數(shù)移動平均值在最近30個時期內(nèi)沒有改善時,學(xué)習(xí)率下降0.2倍。當(dāng)學(xué)習(xí)率低于 10?6 或超過1000個訓(xùn)練輪數(shù)時,停止訓(xùn)練。我們使用batchgenerators 框架在訓(xùn)練期間進行在線數(shù)據(jù)增強。具體地,我們使用彈性變形、隨機縮放和隨機旋轉(zhuǎn)以及gamma增強。如果數(shù)據(jù)是各向異性的,則在平面內(nèi)進行2D的空間變換。
2.3 推理
使用滑動窗口方法預(yù)測每個Case,其中重疊區(qū)域設(shè)置為圖像分塊大小的一半。這增加了靠近中心區(qū)域的預(yù)測的權(quán)重。通過沿所有軸翻轉(zhuǎn)來進行測試數(shù)據(jù)增強。
nnU-Net集成由兩個U-Net組合而成(2D、3D和cascade),并根據(jù)交叉驗證結(jié)果自動選擇用于測試集預(yù)測的最佳模型或集成。更進一步,nnU-Net還使用交叉驗證產(chǎn)生的五個模型進行集成。
結(jié)果
nnU-Net最初是在醫(yī)學(xué)分割十項全能挑戰(zhàn)賽Decathlon的第一階段的七個訓(xùn)練數(shù)據(jù)集上開發(fā)的。挑戰(zhàn)賽數(shù)據(jù)集涵蓋了醫(yī)學(xué)分割問題中通常遇到的大量差異性和挑戰(zhàn)。nnU-Net在醫(yī)學(xué)十項全能分割挑戰(zhàn)賽(第一階段和第二階段)以及另外五個流行的醫(yī)學(xué)分割挑戰(zhàn)進行了評估。所有挑戰(zhàn)賽結(jié)果如表格1所示。
圖1所示:nnU-Net在各個醫(yī)學(xué)分割數(shù)據(jù)測試集的性能。所有的排行榜提交都被繪制在上圖(截止到19年3月25日)。Decathlon, LiTS, ACDC and BCV的數(shù)值為Dice得分,MS lesion和PROMISE12使用了不同的指標(biāo)。
醫(yī)學(xué)分割十項全能(Decathlon)
該挑戰(zhàn)的第一階段包括上述七個數(shù)據(jù)集,參與者使用這些數(shù)據(jù)集來開發(fā)可推廣的分割算法。在第二階段,提供了以前未知的三個其他數(shù)據(jù)集。算法不進行進一步更改或用戶交互應(yīng)用于這些數(shù)據(jù)集。兩個階段的評估都是在官方測試集上完成的。在第一階段和第二階段,nnU-Net在十項全能挑戰(zhàn)上有明顯的優(yōu)勢。
心臟分割挑戰(zhàn)賽(ACDC)
每個心臟的cine-MRI圖像的兩個時期被分割成三個部分。挑戰(zhàn)賽提供了100個訓(xùn)練案例,每個案例有兩個時期。我們手動拆分nnU-Nets的數(shù)據(jù)進行五折交叉驗證運行。nnU-Net在開放式排行榜中取得了第一名(基于50個測試用例),并在此數(shù)據(jù)集上達到了state-of-the art。
縱向多發(fā)性硬化病變分割挑戰(zhàn)
任務(wù)是在MRI圖像中分割多發(fā)性硬化癥。提供了5名患者,每名患者有4-5個時間點(總共21個時間點),有兩個評估者,每個時間點提供了注釋。我們將每個評估者視為一個單獨的訓(xùn)練集,并手動拆分訓(xùn)練案例以確保患者分層。在測試集中,nnU-Net在163份提交中排名第5,得分為93.09,僅落后于范德比爾特大學(xué)的四份提交結(jié)果,其中最高分為93.21。
PROMISE12
任務(wù)是在各向異性的MRI圖像中分割前列腺。提供了50個帶標(biāo)注的訓(xùn)練案例和30個未標(biāo)記的測試案例。nnU-Net的測試集得分為89.08,在總共290份提交中排名第11(第一名:89.59)。
LiTS
肝腫瘤分割的挑戰(zhàn)由131個訓(xùn)練圖像(CT)和70個測試用例組成。對于訓(xùn)練病例,提供了肝臟和肝臟腫瘤的分割。nnU-Net在病變和肝臟上的Dice評分分別為0.725和0.958。通過移除最大連通前景區(qū)域以外的所有區(qū)域進行后處理將Dice得分提高到0.738和0.960,在開放的排行榜病變分割的Dice評分達到了state of the art,并且肝臟分割在123支隊伍排名第17位(第一名:0.966)。
Beyond the Cranial Vault Challenge (Abdomen)
這個數(shù)據(jù)集的任務(wù)是在腹部CT圖像中分割13個器官。挑戰(zhàn)提供了30個帶標(biāo)注的訓(xùn)練圖像和20個測試圖像。nnU-Net 在這個數(shù)據(jù)集上達到了state of the art,平均Dice得分為88.1%,比第二名高出3個點(排行榜共有43個提交)。具體地,nnU-Net在13種器官中的11種得分最高。
表格2顯示了為驗證nnU-Net中的選擇而設(shè)計進行的消融研究。所有實驗均在Decathlon第一階段的代表性數(shù)據(jù)集上使用相同的數(shù)據(jù)劃分進行的。這些結(jié)果一方面表明我們應(yīng)該修改使用Leaky ReLUs,另一方面驗證了我們選擇的實例規(guī)范化、數(shù)據(jù)增強和損失函數(shù)的效果。
圖2所示。 nnU-Net設(shè)計選擇的消融實驗。 使用訓(xùn)練數(shù)據(jù)的一部分和3D U-Net對來自Decathlon的代表性數(shù)據(jù)集進行實驗。 nnU-Net的數(shù)值代表平均前景Dice分?jǐn)?shù)(例如肝臟數(shù)據(jù)集的肝臟和腫瘤篩子系數(shù)的平均值),消融研究的值代表Dice分?jǐn)?shù)百分比的變化。
討論
我們介紹了nnU-Net,一個可以自動適應(yīng)任何給定數(shù)據(jù)集而無需用戶干預(yù)的醫(yī)學(xué)分割框架。據(jù)我們所知,nnU-Net是第一個嘗試形式化數(shù)據(jù)集之間需要進行的必要調(diào)整的分割框架。nnU-Net在六個公開的分割挑戰(zhàn)中實現(xiàn)了最先進的性能。這是非常了不起的,因為nnU-Net不依賴于近年來提出的各種復(fù)雜的分割結(jié)構(gòu),而只依賴于簡單的U-Net結(jié)構(gòu)。必須強調(diào)的是,我們沒有在挑戰(zhàn)數(shù)據(jù)集之間手動調(diào)整超參數(shù),所有設(shè)計選擇都是由nnU-Net自動確定的。更令人驚訝的是,它在一部分?jǐn)?shù)據(jù)集上超過其他專門手動設(shè)計的算法。
nnU-Net包括一些通用的固定設(shè)計選擇,如U-Net結(jié)構(gòu)、Dice損失、數(shù)據(jù)增強和模型集成,以及由一組遵循我們的分割經(jīng)驗的規(guī)則確定的一些動態(tài)設(shè)計選擇。雖然,使用此類規(guī)則可能不是解決此問題的最佳方法。通過給定更多的數(shù)據(jù)集,未來的工作可能會嘗試從數(shù)據(jù)集的屬性中直接學(xué)習(xí)這些規(guī)則。雖然nnU-Net的選擇可以在多個數(shù)據(jù)集中實現(xiàn)強大的分割性能,但這并不意味著我們已找到全局最優(yōu)的配置。
事實上,從表格2所示的消融實驗可以看出, Leaky ReLU替換ReLU的選擇并沒有影響性能,我們的數(shù)據(jù)增強方案可能并不適用于所有數(shù)據(jù)集,后處理也有待于進一步的研究。我們在LiTS的結(jié)果表明,正確選擇的后處理可能是有益的。這種后處理可以通過分析訓(xùn)練數(shù)據(jù)或通過基于交叉驗證結(jié)果選擇方案來自動化。這種自動化的嘗試在進行Decathlon挑戰(zhàn)賽時nnU-Net初始版本的一部分,但后來由于不能持續(xù)改進結(jié)果而被丟棄。
現(xiàn)在我們已經(jīng)建立了迄今為止最強大的U-Net baseline,我們可以系統(tǒng)地評估更先進的網(wǎng)絡(luò)設(shè)計的通用性以及相對于此處采用的普通架構(gòu)的性能提升。因此,nnU-Net不僅可以用作開箱即用的分割工具,還可以用作未來醫(yī)學(xué)分割相關(guān)發(fā)表論文的強大U-Net baseline和平臺。