在我國,肺癌一直是各種癌癥中致死最多的。
據(jù)國家癌癥中心統(tǒng)計,我國每年新發(fā)肺癌約78.7萬人,因肺癌死亡約63.1萬人,如果這些患者都能早發(fā)現(xiàn)、早治療,那么他們的壽命將會大大延長。
谷歌發(fā)表在Nature Medicine上的一項新研究,讓人類解決肺癌難題前進了一大步。在這項研究中,AI能夠根據(jù)患者的胸部CT圖像,診斷出早期肺癌,與六位放射科醫(yī)生相比,AI的準確度更高,檢測到的病例增加了5%,假陽性減少了11%,AUC達到94.4%。
換句話說,相比人類醫(yī)生,谷歌的該AI模型能夠發(fā)現(xiàn)更多沒被發(fā)現(xiàn)的早期肺癌病人,還能減少很多沒有患肺癌的人被誤診。
無論是和單個醫(yī)生相比還是和某一科目的醫(yī)生們相比,這項研究中模型的準確度都相當高,超越了人類水平
真實數(shù)據(jù)檢測
研究中用到的數(shù)據(jù)來自美國全國肺癌篩查試驗(NLST)的真實數(shù)據(jù),包括來自14851名患者的42290張CT照片,其中639人在拍完這些CT照片一年后就經過活檢被確診為肺癌。如果一名患者在一年后的檢測中沒有發(fā)現(xiàn)肺癌,則被視為陰性。
這14851名患者被隨機分配到了訓練組(占比70%),調整組(占比15%)和測試組(占比15%),三個組的確診患者百分比分別為3.9%、4.5%和3.7%。
模型即將開放
整個模型包含幾個部分:
肺部分割,用TensorFlow目標檢測API訓練LUNA45數(shù)據(jù)集,產生肺分割掩模并對齊。
癌癥ROI檢測,構建RetinaNet47,找出病灶區(qū)域。
全量模型,在1.5立方毫米體積的大小上訓練,預測一年內患癌癥的可能性。
癌癥風險預測模型,提取3D特征,生成最終預測結果。
整個模型將通過谷歌云Healthcare API開放,進一步研究它在臨床實踐中的效果。有朝一日,或許這個模型真的能在各大醫(yī)院中使用,會有更多病人受益。
傳送門
最后,這項研究中用到了3個肺癌數(shù)據(jù)集,需要的工具都是TensorFlow中已經開源的API。
論文
End-to-end lung cancer screening with three-dimensional deep learning on low-dose chest computed tomography
Diego Ardila, Atilla P. Kiraly, Sujeeth Bharadwaj, Bokyung Choi, Joshua J. Reicher, Lily Peng, Daniel Tse, Mozziyar Etemadi, Wenxing Ye, Greg Corrado, David P. Naidich, Shravya Shetty
https://www.nature.com/articles/s41591-019-0447-x
數(shù)據(jù)集
LUNA16
https://luna16.grand-challenge.org/data/
LIDC-IDRI
https://wiki.cancerimagingarchive.net/display/Public/LIDC-IDRI
NLST
https://biometry.nci.nih.gov/cdas/learn/nlst/images/
開源工具
TensorFlow Estimator API
https://www.tensorflow.org/guide/estimators
TensorFlow目標檢測API
https://github.com/tensorflow/models/tree/master/research/object_detection
TensorFlow Inflated Inception
https://github.com/deepmind/kinetics-i3d