機器之心原創(chuàng)
作者:李澤南
人工智能(AI)有可能通過幫助人類醫(yī)療專家進(jìn)行高難度分類、快速分析大量醫(yī)療圖像的方式徹底改變疾病的診斷和治療流程。近日,由加州大學(xué)圣地亞哥分校張康教授等人提出的深度學(xué)習(xí)診斷方式讓我們提前看到了未來。
2018 年 2 月 22 日出版的《Cell》封面文章介紹了由加州大學(xué)圣地亞哥分校(University of California, San Diego)張康教授主導(dǎo)的研究成果:一種基于遷移學(xué)習(xí),能夠精確診斷致盲性視網(wǎng)膜疾病與肺炎的人工智能工具。該方法的表現(xiàn)與專業(yè)醫(yī)生能力相當(dāng),并可以在 30 秒內(nèi)確定患者是否應(yīng)接受治療,準(zhǔn)確度高達(dá) 95%以上;在區(qū)分病毒性肺炎和細(xì)菌性肺炎上,新方法的準(zhǔn)確率也超過了 90%。同時,該研究也通過顯示神經(jīng)網(wǎng)絡(luò)激活區(qū)域的方法向人們提供了機器診斷的可解釋性。作為中國學(xué)者主導(dǎo)的又一項重要研究,該文章發(fā)表以后受到了人們的廣泛關(guān)注。
論文鏈接:http://www.cell.com/cell/fulltext/S0092-8674(18)30154-5
該研究的主要推動者張康,是加州大學(xué)圣地亞哥分校眼科教授、眼科遺傳學(xué)主任,中國第三批「千人計劃」入選者,四川大學(xué)客座教授。他曾在四川大學(xué)獲得生物化學(xué)學(xué)士學(xué)位,哈佛大學(xué)醫(yī)學(xué)博士學(xué)位(Magna Cum Laude 榮譽),麻省理工學(xué)院(MIT)聯(lián)合醫(yī)學(xué)博士學(xué)位及哈佛大學(xué)遺傳學(xué)博士學(xué)位。張康在約翰霍普金斯大學(xué) Wilmer 眼科研究所完成了眼科住院醫(yī)生實習(xí)期,并曾在猶他大學(xué)完成視網(wǎng)膜手術(shù)??朴?xùn)練。
張康教授的臨床和研究重點是重大疾病的基礎(chǔ)和轉(zhuǎn)化研究,尋找新的基因靶標(biāo)和治療方法。
他曾在許多著名學(xué)術(shù)期刊上發(fā)表或共同撰寫了超過 200 篇同行評議論文,其中涵蓋遺傳學(xué)、分子生物學(xué)、干細(xì)胞、腫瘤液體活檢、3D 打印及組織工程、人工智能和臨床試驗等多個領(lǐng)域。其中關(guān)于 HTRA1 基因是黃斑變性的主要易感基因的《Science》文章曾被這家期刊評為 2006 年世界科學(xué)十大進(jìn)展之一。
在《Cell》上的文章發(fā)表之后,機器之心對張康教授進(jìn)行了專訪,我們與他對遷移學(xué)習(xí)、跨學(xué)科研究、AI 在醫(yī)療領(lǐng)域應(yīng)用等問題進(jìn)行了交流。
機器之心:發(fā)表在《Cell》上的論文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》,該研究是從何時開始啟動的?
張康:我很早就有這個想法了,真正啟動是在去年(2017 年)初。
機器之心:作為眼科教授,使用計算機科學(xué)領(lǐng)域中也是剛剛發(fā)展起來的機器學(xué)習(xí)工具進(jìn)行研究,會遇到哪些困難?
張康:生物醫(yī)療科學(xué)和計算機科學(xué)是兩個完全不同的領(lǐng)域。由于計算機科學(xué)的高速發(fā)展,我們面臨的首要問題就是學(xué)習(xí)并結(jié)合這些最近開發(fā)的深度學(xué)習(xí)技術(shù),以確保我們的研究對當(dāng)前和未來的計算機視覺研究及應(yīng)用是相關(guān)和有用的。深度學(xué)習(xí)引入可取代之前技術(shù)的新方法而改變了計算機視覺領(lǐng)域。然而,這個項目的主要挑戰(zhàn)是獲得大量的 OCT 圖像,并組織一個龐大而結(jié)構(gòu)化的視網(wǎng)膜專家體系,以確保盡可能準(zhǔn)確地標(biāo)記大數(shù)據(jù),另外我們必須組織一個優(yōu)秀人工智能小組。
機器之心:新研究的圖像識別模型對計算機的算力要求有多高?
張康:該模型在 4 個 GTX 1080 8GB GPU 中進(jìn)行了訓(xùn)練和測試。但是,由于該模型是使用預(yù)訓(xùn)練權(quán)重進(jìn)行訓(xùn)練的,從而使訓(xùn)練時間比訓(xùn)練空白神經(jīng)網(wǎng)絡(luò)要少得多。因此,還可以在合理的時間內(nèi)使用更小的 GPU 甚至多個 CPU 來完成此模型的訓(xùn)練和推理。
機器之心:神經(jīng)網(wǎng)絡(luò)的推理是一個「黑箱」,你們提出的新方法是如何解釋計算機作出「診斷」的依據(jù)的?
張康:我們在視網(wǎng)膜 OCT 圖像的研究中加入了「遮擋測試」——通過卷積一個遮擋核心到輸入圖像上,機器會通過計算預(yù)測做出正確診斷最可能的部位,并輸出含有高亮色塊的「遮擋」圖,這些色塊就是 AI「認(rèn)為」的病變部位,得出直觀的為臨床醫(yī)生信任的診斷依據(jù)。
機器之心:神經(jīng)網(wǎng)絡(luò)在識別醫(yī)療圖像時相比人類醫(yī)生具有哪些優(yōu)勢?
張康:首先,通過輸入大量的數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)可以獲得遠(yuǎn)超過人類醫(yī)生的「經(jīng)驗」,計算出超越人類的準(zhǔn)確結(jié)果,在我們的系統(tǒng)中,我們使用超過 20 萬張醫(yī)學(xué)圖像,通過不同的疾病分類,最終使用近 11 萬張視網(wǎng)膜 OCT 圖像訓(xùn)練機器。在眼病方面,能在 30 秒內(nèi)正確鑒別脈絡(luò)膜新生血管、糖尿病黃斑水腫、玻璃膜疣以及正常視網(wǎng)膜的 OCT 圖像,結(jié)果的準(zhǔn)確率、敏感度、特異度均在 95% 以上,并能得出與人類相似甚至更高的準(zhǔn)確率。其次,計算機對比圖像像素與像素之間的差異,觀察到人類關(guān)注不到的細(xì)節(jié),從而得出更精準(zhǔn)的判斷,且不像人類一樣受主觀性干擾。另外,我們通過「遷移學(xué)習(xí)」這種算法,還能診斷不同系統(tǒng)的疾病,比如我們的系統(tǒng)目前還能準(zhǔn)確鑒別肺炎和正常胸部 X 線平片,區(qū)分肺炎的病原體為細(xì)菌還是病毒,準(zhǔn)確率可達(dá) 90% 以上。
機器之心:從醫(yī)學(xué)學(xué)者的角度來看,人工智能技術(shù)在醫(yī)療領(lǐng)域里是否會像很多媒體報道的那樣「超越,甚至代替人類醫(yī)生」?
張康:在上一個問題已經(jīng)回答了,在某些方面人工智能的確有可能超越人類醫(yī)生。也許在不久的將來,比較單一的、流水線作業(yè)式的領(lǐng)域?qū)蝗〈?。但是,現(xiàn)階段人工智能的作用是輔助醫(yī)生而非取代醫(yī)生,發(fā)展人工智能,對醫(yī)療科學(xué)的發(fā)展、醫(yī)療水準(zhǔn)的提高,都是利大于弊的。
機器之心:深度學(xué)習(xí)先驅(qū)吳恩達(dá)(Andrew Ng)認(rèn)為遷移學(xué)習(xí)(Transfer learning)是人工智能未來最有希望的發(fā)展方向,而你的研究正是應(yīng)用了遷移學(xué)習(xí)。相比其他機器學(xué)習(xí)方法,它具備哪些優(yōu)秀之處?
張康:「遷移學(xué)習(xí)」被認(rèn)為是一種高效的學(xué)習(xí)技術(shù),尤其是面臨相對有限的訓(xùn)練數(shù)據(jù)時。相較于其他大多數(shù)學(xué)習(xí)模型的「從零開始」,「遷移學(xué)習(xí)」利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)學(xué)習(xí)已有的已經(jīng)標(biāo)記好的預(yù)訓(xùn)練網(wǎng)絡(luò)系統(tǒng),以醫(yī)學(xué)圖像學(xué)習(xí)為例,該系統(tǒng)會識別預(yù)系統(tǒng)中圖像的特點,我們再繼續(xù)導(dǎo)入含有第一層圖像相似參數(shù)和結(jié)構(gòu)的網(wǎng)絡(luò)系統(tǒng),最終構(gòu)建出終極層級。在我們的系統(tǒng)中,第一層網(wǎng)絡(luò)就是視網(wǎng)膜 OCT 圖像,第二級網(wǎng)絡(luò)系統(tǒng)使用第一級的圖像尋找相應(yīng)的特點,通過前向傳播固定低層圖像中的權(quán)重,找到已經(jīng)學(xué)習(xí)的可辨別的結(jié)構(gòu),再提取更高層的權(quán)重,在其中進(jìn)行反復(fù)的自我調(diào)整和反饋、傳遞,達(dá)到學(xué)習(xí)區(qū)分特定類型的圖像的目的。我們首次使用如此龐大的標(biāo)注好的高質(zhì)量視網(wǎng)膜 OCT 數(shù)據(jù)進(jìn)行遷移學(xué)習(xí),進(jìn)行常見視網(wǎng)膜致盲性疾病的檢測及推薦治療手段,得到與人類醫(yī)生相似甚至更高的準(zhǔn)確性。此人工智能系統(tǒng)還可以「舉一反三」,將遷移學(xué)習(xí)用于小兒肺炎診斷。
遷移學(xué)習(xí)是深度學(xué)習(xí)的一個自然發(fā)展方向,遷移學(xué)習(xí)能讓深度學(xué)習(xí)變得更加可靠,還能幫我們理解深度學(xué)習(xí)的模型。比如,我們能夠知曉哪部分特征容易遷移,這些特征所對應(yīng)的是某個領(lǐng)域比較高層、抽象的一些結(jié)構(gòu)型概念。把它們的細(xì)節(jié)區(qū)分開,就能讓我們對這個領(lǐng)域的知識表達(dá)形成一個更深的理解。這樣一來,機器就可以像生物的神經(jīng)系統(tǒng)一樣終身學(xué)習(xí),不斷地對過去的知識進(jìn)行總結(jié)、歸納,讓一個系統(tǒng)越學(xué)越快,而且在學(xué)習(xí)過程中還能發(fā)現(xiàn)如何學(xué)習(xí)。
遷移學(xué)習(xí)在深度學(xué)習(xí)上面有極為廣闊的應(yīng)用前景,在圖像數(shù)據(jù)資源有限的醫(yī)療領(lǐng)域,更高效、所需圖像數(shù)量更少的遷移學(xué)習(xí),可以說是未來 5 年內(nèi) AI 發(fā)展的熱點以及深度學(xué)習(xí)成功應(yīng)用的驅(qū)動力。
卷積神經(jīng)網(wǎng)絡(luò)示意圖,該圖描述了新研究在 ImageNet 數(shù)據(jù)集 1000 個類別上訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)在面對全新 OCT 圖像數(shù)據(jù)集時可以顯著提高準(zhǔn)確率、降低訓(xùn)練時間。區(qū)域鏈接的(卷積)層會被凍結(jié)并遷移到新網(wǎng)絡(luò)中,而最后,在遷移層之上,全連接層會被重新創(chuàng)建,并被隨機初始化重新訓(xùn)練。(Credit:論文《Identifying Medical Diagnoses and Treatable Diseases by Image-Based Deep Learning》)
機器之心:這項工作中,你們與廣州市婦女兒童醫(yī)療中心、四川大學(xué)華西醫(yī)院、同仁眼科中心、上海市第一人民醫(yī)院、大連北海醫(yī)院等機構(gòu)進(jìn)行了合作,這些合作是如何開展的?
張康:感謝這些醫(yī)院為我們提供了寶貴的大量原始醫(yī)療圖像數(shù)據(jù),且由不同??频尼t(yī)生對圖像予以分類、標(biāo)注,幫助訓(xùn)練 AI 系統(tǒng)獲得更精準(zhǔn)更穩(wěn)定的診斷結(jié)果。
機器之心:我們都非常期待人工智能可以幫助我們治療疾病,發(fā)表在《Cell》上的研究距離實際應(yīng)用還有多遠(yuǎn)?
張康:我們目前已開始在美國和拉丁美洲診所進(jìn)行小規(guī)模臨床試用,進(jìn)一步優(yōu)化系統(tǒng),在未來很快時間里應(yīng)該可以大規(guī)模使用。我們會同時增加準(zhǔn)確標(biāo)注的圖片數(shù)量和疾病種類,如初步篩查常見疾病、就醫(yī)轉(zhuǎn)診指引等功能將可能首先應(yīng)用于臨床,下一步則為指導(dǎo)治療方案確定、隨訪等,最終的目標(biāo)是應(yīng)用到包括初級保健、社區(qū)醫(yī)療、家庭醫(yī)生、急診室,形成大范圍的自動化分診系統(tǒng)等。
機器之心:計算機科學(xué)領(lǐng)域的研究者們(如斯坦福大學(xué)吳恩達(dá) Andrew Ng 團(tuán)隊、李飛飛團(tuán)隊)也在致力于將計算機視覺方法應(yīng)用于醫(yī)療領(lǐng)域。作為另一個行業(yè)的學(xué)者,你是如何看待他們的研究的?
張康:他們的成果為我們的研究提供了理論基礎(chǔ),我們學(xué)習(xí)了他們的技術(shù),并在他們開發(fā)的「遷移學(xué)習(xí)」模型為基礎(chǔ)作出改進(jìn),組織一個龐大而有序的視網(wǎng)膜專家小組,加入總共約 11 萬張準(zhǔn)確標(biāo)注的視網(wǎng)膜 OCT 圖像以及 5000 張胸部 X 線圖像,構(gòu)建出我們的 AI 疾病圖像診斷系統(tǒng)??梢哉f,我們?nèi)〉媒袢盏耐黄坪退麄兊呢暙I(xiàn)是分不開的,感謝像他們一樣的計算機學(xué)者的付出,才讓我們得以更好的結(jié)合計算機視覺科學(xué)與醫(yī)療科學(xué),從而更好的服務(wù)于全人類。
機器之心:這種以醫(yī)生為主導(dǎo)的 AI+醫(yī)療研究與其他以人工智能學(xué)者為主導(dǎo)的 AI+醫(yī)療研究有什么不同?
張康:過去的人工智能研究多以人工智能學(xué)者為主導(dǎo),也許能更快的設(shè)計出更為精妙的算法,但由于其對臨床醫(yī)生的需求的不了解,使其真正應(yīng)有于臨床受到限制?,F(xiàn)在,我們的團(tuán)隊由專業(yè)的醫(yī)生帶領(lǐng)人工智能學(xué)者構(gòu)成,我們更能了解醫(yī)生對形成診斷、確定治療方案的需求,在我們的研究中,我們醫(yī)生知道什么樣的醫(yī)學(xué)圖像診斷價值更高,從而親自設(shè)定規(guī)范的圖片納入標(biāo)準(zhǔn),對圖像進(jìn)行標(biāo)注,從而使機器從源頭開始就更能獲得我們想要的結(jié)果。
比如,有一些圖像特征較為模糊的圖像,如老年黃斑變性,某些較大的玻璃膜疣和脈絡(luò)膜新生血管非常相似,我們就會偏向于采取更為嚴(yán)重的疾病診斷,因為我們研究的最終目的是幫助病人更可能的推薦給相應(yīng)的專科醫(yī)生,從而更快的獲得治療。另外,我們還可以通過我們的想法設(shè)定更為貼合實際的過濾器,并按照我們臨床醫(yī)生的需求不斷調(diào)整;通過「遮擋實驗」能夠反映機器得出判斷的依據(jù)。并且,我們的研究還能指導(dǎo)治療方案的確定。因此我們的研究可能更能達(dá)到臨床醫(yī)生想要的效果,并且為臨床醫(yī)生所信任,也許能更快更直接的應(yīng)用于臨床。
機器之心:如何減少醫(yī)學(xué)領(lǐng)域與計算機科學(xué)領(lǐng)域之間的隔閡,讓新技術(shù)能夠更好地造福人類?
張康:就我們團(tuán)隊來說,我們以臨床經(jīng)驗豐富的醫(yī)生、教授為主導(dǎo),輔以有生物醫(yī)學(xué)知識的科學(xué)計算經(jīng)驗豐富的計算機專家,還有高通和 Intel 等計算機軟硬件領(lǐng)域的行家作為我們的技術(shù)指導(dǎo),在算法的完善和使用上起到很大的幫助。同時,我們定期會一起進(jìn)行溝通交流,讓程序員們更好的了解我們醫(yī)生的需求。只有醫(yī)學(xué)領(lǐng)域和計算機領(lǐng)域的人才之間互相幫助、互相指導(dǎo)、通力協(xié)作,才能使新技術(shù)真正的獲得應(yīng)用,更好的造福人類。
機器之心:目前的機器學(xué)習(xí)方法需要大量醫(yī)療圖像用于模型的訓(xùn)練,如何避免泄露隱私的問題?
張康:目前的機器學(xué)習(xí)方法的確需要大量醫(yī)療圖像用于模型的訓(xùn)練,雖然我們使用的「遷移學(xué)習(xí)」較傳統(tǒng)的深度學(xué)習(xí)所需的數(shù)據(jù)量少,增加相應(yīng)的優(yōu)質(zhì)數(shù)據(jù)確能更加高效的大幅度提升訓(xùn)練效果。通過大量的數(shù)據(jù)輸入,AI 系統(tǒng)可以在不斷的學(xué)習(xí)過程中進(jìn)行調(diào)整,不斷減少誤差,從而獲得更穩(wěn)定更準(zhǔn)確的結(jié)果輸出。
我們可以保證的是,我們用來訓(xùn)練機器的醫(yī)療圖像都是僅有疾病表現(xiàn)而不包含病人基本信息的(如姓名、年齡、性別等)圖像,因此不存在隱私泄漏的問題。
機器之心:如何看待中國和美國在人工智能醫(yī)療領(lǐng)域發(fā)展上的差距或者不同?
張康:個人認(rèn)為,中國在人工智能醫(yī)療領(lǐng)域其整體發(fā)展水平與發(fā)達(dá)國家相比仍存在一定差距,在前沿基礎(chǔ)理論的學(xué)習(xí)、人才培訓(xùn)交流、關(guān)鍵性技術(shù)的強化,以及對數(shù)據(jù)收集的優(yōu)化、質(zhì)量的提升、檔案的系統(tǒng)性、增加數(shù)據(jù)調(diào)用的方便性等方面都有待完善。
目前,國內(nèi)大多數(shù)醫(yī)療人工智能仍處于實驗研發(fā)階段,其整體發(fā)展水平與發(fā)達(dá)國家相比仍存在一定差距,在前沿基礎(chǔ)理論、關(guān)鍵性技術(shù)、產(chǎn)業(yè)基礎(chǔ)平臺、人才隊伍和監(jiān)管體系等方面都有待完善。要相信,現(xiàn)階段人工智能的作用是輔助醫(yī)生而非取代醫(yī)生,從而幫助患者更容易獲得治療,隨著今后醫(yī)療資源的自由流動,醫(yī)院可能更需要輔助診斷系統(tǒng),未來醫(yī)療人工智能是否能獲得更有效的應(yīng)用、開發(fā)出成熟的產(chǎn)品,還有賴于國家對 AI 產(chǎn)品使用的支持、臨床醫(yī)生的信賴與合作。通過加強國際交流合作、人才培訓(xùn)、構(gòu)建研發(fā)中心,發(fā)揮我國疾病庫資源龐大的優(yōu)勢,加強數(shù)據(jù)共享、優(yōu)化數(shù)據(jù),保持人才的長期交流與協(xié)作,才能獲得更好的發(fā)展。
機器之心:在這項成功的研究之后,能否透露一下你下一步的 AI+醫(yī)療研究方向?
張康:通過算法系統(tǒng)的調(diào)整,繼續(xù)改進(jìn)學(xué)習(xí)、導(dǎo)出結(jié)果等過程;我們的 AI 系統(tǒng)對于全身各系統(tǒng)可以進(jìn)行圖像檢測的疾病都具有適用性,因此我們將進(jìn)一步增加準(zhǔn)確標(biāo)注的圖片數(shù)量,加入不同的圖像類型,增加可診斷的眼部疾病,另外,加入包括腫瘤,兒童和婦產(chǎn)科,病理等其他系統(tǒng)的疾病圖片,增加其可診斷的疾病種類。同時,在疾病預(yù)測、指導(dǎo)治療等等方面增加系統(tǒng)的適用性。
本文為機器之心原創(chuàng),轉(zhuǎn)載請聯(lián)系本公眾號獲得授權(quán)。