谷歌在arXiv上發(fā)表的一篇論文《Scalable and accurate deep learning for electronic health records》( Alvin Rajkomar et al.)。文中他們提出基于快速醫(yī)療保健互操作性資源(FHIR)格式的患者EHR原始記錄表示,利用深度學(xué)習(xí)的方法,準(zhǔn)確預(yù)測了多起醫(yī)療事件的發(fā)生。 谷歌FHIR標(biāo)準(zhǔn)協(xié)議利用深度學(xué)習(xí)預(yù)測醫(yī)療事件發(fā)生
論文摘要如下:
使用電子健康記錄(EHR)數(shù)據(jù)的預(yù)測建模預(yù)計將推動個人化醫(yī)療并提高醫(yī)療質(zhì)量。構(gòu)建預(yù)測性統(tǒng)計模型通常需要從規(guī)范化的EHR數(shù)據(jù)中提取策略預(yù)測變量,這是一種勞動密集型過程,且放棄了患者記錄中絕大多數(shù)信息。我們提出基于快速醫(yī)療保健互操作性資源(FHIR)格式的患者全部EHR原始記錄的表示。我們證明使用這種表示方法的深度學(xué)習(xí)方法能夠準(zhǔn)確預(yù)測來自多個中心的多個醫(yī)療事件,而無需特定地點的數(shù)據(jù)協(xié)調(diào)。我們使用來自兩個美國學(xué)術(shù)醫(yī)療中心的去識別的EHR數(shù)據(jù)驗證了我們的方法,其中216,221位成年患者住院至少24小時。在我們提出的序列格式中,這一塊EHR數(shù)據(jù)總計包含了46,864,534,945個數(shù)據(jù)點,包括臨床說明。深度學(xué)習(xí)模型對預(yù)測院內(nèi)死亡率(AUROC跨站點0.93-0.94),30天無計劃再入院率(AUROC 0.75-0.76),延長住院時間(AUROC 0.85-0.86)以及所有患者的最終診斷(頻率加權(quán)AUROC 0.90)等取得了極高的準(zhǔn)確度。在所有情況下,這些模型的表現(xiàn)都優(yōu)于傳統(tǒng)的預(yù)測模型。我們還介紹了一個神經(jīng)網(wǎng)絡(luò)歸因系統(tǒng)的案例研究,該系統(tǒng)說明臨床醫(yī)生如何獲得預(yù)測的一些透明度。我們相信,這種方法可以為各種臨床環(huán)境創(chuàng)建準(zhǔn)確的、可擴展的預(yù)測,且附有在患者圖標(biāo)中直接高亮證據(jù)的解釋。
在這項研究過程中,他們認(rèn)為若想大規(guī)模的實現(xiàn)機器學(xué)習(xí),則還需要對FHIR標(biāo)準(zhǔn)增加一個協(xié)議緩沖區(qū)工具,以便將大量數(shù)據(jù)序列化到磁盤以及允許分析大型數(shù)據(jù)集的表示形式。
昨天,谷歌發(fā)布消息稱已經(jīng)開源該協(xié)議緩沖區(qū)工具。下面為谷歌博文內(nèi)容,小編編譯如下:
過去十年來,醫(yī)療保健的數(shù)據(jù)在很大程度上已經(jīng)從紙質(zhì)文件中轉(zhuǎn)變?yōu)閿?shù)字化為電子健康記錄。但是要想理解這些數(shù)據(jù)可能還存在一些關(guān)鍵性挑戰(zhàn)。
首先,在不同的供應(yīng)商之間沒有共同的數(shù)據(jù)表示,每個供應(yīng)商都在使用不同的方式來構(gòu)建他們的數(shù)據(jù);
其次,即使使用同一個供應(yīng)商網(wǎng)站上的數(shù)據(jù),可能也會有很大的不同,例如他們通常對相同的藥物使用多種代碼來表示;
第三,數(shù)據(jù)可能分布在許多不同表格中,這些表格有些存在交集,有些包含著實驗數(shù)據(jù),還有些包含著一些生命體征。
采用至少一個基本電子病歷系統(tǒng)并擁有經(jīng)過認(rèn)證的電子病歷系統(tǒng)的非聯(lián)邦急性護理醫(yī)院的百分比。Basic的電子健康記錄( Electronic Health Record ,EHR)滿足EHR系統(tǒng)的基本功能,CerTIfied EHR表示醫(yī)院已經(jīng)與EHR有法律協(xié)議,但不等同于采用了EHR系統(tǒng)。
快速醫(yī)療保健互操作性資源(Fast Healthcare Interoperability Resources,F(xiàn)HIR)作為一項標(biāo)準(zhǔn)草案,描述的是用于交換電子病歷數(shù)據(jù)格式和數(shù)據(jù)元以及應(yīng)用程序界面,該標(biāo)準(zhǔn)由醫(yī)療服務(wù)標(biāo)準(zhǔn)組織Health Level Seven InternaTIonal制定。這項標(biāo)準(zhǔn)已經(jīng)解決了這些挑戰(zhàn)中的大多數(shù):它具有堅實的、可擴展的數(shù)據(jù)模型,建立在既定的Web標(biāo)準(zhǔn)之上,并且正在迅速成為個人記錄和批量數(shù)據(jù)訪問中事實上的標(biāo)準(zhǔn)。但若想實現(xiàn)大規(guī)模機器學(xué)習(xí),我們還需要對它做一些補充:使用多種編程語言的工具,作為將大量數(shù)據(jù)序列化到磁盤的有效方法以及允許分析大型數(shù)據(jù)集的表示形式。
今天,我們很高興開源了FHIR標(biāo)準(zhǔn)的協(xié)議緩沖區(qū)工具,該工具能夠解決以上這些問題。當(dāng)前的版本支持Java語言,隨后很快也將支持C++ 、Go和Python等語言。另外,對于配置文件的支持以及幫助將遺留數(shù)據(jù)轉(zhuǎn)換為FHIR的工具也將很快推出。