《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 業(yè)界動(dòng)態(tài) > 谷歌開(kāi)源FHIR標(biāo)準(zhǔn)協(xié)議緩沖工具,利用機(jī)器學(xué)習(xí)預(yù)測(cè)醫(yī)療事件

谷歌開(kāi)源FHIR標(biāo)準(zhǔn)協(xié)議緩沖工具,利用機(jī)器學(xué)習(xí)預(yù)測(cè)醫(yī)療事件

2018-03-07

  在1月26日,谷歌在arXiv上發(fā)表的一篇論文《Scalable and accurate deep learning for electronic health records》( Alvin Rajkomar et al.)。文中他們提出基于快速醫(yī)療保健互操作性資源(FHIR)格式的患者EHR原始記錄表示,利用深度學(xué)習(xí)的方法,準(zhǔn)確預(yù)測(cè)了多起醫(yī)療事件的發(fā)生。

1520339920711342.jpg

  論文摘要如下:

  使用電子健康記錄(EHR)數(shù)據(jù)的預(yù)測(cè)建模預(yù)計(jì)將推動(dòng)個(gè)人化醫(yī)療并提高醫(yī)療質(zhì)量。構(gòu)建預(yù)測(cè)性統(tǒng)計(jì)模型通常需要從規(guī)范化的EHR數(shù)據(jù)中提取策略預(yù)測(cè)變量,這是一種勞動(dòng)密集型過(guò)程,且放棄了患者記錄中絕大多數(shù)信息。我們提出基于快速醫(yī)療保健互操作性資源(FHIR)格式的患者全部EHR原始記錄的表示。我們證明使用這種表示方法的深度學(xué)習(xí)方法能夠準(zhǔn)確預(yù)測(cè)來(lái)自多個(gè)中心的多個(gè)醫(yī)療事件,而無(wú)需特定地點(diǎn)的數(shù)據(jù)協(xié)調(diào)。我們使用來(lái)自兩個(gè)美國(guó)學(xué)術(shù)醫(yī)療中心的去識(shí)別的EHR數(shù)據(jù)驗(yàn)證了我們的方法,其中216,221位成年患者住院至少24小時(shí)。在我們提出的序列格式中,這一塊EHR數(shù)據(jù)總計(jì)包含了46,864,534,945個(gè)數(shù)據(jù)點(diǎn),包括臨床說(shuō)明。深度學(xué)習(xí)模型對(duì)預(yù)測(cè)院內(nèi)死亡率(AUROC跨站點(diǎn)0.93-0.94),30天無(wú)計(jì)劃再入院率(AUROC 0.75-0.76),延長(zhǎng)住院時(shí)間(AUROC 0.85-0.86)以及所有患者的最終診斷(頻率加權(quán)AUROC 0.90)等取得了極高的準(zhǔn)確度。在所有情況下,這些模型的表現(xiàn)都優(yōu)于傳統(tǒng)的預(yù)測(cè)模型。我們還介紹了一個(gè)神經(jīng)網(wǎng)絡(luò)歸因系統(tǒng)的案例研究,該系統(tǒng)說(shuō)明臨床醫(yī)生如何獲得預(yù)測(cè)的一些透明度。我們相信,這種方法可以為各種臨床環(huán)境創(chuàng)建準(zhǔn)確的、可擴(kuò)展的預(yù)測(cè),且附有在患者圖標(biāo)中直接高亮證據(jù)的解釋。

  在這項(xiàng)研究過(guò)程中,他們認(rèn)為若想大規(guī)模的實(shí)現(xiàn)機(jī)器學(xué)習(xí),則還需要對(duì)FHIR標(biāo)準(zhǔn)增加一個(gè)協(xié)議緩沖區(qū)工具,以便將大量數(shù)據(jù)序列化到磁盤以及允許分析大型數(shù)據(jù)集的表示形式。

  昨天,谷歌發(fā)布消息稱已經(jīng)開(kāi)源該協(xié)議緩沖區(qū)工具。下面為谷歌博文內(nèi)容,雷鋒網(wǎng)(公眾號(hào):雷鋒網(wǎng))編譯如下:

  過(guò)去十年來(lái),醫(yī)療保健的數(shù)據(jù)在很大程度上已經(jīng)從紙質(zhì)文件中轉(zhuǎn)變?yōu)閿?shù)字化為電子健康記錄。但是要想理解這些數(shù)據(jù)可能還存在一些關(guān)鍵性挑戰(zhàn)。

  首先,在不同的供應(yīng)商之間沒(méi)有共同的數(shù)據(jù)表示,每個(gè)供應(yīng)商都在使用不同的方式來(lái)構(gòu)建他們的數(shù)據(jù);

  其次,即使使用同一個(gè)供應(yīng)商網(wǎng)站上的數(shù)據(jù),可能也會(huì)有很大的不同,例如他們通常對(duì)相同的藥物使用多種代碼來(lái)表示;

  第三,數(shù)據(jù)可能分布在許多不同表格中,這些表格有些存在交集,有些包含著實(shí)驗(yàn)數(shù)據(jù),還有些包含著一些生命體征。

1520339946615658.jpg

  采用至少一個(gè)基本電子病歷系統(tǒng)并擁有經(jīng)過(guò)認(rèn)證的電子病歷系統(tǒng)的非聯(lián)邦急性護(hù)理醫(yī)院的百分比。Basic的電子健康記錄( Electronic Health Record ,EHR)滿足EHR系統(tǒng)的基本功能,Certified EHR表示醫(yī)院已經(jīng)與EHR有法律協(xié)議,但不等同于采用了EHR系統(tǒng)。

  快速醫(yī)療保健互操作性資源(Fast Healthcare Interoperability Resources,F(xiàn)HIR)作為一項(xiàng)標(biāo)準(zhǔn)草案,描述的是用于交換電子病歷數(shù)據(jù)格式和數(shù)據(jù)元以及應(yīng)用程序界面,該標(biāo)準(zhǔn)由醫(yī)療服務(wù)標(biāo)準(zhǔn)組織Health Level Seven International制定。這項(xiàng)標(biāo)準(zhǔn)已經(jīng)解決了這些挑戰(zhàn)中的大多數(shù):它具有堅(jiān)實(shí)的、可擴(kuò)展的數(shù)據(jù)模型,建立在既定的Web標(biāo)準(zhǔn)之上,并且正在迅速成為個(gè)人記錄和批量數(shù)據(jù)訪問(wèn)中事實(shí)上的標(biāo)準(zhǔn)。但若想實(shí)現(xiàn)大規(guī)模機(jī)器學(xué)習(xí),我們還需要對(duì)它做一些補(bǔ)充:使用多種編程語(yǔ)言的工具,作為將大量數(shù)據(jù)序列化到磁盤的有效方法以及允許分析大型數(shù)據(jù)集的表示形式。

  今天,我們很高興開(kāi)源了FHIR標(biāo)準(zhǔn)的協(xié)議緩沖區(qū)工具,該工具能夠解決以上這些問(wèn)題。當(dāng)前的版本支持Java語(yǔ)言,隨后很快也將支持C++ 、Go和Python等語(yǔ)言。另外,對(duì)于配置文件的支持以及幫助將遺留數(shù)據(jù)轉(zhuǎn)換為FHIR的工具也將很快推出。

  開(kāi)源地址:https://github.com/google/fhir

  協(xié)議緩沖區(qū)工具:https://developers.google.com/protocol-buffers/

  FHIR作為核心數(shù)據(jù)模型

  在過(guò)去幾年中,我們一直在與學(xué)術(shù)醫(yī)療中心進(jìn)行合作,利用機(jī)器學(xué)習(xí)的方法“去識(shí)別”(de-identified)醫(yī)療記錄(即剝離任何個(gè)人身份信息,以預(yù)測(cè)未來(lái)可能的情況,可以在癥候出現(xiàn)前預(yù)知患者的需求。),很明顯我們需要正視醫(yī)療保健數(shù)據(jù)中的復(fù)雜性。事實(shí)上,機(jī)器學(xué)習(xí)對(duì)于醫(yī)療數(shù)據(jù)來(lái)說(shuō)非常有效,因此我們希望能夠更加全面地了解每位患者隨著時(shí)間的推移發(fā)生了什么。作為紅利,我們希望擁有一個(gè)能夠直接應(yīng)用于臨床環(huán)境的數(shù)據(jù)表示。

  盡管FHIR標(biāo)準(zhǔn)能夠滿足我們的大多數(shù)的需求,但是使用醫(yī)療數(shù)據(jù)將比“傳統(tǒng)”的數(shù)據(jù)結(jié)構(gòu)更容易管理,并且實(shí)現(xiàn)了對(duì)立于供應(yīng)商的大規(guī)模機(jī)器學(xué)習(xí)。我們相信緩沖區(qū)的引入可以幫助應(yīng)用程序開(kāi)發(fā)人員(機(jī)器學(xué)習(xí)相關(guān))和研究人員使用FHIR。

  協(xié)議緩沖區(qū)的當(dāng)前版本

  我們已經(jīng)努力使我們的協(xié)議緩沖區(qū)表示能夠通過(guò)編程式訪問(wèn)以及數(shù)據(jù)庫(kù)查詢。提供的一個(gè)示例顯示了如何將FHIR數(shù)據(jù)上傳到Google Cloud的BigQuery(注:BigQuery 是 Google 專門面向數(shù)據(jù)分析需求設(shè)計(jì)的一種全面托管的 PB 級(jí)低成本企業(yè)數(shù)據(jù)倉(cāng)庫(kù)。)并將其提供給外部查詢。我們也正在添加其他直接從批量數(shù)據(jù)導(dǎo)出并上傳的示例。我們的協(xié)議緩沖區(qū)遵循FHIR標(biāo)準(zhǔn)(它們實(shí)際上是由FHIR標(biāo)準(zhǔn)自動(dòng)生成的),但也可以采用更優(yōu)雅的查詢方式。

  目前的版本還沒(méi)有包括對(duì)訓(xùn)練TensorFlow模型提供支持,但未來(lái)將更新。我們的目標(biāo)是盡可能地開(kāi)源我們最近的工作,以幫我們的研究,使其更具可重復(fù)性并能夠適用于現(xiàn)實(shí)世界的場(chǎng)景當(dāng)中。此外,我們正與Google Cloud中的同事進(jìn)行密切合作,研究更多用于管理醫(yī)療保健數(shù)據(jù)的工具。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。