電子健康記錄里存儲了關(guān)于醫(yī)院患者的有價值信息,但它們通常是分散的、非結(jié)構(gòu)化的,這使得難以使用AI系統(tǒng)來對其進行省時、省力的解析。幸運的是,紐約大學和普林斯頓大學的研究人員開發(fā)了一個框架,用于評估臨床記錄(即癥狀描述、診斷原因和放射學結(jié)果),并自動打一個風險評分,來表明患者是否會在未來30天內(nèi)再次入院就診。他們聲稱,相關(guān)的代碼和模型參數(shù)已經(jīng)公開在了Github上,其表現(xiàn)已經(jīng)輕松超過基準線。
“準確預測再入院率具有很重要的臨床意義,表現(xiàn)在效率提升和減輕ICU醫(yī)生負擔兩個方面,”該論文的作者寫道。 “一項估計認為,再次入院造成的經(jīng)濟負擔為179億美元,而其中可避免的入院比例為76%?!?/p>
正如研究人員在一篇在Arxiv.org上預發(fā)表的論文中所指出的那樣(“ClinicalBERT:臨床醫(yī)療記錄建模和再就診預測”),臨床醫(yī)療記錄通常使用縮寫和術(shù)語,并且一般很冗長,這對AI系統(tǒng)設(shè)計提出了不小的挑戰(zhàn)。為了克服它,他們使用了一種自然語言處理方法 - Google的“變換器雙向編碼器表示”,或簡稱BERT - 通過結(jié)合全局的、長跨度的信息來捕獲句子中相距較遠單詞之間的相互聯(lián)系。
在預處理步驟中,每條臨床記錄會被表示成從文本中提取的“子單元”或“子詞單元”的集合。從這些單元組成的多個序列中,ClinicalBERT可識別出哪些單元與哪個序列相關(guān)聯(lián)。它還可以從與序列相對應的變量中學習掌握子單元的位置,并在每個序列的前面插入用于分類任務的特殊單元。
為了訓練ClinicalBERT,該團隊采集了一些臨床記錄語料庫,并隱藏了15%的輸入單元,來迫使模型預測隱藏的單元以及任何兩個給定的兩個句子是否連續(xù)。然后,利用了“多重參數(shù)的智能監(jiān)護重癥監(jiān)護(MIMIC-III)”,這是一個電子健康記錄數(shù)據(jù)集,包括了來自38,597名患者58,976次醫(yī)院就診的200多萬條記錄,研究人員使用此數(shù)據(jù)對該系統(tǒng)進行了微調(diào),以適應臨床預測的任務。
作者報告顯示,通過由30對醫(yī)學術(shù)語組成的、用于評估醫(yī)學術(shù)語相似性的測試樣本進行測試,發(fā)現(xiàn),ClinicalBERT達到了很高的相關(guān)性評分,表明它的標記成功捕獲了醫(yī)學概念術(shù)語之間的相似性。他們說,與心臟相關(guān)的概念,如心肌梗塞、心房顫動和心肌,靠得很近,腎功能衰竭和腎功能衰竭也很接近。
在一項單獨的實驗中,該團隊聲稱,在MIMIC-III語料中,從涉及34,560名患者的、且有連續(xù)48或72小時的醫(yī)療記錄的數(shù)據(jù)來看,與僅關(guān)注出院數(shù)據(jù)摘要的模型相比,ClinicalBERT顯示在未來30天再入院預測上效果有提升,相對增加了15%的召回。此外,他們表示,隨著入院時間的延長和臨床筆記數(shù)量的增加,系統(tǒng)開始在語言建模任務中的表現(xiàn)開始優(yōu)于原始BERT模型。
“ClinicalBERT可以幫助提供護理的人員做出明智的決定,并在必要時提前進行干預,”研究人員寫道。 “它的輸出結(jié)果…是可以追溯的,可以理解哪些臨床記錄中的信息與當前預測結(jié)果相關(guān),(并且它)也很容易推廣到其他任務,如診斷預測、死亡風險評估或住院時間評估等?!?/p>