《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 業(yè)界動(dòng)態(tài) > 基于NLG算法的智慧醫(yī)療在未來(lái)將大放光彩

基于NLG算法的智慧醫(yī)療在未來(lái)將大放光彩

2019-10-30
來(lái)源:電子發(fā)燒友
關(guān)鍵詞: 智能算法 智慧醫(yī)療

  人工智能正處于非?;馃岬臅r(shí)期,自然語(yǔ)言處理(NLP)領(lǐng)域也令人興奮了十年。在閱讀理解、語(yǔ)言翻譯和創(chuàng)意寫作等復(fù)雜的任務(wù)上,計(jì)算機(jī)的表現(xiàn)將會(huì)和人類一樣出色。語(yǔ)言理解能力受益于免費(fèi)的深度學(xué)習(xí)庫(kù)(如Pytext和BERT這樣的語(yǔ)言模型),大數(shù)據(jù)(Hadoop,Spark,Spark NLP),以及云計(jì)算(提供GPU和與服務(wù)商的NLP服務(wù)功能)。

  目前市面上做自然語(yǔ)言處理領(lǐng)域的公司有:騰訊、科大訊飛、微軟、思必馳、華為等。在醫(yī)療領(lǐng)域,一些應(yīng)用已經(jīng)從科幻小說變?yōu)楝F(xiàn)實(shí)。人工智能系統(tǒng)通過了中國(guó)和英國(guó)的醫(yī)學(xué)執(zhí)照考試 ,而且它們比普通醫(yī)生考得更好。最新的系統(tǒng)比初級(jí)醫(yī)生能更好地診斷出55種兒科疾病。但是,這些系統(tǒng)比第一批計(jì)算機(jī)視覺深度學(xué)習(xí)應(yīng)用中的一些更難構(gòu)建,因?yàn)樗鼈冃枰哂懈鼜V泛常見的醫(yī)學(xué)知識(shí),要處理更多種類的輸入,并且必須理解上下文。

  自然語(yǔ)言處理由自然語(yǔ)言理解(NLU)和自然語(yǔ)言生成(NLG)構(gòu)成。NLG是計(jì)算機(jī)的“編寫語(yǔ)言”,它將結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為文本,以人類語(yǔ)言表達(dá)。即能夠根據(jù)一些關(guān)鍵信息及其在機(jī)器內(nèi)部的表達(dá)形式,經(jīng)過一個(gè)規(guī)劃過程,來(lái)自動(dòng)生成一段高質(zhì)量的自然語(yǔ)言文本。如今的數(shù)據(jù)量巨大,人們根本處理不過來(lái);NLG把數(shù)據(jù)人性化,幫助人們處理。

  NLG系統(tǒng)使用數(shù)據(jù)分析和人工智能技術(shù)來(lái)分析復(fù)雜的數(shù)據(jù)集,并采用計(jì)算語(yǔ)言學(xué)技術(shù)在高品質(zhì)的文字說明來(lái)交流分析結(jié)果。NLG的工作原理:輸入抽象的命題,然后對(duì)你輸入的自然語(yǔ)言進(jìn)行語(yǔ)義分析、語(yǔ)法分析進(jìn)行語(yǔ)言組織然后生成無(wú)限接近你想要的文本。例子:輸入麥當(dāng)娜,接下來(lái)通過NLG自然語(yǔ)言生成:麥當(dāng)娜 “歌星”

  pIYBAF22sTyAAlxYAALW0qePDVk785.png

  NLG可以用來(lái)幫助患者,讓他們了解自己的健康狀況,并對(duì)自身的醫(yī)療保健作出更好的選擇;NLG還可以幫助患者更好地照顧自己:包括改變生活方式、自我管理慢性疾病、并配合治療方案。

  最重要的是用NLG來(lái)加強(qiáng)病人對(duì)病情的了解和支持病人,更好的作出治療方案。在系統(tǒng)構(gòu)建的實(shí)踐中,為中文構(gòu)建的現(xiàn)成的NLP庫(kù)和算法在醫(yī)療行業(yè)的這種“不同的語(yǔ)言”上會(huì)遇到各種挫敗。不僅是因?yàn)槊麑?shí)體識(shí)別或?qū)嶓w解析模型會(huì)失敗,甚至像符號(hào)化、詞性標(biāo)注和句子分割這樣的基本任務(wù),現(xiàn)成的模型對(duì)大多數(shù)醫(yī)療行業(yè)的句子都沒用。

  再者醫(yī)療行業(yè)有數(shù)百種語(yǔ)言,千萬(wàn)不要去建立通用的醫(yī)療NLP系統(tǒng)?,F(xiàn)實(shí)是,每個(gè)子專業(yè)和它的溝通形式都和別專業(yè)根本不同,你根本無(wú)法做到統(tǒng)一通用。而且,每個(gè)醫(yī)學(xué)專業(yè)都有很多變化。例如,對(duì)于決定是否批準(zhǔn)針對(duì)MRI的預(yù)授權(quán)請(qǐng)求,針對(duì)植入式脊髓刺激器,需要從預(yù)授權(quán)表格中查看的項(xiàng)目?jī)?nèi)容就和別的請(qǐng)求完全不同。另一個(gè)例子是在病理學(xué)中使用不同的術(shù)語(yǔ)來(lái)討論不同類型的癌癥。

  這些對(duì)實(shí)際問題會(huì)帶來(lái)影響:我所工作的公司正在進(jìn)行一個(gè)項(xiàng)目,該項(xiàng)目需要訓(xùn)練不同的NLP模型,以從病理報(bào)告中提取有關(guān)肺癌、乳腺癌和結(jié)腸癌的事實(shí)。到目前為止,亞馬遜的Comprehend Medical僅關(guān)注藥物價(jià)值的正規(guī)化(參見上面最后一個(gè)“阿司匹林”的例子)。該服務(wù)還具有標(biāo)準(zhǔn)的醫(yī)療命名實(shí)體識(shí)別功能,但不能滿足任何特定應(yīng)用的需求。

  構(gòu)建一個(gè)AI系統(tǒng)有一種方法是從構(gòu)建標(biāo)注驗(yàn)證數(shù)據(jù)集。例如,如果你對(duì)自動(dòng)化門診病例成ICD-10編碼感興趣,請(qǐng)讓臨床醫(yī)生定義一些代表性樣本,對(duì)樣本進(jìn)行脫敏,并讓專業(yè)的臨床編碼人員對(duì)其進(jìn)行標(biāo)注(分配正確的代碼)。如果你有興趣從放射學(xué)報(bào)告中提取關(guān)鍵事件或從患者病例中找出被忽視的安全事件,請(qǐng)首先讓臨床醫(yī)生定義一些樣本,并正確標(biāo)注。

  這樣做通常會(huì)在讓數(shù)據(jù)科學(xué)團(tuán)隊(duì)加入(并浪費(fèi)很多時(shí)間)前提前發(fā)現(xiàn)一些“坑”。如果你無(wú)法獲得足夠的數(shù)據(jù),或者無(wú)法大規(guī)模地進(jìn)行脫敏,那就無(wú)法構(gòu)建可靠的模型。如果在某些情況下臨床醫(yī)生不能一致同意正確的標(biāo)注,那么要解決的第一個(gè)問題是就臨床指南達(dá)成一致,而不是讓數(shù)據(jù)科學(xué)家參與嘗試去自動(dòng)化這種不一致。

  最后,如果你發(fā)現(xiàn)自己面臨非常不平衡的類別(比如你尋找的是每年只有少數(shù)人患病的情況),那么在引入數(shù)據(jù)科學(xué)家之前修改問題的定義可能是明智之舉。標(biāo)注的驗(yàn)證集以及數(shù)據(jù)集其目標(biāo)是使用標(biāo)準(zhǔn)庫(kù)或云服務(wù)來(lái)發(fā)現(xiàn)它們能達(dá)到的滿足用戶特定需求的最高準(zhǔn)確度。這樣做就可以評(píng)估下面每項(xiàng)服務(wù)的難易程度,包括:訓(xùn)練自定義的模型、定義領(lǐng)域?qū)S械奶卣?、解決方案所需的pipeline步驟和把結(jié)果解釋給客戶。

  一旦有了一個(gè)有代表性的和已商定并正確標(biāo)注的驗(yàn)證集,你就可以開始用它來(lái)測(cè)試現(xiàn)有的庫(kù)和云服務(wù)提供商的服務(wù)了。很可能的是,這個(gè)測(cè)試將立即發(fā)現(xiàn)每個(gè)產(chǎn)品與你的需求之間的差距。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。