李艷紅1,沈瑞琪1,歐敬民2
(1.上海財經(jīng)大學 信息管理與工程學院,上海 200433;2.上海交通大學醫(yī)學院附屬新華醫(yī)院 普外科,上海 200092)
摘要:大數(shù)據(jù)時代的來臨日益凸顯數(shù)據(jù)挖掘技術(shù)的價值。文本挖掘作為數(shù)據(jù)挖掘的研究分支,對非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)有重要意義。高血壓患病人群廣,發(fā)病率高,治療藥物種類繁雜,尋找其中的用藥規(guī)律,是臨床醫(yī)學的一個重要方向?;谖谋就诰蚣夹g(shù),從在線醫(yī)療網(wǎng)站獲取醫(yī)患互動論壇數(shù)據(jù),進行文本預(yù)處理,基于TFIDF算法發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點等,結(jié)合關(guān)聯(lián)規(guī)則算法挖掘“癥藥”關(guān)系,有益于高血壓的臨床判斷及用藥研究。另外,驗證了在線醫(yī)療網(wǎng)站醫(yī)患互動數(shù)據(jù)用于疾病研究的可用性和效果。
關(guān)鍵詞:高血壓;文本挖掘;用藥規(guī)律;TF-IDF;關(guān)聯(lián)規(guī)則
中圖分類號:TP399文獻標識碼:ADOI: 10.19358/j.issn.1674-7720.2017.03.030
引用格式:李艷紅,沈瑞琪,歐敬民.基于文本挖掘技術(shù)的高血壓用藥規(guī)律研究[J].微型機與應(yīng)用,2017,36(3):103-106.
0引言
文本挖掘能抽取分散在文本數(shù)據(jù)中未被發(fā)現(xiàn)的、有價值的、能被用戶理解的知識,從而更好地組織信息,是數(shù)據(jù)挖掘的一個研究分支。大數(shù)據(jù)時代的數(shù)據(jù)量龐大,類型繁多,價值密度低。利用傳統(tǒng)的信息檢索技術(shù)處理如此大量瑣碎的文本數(shù)據(jù)顯然力不從心,文本挖掘漸漸受到重視。大量醫(yī)學信息以非結(jié)構(gòu)化文本的形式充斥互聯(lián)網(wǎng),如醫(yī)療新聞、生物醫(yī)學文獻、在線醫(yī)療網(wǎng)站上的醫(yī)患互動論壇等,應(yīng)用文本挖掘知識以及技術(shù)從中發(fā)現(xiàn)隱含潛在的規(guī)律,已成為醫(yī)學研究的一個重要方向。
高血壓是目前最常見的疾病,據(jù)統(tǒng)計,全國高血壓患者接近2.7億,15歲及以上高血壓發(fā)病率達四分之一,并有逐漸增多的趨勢。治療使用的中西藥種類繁多,而且不斷有研發(fā)出的新藥用于臨床。尋找高血壓的用藥規(guī)律,是臨床醫(yī)學的一個重要任務(wù)。
本文基于文本挖掘技術(shù),抓取國內(nèi)知名在線醫(yī)療網(wǎng)站上關(guān)于高血壓的醫(yī)患問答文本,獲取高血壓的相關(guān)知識,所得結(jié)論供醫(yī)生和病人參考,有益于高血壓臨床判斷及用藥研究。
1文獻綜述
文本挖掘在生物信息和生物制藥領(lǐng)域的應(yīng)用取得成功,為其在中醫(yī)藥領(lǐng)域的應(yīng)用建立了案例。參考文獻[1]指出文本挖掘技術(shù)對中醫(yī)藥文獻分析是一種很有前景的方法。目前,文本挖掘技術(shù)也確實在我國的中醫(yī)藥領(lǐng)域被廣泛運用,越來越多的學者基于中醫(yī)藥文獻使用文本挖掘技術(shù)研究某疾病用藥規(guī)律,僅針對高血壓疾病,文獻[23]基于中國生物醫(yī)學文獻數(shù)據(jù)庫中檢索的高血壓診療相關(guān)文獻,進行必要的數(shù)據(jù)清洗后,參考文獻[2]對每一篇文獻共同出現(xiàn)的關(guān)鍵詞對構(gòu)建關(guān)鍵詞對程序算法,合并相同的關(guān)鍵詞對,根據(jù)出現(xiàn)的頻數(shù)找出常用的中西藥;參考文獻[3]采用基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計的數(shù)據(jù)分層算法,挖掘高血壓中醫(yī)癥狀、證候以及用藥規(guī)律。目前國內(nèi)尚未見到網(wǎng)絡(luò)數(shù)據(jù)用于醫(yī)學研究,在國外,有相應(yīng)的工作發(fā)布,如參考文獻[4]認為網(wǎng)絡(luò)和社會媒體數(shù)據(jù)是重要的疾病監(jiān)測資源,基于其上的文本挖掘研究不僅能預(yù)測流感趨勢,還能通過社交網(wǎng)絡(luò)的異常進行生物事件的探測;參考文獻[5]試圖建立一個機器學習方法,從社交媒體中高度非正式的描述性文本中提取藥物不良反應(yīng)信息;參考文獻[6]發(fā)現(xiàn)網(wǎng)絡(luò)和社會化媒體的謾罵相關(guān)信息可用于監(jiān)控濫用處方藥;參考文獻[7]調(diào)查了是否在線醫(yī)療社區(qū)的社交支持交換有利于患者的心理健康,如憂郁癥;參考文獻[8]針對twitter用戶使用樸素和日常的語言來描述他們的疾病,經(jīng)常報告綜合癥狀,而不是一個疑似或確診等特點,發(fā)現(xiàn)twitter有潛力成為一個內(nèi)容豐富和低成本的數(shù)據(jù)源,可用于癥狀監(jiān)測。
用藥規(guī)律研究方面,包括參考文獻[1]在內(nèi)的已有文獻都只挖掘出常用中藥及西藥的用藥規(guī)律,鮮有研究“癥藥”關(guān)聯(lián)。另外,數(shù)據(jù)源都是直接從生物醫(yī)學文獻數(shù)據(jù)庫檢索的文獻。雖然文獻的數(shù)據(jù)更具權(quán)威性,但已被人為處理過。根據(jù)國外的研究成果,已知網(wǎng)絡(luò)數(shù)據(jù)在醫(yī)學某方面應(yīng)用的有效性,直接從網(wǎng)上抓取的數(shù)據(jù)更具客觀性、先進性以及臨床價值。所以,本文在研究方法和數(shù)據(jù)源選擇方面進行新的嘗試。
2研究設(shè)計
本文的研究工作路徑設(shè)計如下:數(shù)據(jù)爬取→文本預(yù)處理(分詞和過濾)→抽取關(guān)鍵詞→文本向量化→知識獲取。
數(shù)據(jù)獲取是研究的第一步,使用Python設(shè)計兩層網(wǎng)絡(luò)爬蟲,使用Scrapy架構(gòu),采用Spider作為爬蟲設(shè)計的基類來獲取網(wǎng)絡(luò)數(shù)據(jù)源。中文文本預(yù)處理最基礎(chǔ)的一個工作就是分詞。非結(jié)構(gòu)化的文本數(shù)據(jù)會摻雜大量對結(jié)果沒有影響的無意義的單詞,處理文本時需要過濾掉。在哈工大擴展停用詞表的基礎(chǔ)上手工添加了若干如“疾病”、“醫(yī)生”這些對研究沒有幫助的高頻詞,導(dǎo)入到結(jié)巴分詞中,完成文本預(yù)處理。由于文本包含的信息和詞條繁雜,直接進行文本向量化維數(shù)過大,因此需要先進行特征提取降維。使用詞頻反詞頻(Term FrequencyInverse Document Frequency, TFIDF)方法更客觀地權(quán)衡某詞語的重要程度,實現(xiàn)關(guān)鍵詞的自動抽取。文本向量化是把文本數(shù)據(jù)從非結(jié)構(gòu)化轉(zhuǎn)到結(jié)構(gòu)化的重要一步,使用Python機器學習包scikitlearn完成文本向量化的過程。最后,基于詞頻統(tǒng)計信息和關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori完成高血壓用藥相關(guān)知識獲取。
3實證分析過程
3.1獲取數(shù)據(jù)
爬取到2013~2016年尋醫(yī)問藥在線醫(yī)療網(wǎng)站上高血壓相關(guān)醫(yī)患互動文本數(shù)據(jù)57 000條。
3.2文本預(yù)處理
導(dǎo)入自定義詞典,自定義詞典為高血壓相關(guān)的醫(yī)學專有名詞以及藥名。導(dǎo)入哈工大停用詞典。進行分詞。
3.3獲取關(guān)鍵字
首先使用基于詞頻統(tǒng)計的方法抓取關(guān)鍵詞,得出病人提問部分主要集中在患者對血壓(“高壓”、“低壓”)、病史(如“心臟病”、“糖尿病”、“冠心病”等),以及癥狀(“頭暈”、“頭疼”)的描述。醫(yī)生回答部分主要為藥名。設(shè)置參數(shù)輸出指定詞性的關(guān)鍵詞,抓取名詞關(guān)鍵詞作為特征提取能更高效地挖掘用藥規(guī)律。選用同時兼顧詞頻和詞重要性的TFIDF方法自動抽取關(guān)鍵詞。
3.4文本向量化
將TFIDF結(jié)果轉(zhuǎn)換成對應(yīng)稀疏矩陣。每行對應(yīng)一個文件,共有57 000行,列由關(guān)鍵詞表組成。然后進行高血壓用藥相關(guān)知識獲取。
4高血壓用藥知識獲取
4.1基于詞頻獲取高血壓常用中西藥及非藥物治療
由于中藥種類繁多,量效關(guān)系復(fù)雜,用藥配比規(guī)定嚴格,在線醫(yī)療網(wǎng)站上醫(yī)生答復(fù)以西藥為主,故所得中藥成分相關(guān)數(shù)據(jù)頻數(shù)普遍較小。選取部分頻數(shù)相對比較高的,可見治療高血壓常用中藥以丹參、山楂、牛黃、決明子、菊花、天麻、葛根為主,多有祛風解毒、清肝補腎之藥效,如圖1所示。文獻[2][3]得出治療高血壓病最常用的中藥是天麻、鉤藤、丹參、地黃,最常用的中成藥是丹參注射液和珍菊降壓片。本研究未細致區(qū)分中藥和中成藥,導(dǎo)致丹參兼具中藥成分和注射液的雙重身份,故頻數(shù)最多,所以本文結(jié)論與文獻[2][3]類似。
治療高血壓的常用西藥頻數(shù)統(tǒng)計如圖2。可見鈣通道拮抗劑類藥物使用較多,繼續(xù)對其進行分析。根據(jù)圖3可知,硝苯地平頻數(shù)最多,是鈣通道拮抗劑中使用最廣的藥物。
表1為ACEI類各藥物的目前使用頻數(shù)表,顯示ACEI類藥物中卡托普利及依那普利應(yīng)用最廣泛,占ACEI藥物的60%和35%。
ARB類各藥物的使用頻數(shù)如表2,可見替米沙坦、纈沙坦使用較多,分別占比34%和30%。
利尿劑使用氫氯噻嗪、吲達帕胺兩種最多,氨苯蝶啶和螺內(nèi)酯也起利尿作用,但頻數(shù)較低,如圖4。
如圖5所示為文獻[2]對高血壓病常用西藥使用情況的研究結(jié)果。本文研究對目前高血壓西藥的用藥情況結(jié)論與文獻[2]類似,排名前三的藥物是一樣的。本文在高血壓西藥大的分類框架下做了更細致的分析,提供了更詳細的信息。硝苯地平是臨床常用的降壓藥,也是一種不可多得的急救藥,特別是舌下含化,療效迅速。根據(jù)資料和專家求證發(fā)現(xiàn)硝苯地平能否作為長期降壓藥,理論和實踐中存在分歧。從本文研究數(shù)據(jù)中看,它的使用位居榜首,從圖5可見它的使用基本持平卡托普利。圖5結(jié)論基于中國生物醫(yī)學文獻數(shù)據(jù)庫數(shù)據(jù),更反映臨床研究。本文研究基于互聯(lián)網(wǎng)醫(yī)患互動論壇數(shù)據(jù),涉及面更廣,反映廣大患者的實際使用。二者近似相同,證實了本文研究一定程度的可信性。同時也提出了疑問,目前硝苯地平如此多的使用,是否存在誤用問題,有待于引發(fā)思考,進一步求證。
由圖6可見,除了藥物治療以外,改變生活習慣,食療和鍛煉也是治療高血壓的常用療法。高血壓患者要注意:低脂低鹽,保持情緒穩(wěn)定,戒煙忌酒,飲食清淡,注意睡眠,多吃蔬菜,補充維生素,多參加體育鍛煉,多喝水等。
4.2基于關(guān)聯(lián)規(guī)則獲取“癥藥”關(guān)系
基于詞頻統(tǒng)計獲得的高血壓癥狀信息如圖7,可見高血壓常見癥狀為頭暈、頭痛、惡心嘔吐、水腫等。頭暈、頭痛為最主要的兩大癥狀,此結(jié)論與文獻[3]一致。根據(jù)圖7,可把高血壓癥狀主要分為3類:影響患者腦部血管引起患者頭痛、頭暈、耳鳴;影響患者心血管機能造成患者心悸、心絞痛;造成患者四肢乏力、麻木、水腫。
本文數(shù)據(jù)源并非權(quán)威的文獻,患者癥狀描述或醫(yī)生答復(fù)并不詳盡,數(shù)據(jù)集的稀疏度決定最小支持度不能太高。同時再次對數(shù)據(jù)進行清洗去噪,把矩陣中不包含關(guān)鍵詞和只包含一個關(guān)鍵詞的評論刪除以增加數(shù)據(jù)的密集度。經(jīng)過多次嘗試,降低最小支持度至5%,計算出滿足置信度50%的強規(guī)則有:
規(guī)則1:頭痛→頭暈,最小置信度為53.1%;
規(guī)則2:頭痛→鈣通道拮抗劑,最小置信度為53.3%;
規(guī)則3:水腫→利尿劑,最小置信度為67.2%。
由規(guī)則1可知,出現(xiàn)頭痛癥狀的高血壓患者通常伴有頭暈,這兩種癥狀都與腦部血管有關(guān)。規(guī)則2和規(guī)則3都是“癥藥”的強規(guī)則。規(guī)則2說明如高血壓患者出現(xiàn)頭疼,醫(yī)生通常都會使用鈣通道拮抗劑類的藥。規(guī)則3的置信度接近70%,“癥藥”關(guān)系比較強,可推斷高血壓患者若出現(xiàn)水腫的癥狀,醫(yī)生通常會開利尿劑配合降壓藥使用。挖掘出的“癥藥”規(guī)則較少,可能是由于沒有經(jīng)過面診的文本數(shù)據(jù)質(zhì)量不高,還因為高血壓病理復(fù)雜,并發(fā)疾病多,用藥需要結(jié)合患者年齡、病史、并發(fā)疾病以及進一步的儀器檢查方能確定,因此單一的“癥藥”關(guān)聯(lián)較弱。
4.3基于詞頻獲得高血壓并發(fā)癥用藥特點
高血壓病人常伴有糖尿病、動脈硬化、冠心病、腦梗塞、血栓、中風或腎臟病等,如圖8。這幾種疾病或者病因是相通的,疾病的危害互相影響。根據(jù)并發(fā)癥的不同,癥狀與治療方法也有所不同。探究高血壓并發(fā)癥用藥特點,以高血壓合并“冠心病”、“糖尿病”、“腎病”為例進行研究。篩出包含如上某個并發(fā)癥的數(shù)據(jù),比較篩選前后關(guān)鍵詞頻率變化較大的項,可知:高血壓合并冠心病的患者出現(xiàn)“心悸”、“胸悶氣短”、“心絞痛”癥狀更頻繁。與之對比,單單高血壓的患者出現(xiàn)以上3種癥狀的頻率則低得多,并發(fā)“腦梗塞”、“動脈硬化”的頻率也只有并發(fā)冠心病患者的1/2。用藥方面,并發(fā)冠心病的高血壓患者使用鈣通道拮抗劑的頻率為48.3%,接近篩選前的兩倍多,可見并發(fā)冠心病的高血壓患者更傾向于使用鈣通道拮抗劑作為首選降壓藥。由整體數(shù)據(jù)可知,高血壓并發(fā)糖尿病關(guān)鍵字詞頻總體上比高血壓低,說明癥狀與高血壓基本相同。四肢的癥狀如“四肢乏力”、“水腫”、“麻木”頻率稍微比單純高血壓患者高一點,說明高血壓并發(fā)糖尿病后容易出現(xiàn)這些癥狀,可多吃利尿的食物。肥胖的患者更容易出現(xiàn)高血壓并發(fā)糖尿病,高血壓并發(fā)糖尿病患者也更容易出現(xiàn)昏厥,所以高血壓患者要多運動減肥,防止低糖。對于高血壓合并腎臟病,“低鹽”、“低脂肪”詞頻高達70%以上,說明高血壓腎病患者要尤其注重低鹽、低脂肪的飲食,同時保持情緒穩(wěn)定。在用藥方面,鈣通道拮抗劑是高血壓腎病患者的首選。多喝水、多補充維生素這些對于單純高血壓需要提倡的非藥物治療方法,對于高血壓腎病患者不強調(diào),意圖減輕腎臟負擔。
5結(jié)論
本文基于文本挖掘正規(guī)流程,基于在線醫(yī)療網(wǎng)站醫(yī)患互動論壇數(shù)據(jù),使用TFIDF算法和關(guān)聯(lián)規(guī)則算法,發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點、“癥藥”關(guān)系等知識,并與當前文獻交互驗證,發(fā)現(xiàn)待思考求證的問題,驗證了互聯(lián)網(wǎng)數(shù)據(jù)用于疾病研究的可用性和效果。
本文的不足之處及后繼工作是:受當前自然語言處理發(fā)展的影響,分詞處理還有提升空間;由于病理復(fù)雜,單一的“癥藥”關(guān)聯(lián)規(guī)則分析可能無法應(yīng)用于實際臨床中,需要進一步對“多癥狀多藥”進行聯(lián)合挖掘。
隨著醫(yī)療管理的移動化和智能化,數(shù)據(jù)會更多更好,各種源頭的數(shù)據(jù)聯(lián)合使用,文本挖掘技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用會展現(xiàn)出蓬勃的生命力。
參考文獻
?。?] 楊進,羅漫,張啟蕊.文本挖掘在中醫(yī)藥文獻分析中的應(yīng)用[J].廣東藥學院學報,2010,26(2):216-220.
?。?] 王麗穎,鄭光,郭洪濤,等.基于文本挖掘技術(shù)的高血壓病中成藥與西藥用藥規(guī)律分析[J].中華中醫(yī)藥雜志,2013,28(1):60-63.
?。?] 賀丹,姜淼,鄭光,等.利用文本挖掘技術(shù)探索高血壓病癥狀、證候以及用藥規(guī)律[J].中國實驗方劑學雜志, 2014,20(19):214-216.
?。?] CORLEY C D,COOK D J, MIKLER A R, et al. Text and structural data mining of influenza mentions in Web and social media[J]. International Journal of Environmental Research & Public Health, 2010, 7(2):596-615.
[5] NIKFARJAM A, SARKER A, O’CONNOR K, et al. Pharmacovigilance from social media: mining adverse drug reaction mentions using sequence labeling with word embedding cluster features[J]. Journal of the American Medical Informatics Association, 2015,22(3):671-681.
?。?] SARKER A, O’CONNOR K,GINN R, et al. Social media mining for toxicovigilance: automatic monitoring of prescription medication abuse from twitter[J]. Drug Safety, 2016,39(3):231-240.
?。?] YAN L, TAN Y. Feeling blue? go online: an empirical study of social support among patients[J]. Information Systems Research, 2014,25(4): 690-709.
?。?] GESUALDO F,STILO G,AGRICOLA E,et al. Influenzalike illness surveillance on twitter through automated learning of naive language[J]. PLoS One, 2013, 8(12): 182.