51妺嘿嘿午夜福利,99视频都是精品免费观看,一道本不卡免费一区二区三区

基于文本挖掘技術(shù)的高血壓用藥規(guī)律研究

2017年微型機(jī)與應(yīng)用第3期

李艷紅1，沈瑞琪1，歐敬民2

1．上海財經(jīng)大學(xué) 信息管理與工程學(xué)院，上海 200433；2．上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科，上海 200092

摘要： 大數(shù)據(jù)時代的來臨日益凸顯數(shù)據(jù)挖掘技術(shù)的價值。文本挖掘作為數(shù)據(jù)挖掘的研究分支，對非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)有重要意義。高血壓患病人群廣，發(fā)病率高，治療藥物種類繁雜，尋找其中的用藥規(guī)律，是臨床醫(yī)學(xué)的一個重要方向?；谖谋就诰蚣夹g(shù)，從在線醫(yī)療網(wǎng)站獲取醫(yī)患互動論壇數(shù)據(jù)，進(jìn)行文本預(yù)處理，基于TFIDF算法發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點(diǎn)等，結(jié)合關(guān)聯(lián)規(guī)則算法挖掘“癥藥”關(guān)系，有益于高血壓的臨床判斷及用藥研究。另外，驗(yàn)證了在線醫(yī)療網(wǎng)站醫(yī)患互動數(shù)據(jù)用于疾病研究的可用性和效果。

關(guān)鍵詞： 高血壓文本挖掘用藥規(guī)律 TF-IDF

Abstract：

Key words :

　　李艷紅1，沈瑞琪1，歐敬民2

　　(1．上海財經(jīng)大學(xué) 信息管理與工程學(xué)院，上海 200433；2．上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院普外科，上海 200092)

摘要：大數(shù)據(jù)時代的來臨日益凸顯數(shù)據(jù)挖掘技術(shù)的價值。文本挖掘作為數(shù)據(jù)挖掘的研究分支，對非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn)有重要意義。高血壓患病人群廣，發(fā)病率高，治療藥物種類繁雜，尋找其中的用藥規(guī)律，是臨床醫(yī)學(xué)的一個重要方向?；谖谋就诰蚣夹g(shù)，從在線醫(yī)療網(wǎng)站獲取醫(yī)患互動論壇數(shù)據(jù)，進(jìn)行文本預(yù)處理，基于TFIDF算法發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點(diǎn)等，結(jié)合關(guān)聯(lián)規(guī)則算法挖掘“癥藥”關(guān)系，有益于高血壓的臨床判斷及用藥研究。另外，驗(yàn)證了在線醫(yī)療網(wǎng)站醫(yī)患互動數(shù)據(jù)用于疾病研究的可用性和效果。

　　關(guān)鍵詞：高血壓；文本挖掘；用藥規(guī)律；TF-IDF；關(guān)聯(lián)規(guī)則

　　中圖分類號：TP399文獻(xiàn)標(biāo)識碼：ADOI： 10.19358/j.issn.1674-7720.2017.03.030

　　引用格式：李艷紅，沈瑞琪，歐敬民.基于文本挖掘技術(shù)的高血壓用藥規(guī)律研究［J］.微型機(jī)與應(yīng)用，2017,36（3）：103-106.

0引言

　　文本挖掘能抽取分散在文本數(shù)據(jù)中未被發(fā)現(xiàn)的、有價值的、能被用戶理解的知識，從而更好地組織信息，是數(shù)據(jù)挖掘的一個研究分支。大數(shù)據(jù)時代的數(shù)據(jù)量龐大，類型繁多，價值密度低。利用傳統(tǒng)的信息檢索技術(shù)處理如此大量瑣碎的文本數(shù)據(jù)顯然力不從心，文本挖掘漸漸受到重視。大量醫(yī)學(xué)信息以非結(jié)構(gòu)化文本的形式充斥互聯(lián)網(wǎng)，如醫(yī)療新聞、生物醫(yī)學(xué)文獻(xiàn)、在線醫(yī)療網(wǎng)站上的醫(yī)患互動論壇等，應(yīng)用文本挖掘知識以及技術(shù)從中發(fā)現(xiàn)隱含潛在的規(guī)律，已成為醫(yī)學(xué)研究的一個重要方向。

　　高血壓是目前最常見的疾病，據(jù)統(tǒng)計，全國高血壓患者接近2.7億，15歲及以上高血壓發(fā)病率達(dá)四分之一，并有逐漸增多的趨勢。治療使用的中西藥種類繁多，而且不斷有研發(fā)出的新藥用于臨床。尋找高血壓的用藥規(guī)律，是臨床醫(yī)學(xué)的一個重要任務(wù)。

　　本文基于文本挖掘技術(shù)，抓取國內(nèi)知名在線醫(yī)療網(wǎng)站上關(guān)于高血壓的醫(yī)患問答文本，獲取高血壓的相關(guān)知識，所得結(jié)論供醫(yī)生和病人參考，有益于高血壓臨床判斷及用藥研究。

1文獻(xiàn)綜述

　　文本挖掘在生物信息和生物制藥領(lǐng)域的應(yīng)用取得成功，為其在中醫(yī)藥領(lǐng)域的應(yīng)用建立了案例。參考文獻(xiàn)［1］指出文本挖掘技術(shù)對中醫(yī)藥文獻(xiàn)分析是一種很有前景的方法。目前，文本挖掘技術(shù)也確實(shí)在我國的中醫(yī)藥領(lǐng)域被廣泛運(yùn)用，越來越多的學(xué)者基于中醫(yī)藥文獻(xiàn)使用文本挖掘技術(shù)研究某疾病用藥規(guī)律，僅針對高血壓疾病，文獻(xiàn)［23］基于中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫中檢索的高血壓診療相關(guān)文獻(xiàn)，進(jìn)行必要的數(shù)據(jù)清洗后，參考文獻(xiàn)［2］對每一篇文獻(xiàn)共同出現(xiàn)的關(guān)鍵詞對構(gòu)建關(guān)鍵詞對程序算法，合并相同的關(guān)鍵詞對，根據(jù)出現(xiàn)的頻數(shù)找出常用的中西藥；參考文獻(xiàn)［3］采用基于敏感關(guān)鍵詞頻數(shù)統(tǒng)計的數(shù)據(jù)分層算法，挖掘高血壓中醫(yī)癥狀、證候以及用藥規(guī)律。目前國內(nèi)尚未見到網(wǎng)絡(luò)數(shù)據(jù)用于醫(yī)學(xué)研究，在國外，有相應(yīng)的工作發(fā)布，如參考文獻(xiàn)［4］認(rèn)為網(wǎng)絡(luò)和社會媒體數(shù)據(jù)是重要的疾病監(jiān)測資源，基于其上的文本挖掘研究不僅能預(yù)測流感趨勢，還能通過社交網(wǎng)絡(luò)的異常進(jìn)行生物事件的探測；參考文獻(xiàn)［5］試圖建立一個機(jī)器學(xué)習(xí)方法，從社交媒體中高度非正式的描述性文本中提取藥物不良反應(yīng)信息；參考文獻(xiàn)［6］發(fā)現(xiàn)網(wǎng)絡(luò)和社會化媒體的謾罵相關(guān)信息可用于監(jiān)控濫用處方藥；參考文獻(xiàn)［7］調(diào)查了是否在線醫(yī)療社區(qū)的社交支持交換有利于患者的心理健康，如憂郁癥；參考文獻(xiàn)［8］針對twitter用戶使用樸素和日常的語言來描述他們的疾病，經(jīng)常報告綜合癥狀，而不是一個疑似或確診等特點(diǎn)，發(fā)現(xiàn)twitter有潛力成為一個內(nèi)容豐富和低成本的數(shù)據(jù)源，可用于癥狀監(jiān)測。

　　用藥規(guī)律研究方面，包括參考文獻(xiàn)［1］在內(nèi)的已有文獻(xiàn)都只挖掘出常用中藥及西藥的用藥規(guī)律，鮮有研究“癥藥”關(guān)聯(lián)。另外，數(shù)據(jù)源都是直接從生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫檢索的文獻(xiàn)。雖然文獻(xiàn)的數(shù)據(jù)更具權(quán)威性，但已被人為處理過。根據(jù)國外的研究成果，已知網(wǎng)絡(luò)數(shù)據(jù)在醫(yī)學(xué)某方面應(yīng)用的有效性，直接從網(wǎng)上抓取的數(shù)據(jù)更具客觀性、先進(jìn)性以及臨床價值。所以，本文在研究方法和數(shù)據(jù)源選擇方面進(jìn)行新的嘗試。

2研究設(shè)計

　　本文的研究工作路徑設(shè)計如下：數(shù)據(jù)爬取→文本預(yù)處理（分詞和過濾）→抽取關(guān)鍵詞→文本向量化→知識獲取。

　　數(shù)據(jù)獲取是研究的第一步，使用Python設(shè)計兩層網(wǎng)絡(luò)爬蟲，使用Scrapy架構(gòu)，采用Spider作為爬蟲設(shè)計的基類來獲取網(wǎng)絡(luò)數(shù)據(jù)源。中文文本預(yù)處理最基礎(chǔ)的一個工作就是分詞。非結(jié)構(gòu)化的文本數(shù)據(jù)會摻雜大量對結(jié)果沒有影響的無意義的單詞，處理文本時需要過濾掉。在哈工大擴(kuò)展停用詞表的基礎(chǔ)上手工添加了若干如“疾病”、“醫(yī)生”這些對研究沒有幫助的高頻詞，導(dǎo)入到結(jié)巴分詞中，完成文本預(yù)處理。由于文本包含的信息和詞條繁雜，直接進(jìn)行文本向量化維數(shù)過大，因此需要先進(jìn)行特征提取降維。使用詞頻反詞頻(Term FrequencyInverse Document Frequency, TFIDF)方法更客觀地權(quán)衡某詞語的重要程度，實(shí)現(xiàn)關(guān)鍵詞的自動抽取。文本向量化是把文本數(shù)據(jù)從非結(jié)構(gòu)化轉(zhuǎn)到結(jié)構(gòu)化的重要一步，使用Python機(jī)器學(xué)習(xí)包scikitlearn完成文本向量化的過程。最后，基于詞頻統(tǒng)計信息和關(guān)聯(lián)規(guī)則的經(jīng)典算法Apriori完成高血壓用藥相關(guān)知識獲取。

3實(shí)證分析過程

　　3.1獲取數(shù)據(jù)

　　爬取到2013~2016年尋醫(yī)問藥在線醫(yī)療網(wǎng)站上高血壓相關(guān)醫(yī)患互動文本數(shù)據(jù)57 000條。

　　3.2文本預(yù)處理

　　導(dǎo)入自定義詞典，自定義詞典為高血壓相關(guān)的醫(yī)學(xué)專有名詞以及藥名。導(dǎo)入哈工大停用詞典。進(jìn)行分詞。

　　3.3獲取關(guān)鍵字

　　首先使用基于詞頻統(tǒng)計的方法抓取關(guān)鍵詞，得出病人提問部分主要集中在患者對血壓（“高壓”、“低壓”）、病史（如“心臟病”、“糖尿病”、“冠心病”等），以及癥狀（“頭暈”、“頭疼”）的描述。醫(yī)生回答部分主要為藥名。設(shè)置參數(shù)輸出指定詞性的關(guān)鍵詞，抓取名詞關(guān)鍵詞作為特征提取能更高效地挖掘用藥規(guī)律。選用同時兼顧詞頻和詞重要性的TFIDF方法自動抽取關(guān)鍵詞。

　　3.4文本向量化

　　將TFIDF結(jié)果轉(zhuǎn)換成對應(yīng)稀疏矩陣。每行對應(yīng)一個文件，共有57 000行，列由關(guān)鍵詞表組成。然后進(jìn)行高血壓用藥相關(guān)知識獲取。

4高血壓用藥知識獲取

　　4.1基于詞頻獲取高血壓常用中西藥及非藥物治療

　　由于中藥種類繁多，量效關(guān)系復(fù)雜，用藥配比規(guī)定嚴(yán)格，在線醫(yī)療網(wǎng)站上醫(yī)生答復(fù)以西藥為主，故所得中藥成分相關(guān)數(shù)據(jù)頻數(shù)普遍較小。選取部分頻數(shù)相對比較高的，可見治療高血壓常用中藥以丹參、山楂、牛黃、決明子、菊花、天麻、葛根為主，多有祛風(fēng)解毒、清肝補(bǔ)腎之藥效，如圖1所示。文獻(xiàn)［2］［3］得出治療高血壓病最常用的中藥是天麻、鉤藤、丹參、地黃，最常用的中成藥是丹參注射液和珍菊降壓片。本研究未細(xì)致區(qū)分中藥和中成藥，導(dǎo)致丹參兼具中藥成分和注射液的雙重身份，故頻數(shù)最多，所以本文結(jié)論與文獻(xiàn)［2］［3］類似。

　　治療高血壓的常用西藥頻數(shù)統(tǒng)計如圖2。可見鈣通道拮抗劑類藥物使用較多，繼續(xù)對其進(jìn)行分析。根據(jù)圖3可知，硝苯地平頻數(shù)最多，是鈣通道拮抗劑中使用最廣的藥物。

　　表1為ACEI類各藥物的目前使用頻數(shù)表，顯示ACEI類藥物中卡托普利及依那普利應(yīng)用最廣泛，占ACEI藥物的60%和35%。

　　ARB類各藥物的使用頻數(shù)如表2，可見替米沙坦、纈沙坦使用較多，分別占比34%和30%。

　　利尿劑使用氫氯噻嗪、吲達(dá)帕胺兩種最多，氨苯蝶啶和螺內(nèi)酯也起利尿作用，但頻數(shù)較低，如圖4。

　　如圖5所示為文獻(xiàn)［2］對高血壓病常用西藥使用情況的研究結(jié)果。本文研究對目前高血壓西藥的用藥情況結(jié)論與文獻(xiàn)［2］類似，排名前三的藥物是一樣的。本文在高血壓西藥大的分類框架下做了更細(xì)致的分析，提供了更詳細(xì)的信息。硝苯地平是臨床常用的降壓藥，也是一種不可多得的急救藥，特別是舌下含化，療效迅速。根據(jù)資料和專家求證發(fā)現(xiàn)硝苯地平能否作為長期降壓藥，理論和實(shí)踐中存在分歧。從本文研究數(shù)據(jù)中看，它的使用位居榜首，從圖5可見它的使用基本持平卡托普利。圖5結(jié)論基于中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫數(shù)據(jù)，更反映臨床研究。本文研究基于互聯(lián)網(wǎng)醫(yī)患互動論壇數(shù)據(jù)，涉及面更廣，反映廣大患者的實(shí)際使用。二者近似相同，證實(shí)了本文研究一定程度的可信性。同時也提出了疑問，目前硝苯地平如此多的使用，是否存在誤用問題，有待于引發(fā)思考，進(jìn)一步求證。

　　由圖6可見，除了藥物治療以外，改變生活習(xí)慣，食療和鍛煉也是治療高血壓的常用療法。高血壓患者要注意：低脂低鹽，保持情緒穩(wěn)定，戒煙忌酒，飲食清淡，注意睡眠，多吃蔬菜，補(bǔ)充維生素，多參加體育鍛煉，多喝水等。

　　4.2基于關(guān)聯(lián)規(guī)則獲取“癥藥”關(guān)系

　　基于詞頻統(tǒng)計獲得的高血壓癥狀信息如圖7，可見高血壓常見癥狀為頭暈、頭痛、惡心嘔吐、水腫等。頭暈、頭痛為最主要的兩大癥狀，此結(jié)論與文獻(xiàn)［3］一致。根據(jù)圖7，可把高血壓癥狀主要分為3類：影響患者腦部血管引起患者頭痛、頭暈、耳鳴；影響患者心血管機(jī)能造成患者心悸、心絞痛；造成患者四肢乏力、麻木、水腫。

　　本文數(shù)據(jù)源并非權(quán)威的文獻(xiàn)，患者癥狀描述或醫(yī)生答復(fù)并不詳盡，數(shù)據(jù)集的稀疏度決定最小支持度不能太高。同時再次對數(shù)據(jù)進(jìn)行清洗去噪，把矩陣中不包含關(guān)鍵詞和只包含一個關(guān)鍵詞的評論刪除以增加數(shù)據(jù)的密集度。經(jīng)過多次嘗試，降低最小支持度至5%，計算出滿足置信度50%的強(qiáng)規(guī)則有：

　　規(guī)則1：頭痛→頭暈，最小置信度為53.1%；

　　規(guī)則2：頭痛→鈣通道拮抗劑，最小置信度為53.3%；

　　規(guī)則3：水腫→利尿劑，最小置信度為67.2%。

　　由規(guī)則1可知，出現(xiàn)頭痛癥狀的高血壓患者通常伴有頭暈，這兩種癥狀都與腦部血管有關(guān)。規(guī)則2和規(guī)則3都是“癥藥”的強(qiáng)規(guī)則。規(guī)則2說明如高血壓患者出現(xiàn)頭疼，醫(yī)生通常都會使用鈣通道拮抗劑類的藥。規(guī)則3的置信度接近70%，“癥藥”關(guān)系比較強(qiáng)，可推斷高血壓患者若出現(xiàn)水腫的癥狀，醫(yī)生通常會開利尿劑配合降壓藥使用。挖掘出的“癥藥”規(guī)則較少，可能是由于沒有經(jīng)過面診的文本數(shù)據(jù)質(zhì)量不高，還因?yàn)楦哐獕翰±韽?fù)雜，并發(fā)疾病多，用藥需要結(jié)合患者年齡、病史、并發(fā)疾病以及進(jìn)一步的儀器檢查方能確定，因此單一的“癥藥”關(guān)聯(lián)較弱。

　　4.3基于詞頻獲得高血壓并發(fā)癥用藥特點(diǎn)

　　高血壓病人常伴有糖尿病、動脈硬化、冠心病、腦梗塞、血栓、中風(fēng)或腎臟病等，如圖8。這幾種疾病或者病因是相通的，疾病的危害互相影響。根據(jù)并發(fā)癥的不同，癥狀與治療方法也有所不同。探究高血壓并發(fā)癥用藥特點(diǎn)，以高血壓合并“冠心病”、“糖尿病”、“腎病”為例進(jìn)行研究。篩出包含如上某個并發(fā)癥的數(shù)據(jù)，比較篩選前后關(guān)鍵詞頻率變化較大的項(xiàng)，可知：高血壓合并冠心病的患者出現(xiàn)“心悸”、“胸悶氣短”、“心絞痛”癥狀更頻繁。與之對比，單單高血壓的患者出現(xiàn)以上3種癥狀的頻率則低得多，并發(fā)“腦梗塞”、“動脈硬化”的頻率也只有并發(fā)冠心病患者的1/2。用藥方面，并發(fā)冠心病的高血壓患者使用鈣通道拮抗劑的頻率為48.3%，接近篩選前的兩倍多，可見并發(fā)冠心病的高血壓患者更傾向于使用鈣通道拮抗劑作為首選降壓藥。由整體數(shù)據(jù)可知，高血壓并發(fā)糖尿病關(guān)鍵字詞頻總體上比高血壓低，說明癥狀與高血壓基本相同。四肢的癥狀如“四肢乏力”、“水腫”、“麻木”頻率稍微比單純高血壓患者高一點(diǎn)，說明高血壓并發(fā)糖尿病后容易出現(xiàn)這些癥狀，可多吃利尿的食物。肥胖的患者更容易出現(xiàn)高血壓并發(fā)糖尿病，高血壓并發(fā)糖尿病患者也更容易出現(xiàn)昏厥，所以高血壓患者要多運(yùn)動減肥，防止低糖。對于高血壓合并腎臟病，“低鹽”、“低脂肪”詞頻高達(dá)70%以上，說明高血壓腎病患者要尤其注重低鹽、低脂肪的飲食，同時保持情緒穩(wěn)定。在用藥方面，鈣通道拮抗劑是高血壓腎病患者的首選。多喝水、多補(bǔ)充維生素這些對于單純高血壓需要提倡的非藥物治療方法，對于高血壓腎病患者不強(qiáng)調(diào)，意圖減輕腎臟負(fù)擔(dān)。

5結(jié)論

　　本文基于文本挖掘正規(guī)流程，基于在線醫(yī)療網(wǎng)站醫(yī)患互動論壇數(shù)據(jù)，使用TFIDF算法和關(guān)聯(lián)規(guī)則算法，發(fā)現(xiàn)高血壓常用中西藥、非藥物治療、并發(fā)癥用藥特點(diǎn)、“癥藥”關(guān)系等知識，并與當(dāng)前文獻(xiàn)交互驗(yàn)證，發(fā)現(xiàn)待思考求證的問題，驗(yàn)證了互聯(lián)網(wǎng)數(shù)據(jù)用于疾病研究的可用性和效果。

　　本文的不足之處及后繼工作是：受當(dāng)前自然語言處理發(fā)展的影響，分詞處理還有提升空間；由于病理復(fù)雜，單一的“癥藥”關(guān)聯(lián)規(guī)則分析可能無法應(yīng)用于實(shí)際臨床中，需要進(jìn)一步對“多癥狀多藥”進(jìn)行聯(lián)合挖掘。

　　隨著醫(yī)療管理的移動化和智能化，數(shù)據(jù)會更多更好，各種源頭的數(shù)據(jù)聯(lián)合使用，文本挖掘技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用會展現(xiàn)出蓬勃的生命力。

參考文獻(xiàn)

　?。?］楊進(jìn),羅漫,張啟蕊.文本挖掘在中醫(yī)藥文獻(xiàn)分析中的應(yīng)用［J］.廣東藥學(xué)院學(xué)報,2010,26(2):216-220.

　?。?］王麗穎,鄭光，郭洪濤，等.基于文本挖掘技術(shù)的高血壓病中成藥與西藥用藥規(guī)律分析［J］.中華中醫(yī)藥雜志,2013,28（1）:60-63.

　　［3］賀丹,姜淼,鄭光,等.利用文本挖掘技術(shù)探索高血壓病癥狀、證候以及用藥規(guī)律［J］.中國實(shí)驗(yàn)方劑學(xué)雜志, 2014,20（19）:214-216.

　　［4］ CORLEY C D,COOK D J, MIKLER A R, et al. Text and structural data mining of influenza mentions in Web and social media［J］. International Journal of Environmental Research & Public Health, 2010, 7(2):596-615.

　?。?］ NIKFARJAM A, SARKER A, O’CONNOR K， et al. Pharmacovigilance from social media: mining adverse drug reaction mentions using sequence labeling with word embedding cluster features［J］. Journal of the American Medical Informatics Association， 2015,22(3):671-681.

　?。?］ SARKER A, O’CONNOR K,GINN R, et al. Social media mining for toxicovigilance: automatic monitoring of prescription medication abuse from twitter［J］. Drug Safety, 2016,39(3):231-240.

　?。?］ YAN L, TAN Y. Feeling blue? go online: an empirical study of social support among patients［J］. Information Systems Research, 2014,25(4): 690-709.

　?。?］ GESUALDO F，STILO G,AGRICOLA E,et al. Influenzalike illness surveillance on twitter through automated learning of naive language［J］. PLoS One, 2013, 8(12): 182.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容