李玉平, 夏斌
(上海海事大學 信息工程學院,上海 201306)
摘要:睡眠數(shù)據(jù)中各個階段的樣本數(shù)差異較大,睡眠數(shù)據(jù)的自動分期是一個典型的樣本不平衡的機器學習問題。均衡樣本方法通過抽樣的手段來平衡樣本,是解決樣本不平衡問題的主要方法。采用均衡樣本方法來平衡睡眠數(shù)據(jù)的不同階段的樣本,并且結(jié)合多域特征(時域、頻域、時頻域以及非線性)和隨機森林分類算法進行分類預測。比較分析了樣本均衡處理和非均衡處理的分類結(jié)果,發(fā)現(xiàn)均衡處理后的數(shù)據(jù)取得了更好的分類效果。
關(guān)鍵詞:睡眠分期;數(shù)據(jù)不平衡;隨機森林
0引言
睡眠是生命過程中必不可少且十分重要的生理現(xiàn)象。依據(jù)國際R&K標準[1],睡眠期可分為快速眼動期、非快速眼動期(S1,S2,S3,S4)以及清醒期,區(qū)別分期主要以眼球是否進行了陣發(fā)性快速運動為標準。根據(jù)上述睡眠分期標準,睡眠數(shù)據(jù)可分為6類,且不同類別的數(shù)據(jù)量之間具有較大的差異性,即睡眠數(shù)據(jù)分期存在樣本不平衡的問題。在應(yīng)用機器學習研究睡眠分期過程中,樣本不平衡會導致睡眠分期結(jié)果不準確,睡眠分期的可信度降低。在以前的睡眠分期研究中,研究的主要是睡眠數(shù)據(jù)特征的提取以及分類算法的選取[24],并沒有研究睡眠分期樣本不平衡問題。本文采用EEG、EOG、EMG 3種信號5個通道的睡眠數(shù)據(jù),研究中發(fā)現(xiàn),EOG信號會出現(xiàn)在EEG信號的一些睡眠分期(如清醒狀態(tài)和快速眼動狀態(tài))中,這種數(shù)據(jù)會對睡眠分期產(chǎn)生不好的影響[5]。本文通過對睡眠分期樣本不平衡的研究以及信號混雜的處理,進一步提高睡眠分期的準確度,同時對相關(guān)睡眠疾病的診斷和治療提供重要的參考意義。
基于以上睡眠數(shù)據(jù)分期的討論,本文采用均衡采樣的方法解決睡眠分期樣本不平衡問題,同時研究睡眠數(shù)據(jù)的特征提取以減少信號混雜對睡眠分期的影響。
1方法
1.1特征提取
睡眠數(shù)據(jù)的特征主要劃分為時域特征、頻域特征、時頻域特征以及非線性特征。本文中,提取EEG、EOG和EMG每種信號各38種特征。
特征參數(shù)如下:第1~6種是6個時域特征[68]:均值(Mean)、方差(Variance)、峰度(Kurtosis)、偏度(Skewness)、過零率(Number of zero crossing,NZC)、最大值(MaxV);第7~19種是頻域特征[810]:對4個子節(jié)律波分別提取各自范圍的功率譜能量(SP_),計算0.01~30 Hz頻帶的總功率譜能量(SP_D),以及總功率譜能量的規(guī)范化能量比(NSP_),即theta/beta、beta/alpha、(theta+alpha)/beta, (theta+alpha)/(beta+alpha);第20~35種是時頻域特征[810]:4個子節(jié)律波在當前頻帶范圍上小波系數(shù)的均值、能量、標準差以及相對于總頻帶范圍的絕對平均值;第36~38種特征分別是Petrosian分形指數(shù)、Hurst指數(shù)、排列熵[1112]。
1.2均衡采樣
睡眠數(shù)據(jù)存在樣本不平衡的問題,在6類的數(shù)據(jù)中,最多一類的數(shù)據(jù)集與最少的一類數(shù)據(jù)集的比例達到10倍以上,存在嚴重不平衡現(xiàn)象。本文應(yīng)用均衡采樣的方法處理樣本失衡的問題[13]:(1)分別計算6類睡眠分期數(shù)據(jù)的個數(shù)n1、n2、n3、n4、n5、n6;(2)去掉個數(shù)最少和個數(shù)最多的個數(shù)值,剩余為n1、n2、n3、n4,計算這4類個數(shù)的平均值n;(3)對6類數(shù)據(jù)按個數(shù)平均值n采樣,不足平均個數(shù)的類別重復采樣,超過平均個數(shù)的類別欠采樣;(4)整合6類數(shù)據(jù)采樣得到的新數(shù)據(jù)集即為均衡處理后的數(shù)據(jù)[4,14]。
1.3隨機森林分類器
隨機森林模型是決策樹集成的算法,并且由一隨機向量決定決策樹的構(gòu)造。通過訓練集得到隨機森林模型后,當有一個新的輸入樣本進入時,就讓隨機森林的每一棵決策樹分別進行判斷,判斷樣本所屬類別,然后計算哪一個類別被選擇最多,就預測該樣本所屬的類別。隨機森林算法特征參數(shù)較多,測試結(jié)果不會出現(xiàn)過擬合的情形;能夠處理高維度特征的睡眠數(shù)據(jù),不用做特征選擇,對數(shù)據(jù)集的適應(yīng)能力強;訓練速度快,能夠檢測不同特征之間的影響[13,15]。
隨機森林實現(xiàn)過程為:(1)原始訓練集為N,采用集成算法有放回地隨機選取k個樣本集構(gòu)建k棵分類樹,每次沒有被抽到的樣本組成k個袋外數(shù)據(jù);(2)設(shè)定mall變量,在每棵樹的每個節(jié)點處隨機抽取mtry個變量(mtry,n,mall),然后在mtry中選擇一個最佳的分類變量,變量分類的閾值通過檢查每一個分類點確定;(3)每一棵樹最大限度地生長,不做任何修剪;(4)將構(gòu)造的多棵分類樹組成隨機森林,用隨機森林分類器對新的數(shù)據(jù)進行判別與分類,分類的結(jié)果按樹分類器投票數(shù)確定。
2實驗與結(jié)果
2.1數(shù)據(jù)
本文采用9名受試者的睡眠數(shù)據(jù)來驗證分類方法和數(shù)據(jù)不平衡處理的可行性。數(shù)據(jù)集記錄了這9名志愿者一晚上的睡眠數(shù)據(jù),以1~9命名這些數(shù)據(jù)集。數(shù)據(jù)包含15個通道的睡眠時的信號數(shù)據(jù)以及呼吸頻率和身體溫度。對應(yīng)的EEG、EOG、EMG信號按100 Hz進行采樣。數(shù)據(jù)集處理部分,分別進行了7/3分和留一方法,采用這兩種方法驗證睡眠分期樣本不平衡的處理效果。
2.2數(shù)據(jù)預處理
首先采用巴特沃夫濾波器提取原始睡眠數(shù)據(jù)中0.01~35 Hz的數(shù)據(jù),并應(yīng)用高斯歸一化方法對數(shù)據(jù)進行歸一化處理。由于采樣的睡眠數(shù)據(jù)可能存在標簽不正確的問題,因此會剔除不正確的標簽數(shù)據(jù)。具體方法是,首先找出空標簽或標簽異常(不在已有類別中的標簽),根據(jù)標簽對應(yīng)的位置,剔除這些標簽對應(yīng)的數(shù)據(jù)集,最后更新數(shù)據(jù)集。采用以上方法進行數(shù)據(jù)預處理之后,得到7 461條數(shù)據(jù)。
2.3均衡采樣數(shù)據(jù)
經(jīng)預處理和特征提取之后,對9個受試者的數(shù)據(jù)進行整合,數(shù)據(jù)總量為59 680。采用7/3分數(shù)據(jù)集,即70%數(shù)據(jù)做訓練集,30%數(shù)據(jù)做測試集,訓練集數(shù)據(jù)量為41 773,測試集數(shù)據(jù)量為17 907。為了驗證均衡采樣的可行性,對訓練集做均衡處理,得到22 465條新的訓練集。
2.4結(jié)果
本文第一種驗證方法是7/3數(shù)據(jù)集,結(jié)果如下:表1是所有數(shù)據(jù)集7/3分,對訓練集進行均衡處理的分類結(jié)果準確率;表2是均衡采樣數(shù)據(jù)集和普通數(shù)據(jù)集分類結(jié)果對比;表3是不同信號組合,均衡采樣分類結(jié)果對比。
第二種驗證方法是對9個受試者的數(shù)據(jù)集進行留一驗證。分別提取其中8個受試者的數(shù)據(jù)集作為訓練集做均衡處理,剩下1個受試者的數(shù)據(jù)集作為測試集。分類結(jié)果如圖1所示。
由表1得知,同時考慮EEG、EOG、EMG 3種信號5個通道的數(shù)據(jù)集,得到的分類準確率達到84.33%,wake類別的分類準確率最高,模型對wake類別的泛化能力最好,而S1類別數(shù)據(jù)量最少,同時分類效果也最差。由表2得知:均衡處理之后,wake、S1、S3、rem這4類睡眠分期結(jié)果得到了提升,S4基本一致,S2的結(jié)果降低了。由表3知:提取一種信號EEG時,睡眠分期準確率比同時提取多種信號時的準確率低。由圖1留一驗證知,2、5、9號受試者睡眠分期的結(jié)果達到了80%以上,分類效果較好;3、6號受試者睡眠分期準確率較低。
3結(jié)論
本研究采用了EEG、EOG、EMG 3種信號5個通道數(shù)據(jù)集,并且應(yīng)用均衡采樣的方法處理訓練集數(shù)據(jù)不平衡問題,睡眠分期結(jié)果較好,平均分類準確率得到了提升,并且有4個睡眠分期的分類結(jié)果都得到了提升。在今后對睡眠分期樣本不平衡的研究中,可以采用加權(quán)隨機森林或其他的方法處理睡眠數(shù)據(jù)集不平衡的問題。
參考文獻
?。?] RECHTSCHAFFEN A Q, KALES A A. A manual of standardized terminology, techniques, and scoring system for sleep stages of human subjects[J]. Psychiatry & Clinical Neurosciences, 1968,55.
[2] 李谷,范影樂,龐全.基于排列組合熵的腦電信號睡眠分期研究[J].生物醫(yī)學工程學志,2009,26(4):869-872.
?。?] Liu Derong,Pang Zhongyu,LLOYD S R.A neural network method for detection of obstructive sleep apnea and narcolepsy based on pupil size and EEG[J].IEEE Transactions on Neural Networks,2008,19(2):308-318.
[4] ANAND A, PUGALENTHI G, FOGEL G B, et al. An approach for classification of highly imbalanced data using weighting and undersampling[J]. Amino Acids, 2010,39(5):1385-1391.
?。?] BREIMAN L, FRIEDMAN J, OLSHEN R, et al. Classification and regression trees[M]. New York: Chapman & Hall,1984.
?。?] SMITH J R. Automated EEG analysis with microcomputers[J]. Medical Instrumentation, 1980,14(6):319-321.
?。?] VURAL C, YILDIZ M. Determination of sleep stage separation ability of features extracted from EEG signals using principal component analysis[J]. Journal of Medical Systems,2010,34(1):83-89.
?。?] A comparative study on classification of sleep stage based on EEG signals using feature selection and classification algorithms[J]. Journal of Medical Systems,2014,38(3):1-21.
?。?] HAMIDA T B, AHMED B. Computer based sleep staging: challenges for the future[C]. 2013 IEEE GCC Conference and Exhibition, 2013:280-285.
?。?0] AKIN M. Comparison of wavelet transform and FFT methods in the analysis of EEG signals[J]. Journal of Medical Systems,2002,26(3):241-247.
[11] FELL J, RSCHKE J, MANN K, et al. Discrimination of sleep stages: a comparison between spectral and nonlinear EEG measures[J]. Electroencephalography and Clinical Neurophysiology, 1996,98(5):401-410.
[12] PEREDA E, GAMUNDI A, RIAL R, et al. Nonlinear behavioor of human EEG: fractal exponent versus correlation dimension in awake and sleep stages[J]. Neuroscience Letters, 1998,250(2):91-94.
?。?3] 毛文濤,王金婉,等.面向貫序不均衡數(shù)據(jù)的混合采樣極限學習機[J].計算機應(yīng)用,2015, 35(8):2221-2226.
?。?4] He Haibo,GARCIA E A. Learning from imbalanced data[J],IEEE Transactions on Knowledge and Data Engineering,2009,21(9):1263-1284.
?。?5] BREIMAN L. Random forests[J]. Machine Learning,2001, 45(1):5=32.