123,123

一种新的特征评价方法及在高铁故障中的应用

2015年电子技术应用第9期

　杜静，蔡震震，蒋鹏，金炜东

西南交通大学电气工程学院，四川成都610031

摘要： 提出一种基于Murphy改进的D-S算法作为融合规则的多准则特征评价方法(MCFE-DSEC)。该方法融合不同的单一评价准则，对特征作出综合评价，去掉冗余特征，以提高分类准确率。将该方法应用于高速列车故障数据中，实验结果表明，与Borda-Count方法和单一评价准则相比，MCFE-DSEC方法对各个速度下的特征都能作出有效的评价，适用性强且准确率高。

關(guān)鍵詞： 特征评价多准则融合 D-S证据理论证据冲突理论

中圖分類號(hào)： U279；TP391
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.2015.09.042

中文引用格式： 杜靜，蔡震震，蔣鵬，等. 一種新的特征評(píng)價(jià)方法及在高鐵故障中的應(yīng)用[J].電子技術(shù)應(yīng)用，2015，41(9)：153-156.
英文引用格式： Du Jing，Cai Zhenzhen，Jiang Peng，et al. A new feature evaluation algorithm and its application in fault of high-speed railway[J].Application of Electronic Technique，2015，41(9)：153-156.

A new feature evaluation algorithm and its application in fault of high-speed railway

Du Jing，Cai Zhenzhen，Jiang Peng，Jin Weidong

School of Electrical Engineering, Southwest Jiaotong University，Chengdu 610031，China

Abstract： A multi-criterion feature evaluation algorithm (MCFE-DSEC) is proposed, which takes the improved D-S theory by Murphy as the fusion rule. MCFE-DSEC aggregates a collection of different single criteria, making a comprehensive evaluation of features and removing redundant features to improve classification accuracy. The multi-criterion feature evaluation algorithm is applied to the high-speed train fault data. The obtained results show that compared with the Borda-Count method and single criteria, MCFE-DSEC method can evaluate the features at every speed more effectively and is more adaptable with higher accuracy.

Key words : feature evaluating；multi-criterion fusion；D-S evidence theory；evidence conflict theory；fault classification

0 引言

　　特征選擇是指從原始特征集中刪除冗余的、無關(guān)的的特征，選取含有最多識(shí)別信息的特征子集[1-3]。目前特征評(píng)價(jià)準(zhǔn)則面臨兩大問題：一是定義新的單一特征評(píng)價(jià)準(zhǔn)則；另一個(gè)是如何融合不同單一特征評(píng)價(jià)準(zhǔn)則解決特征之間的冗余和沖突。

　　為解決第一個(gè)問題，許多學(xué)者提出一系列單一特征評(píng)價(jià)準(zhǔn)則,如Mahalanobis Distance、Fuzzy Entropy等。特征選擇方法主要分為兩種方式：Filter model和Wrapper model[4]。單一特征評(píng)價(jià)準(zhǔn)則存在許多不足之處，如單一特征評(píng)價(jià)準(zhǔn)則不能全面反映特征的特性，普適性較差。

　　為解決第二個(gè)問題，YAN W提出了一種新的多準(zhǔn)則特征排序方法(MCFR)[5]。為綜合運(yùn)用單一評(píng)價(jià)準(zhǔn)則，YAN W等提出了融合方法：基于Borda count方法的特征排序融合方法。YANG F提出一種基于多準(zhǔn)則特征排序的遞歸特性消除算法(MCF-RFE)[6]。

　　多準(zhǔn)則特征評(píng)估方法的核心問題是融合規(guī)則問題。D-S證據(jù)理論不僅能很好地把握問題的未知性和不確定性，而且提供了一個(gè)非常有用的合成公式，使得融合多個(gè)證據(jù)源提供的信息成為可能[7-8]。Murphy提出首先將待融合n條證據(jù)進(jìn)行算數(shù)平均，然后對(duì)平均后的證據(jù)利用D-S規(guī)則組合n-1次，該方法可以得到好的收斂效果[9]。因此，為了提高多準(zhǔn)則特征評(píng)價(jià)的有效性，基于Murphy改進(jìn)的D-S理論和證據(jù)沖突理論，本文提出一種新的多準(zhǔn)則特征評(píng)估方法(MCFE-DSEC)。

　　實(shí)驗(yàn)部分將MCFE-DSEC與4種單一評(píng)價(jià)準(zhǔn)則(Fisher′s ratio、Fuzzy Entropy、Representation Entropy(RE)、MD)及多準(zhǔn)則特征評(píng)估方法(Borda Count)的分類準(zhǔn)確率進(jìn)行對(duì)比，實(shí)驗(yàn)結(jié)果表明，MCFE-DSEC方法得出的分類準(zhǔn)確率優(yōu)于上述方法，同時(shí)也說明采用D-S理論作為融合規(guī)則能夠有效地降低融合過程中的沖突，得到更可靠的排序結(jié)果。

1 特征評(píng)價(jià)準(zhǔn)則

　　目前，研究者們已提出許多特征評(píng)價(jià)準(zhǔn)則。顯然，沒有必要把所有的單一特征評(píng)價(jià)準(zhǔn)則融合，而且這種做法也是不切實(shí)際的[10]。本文采用Mahalanobis Distance(MD)、Fisher′s ratio、Fuzzy Entropy和Representation Entropy(RE)4種方法。Fuzzy Entropy和 Representation Entropy是基于信息論的過濾式特征評(píng)價(jià)方法，Mahalanobis Distance(MD)和Fisher′s ratio屬于包裹式特征評(píng)價(jià)方法。下面將簡要介紹這4種方法。

　　1．1 Representation Entropy(RE)

　　設(shè) 6A3)ZU]1IM]G9}]BNMCF_9I.png j(j=1，…，d)表示d維特征集合的協(xié)方差矩陣的特征值,將特征值標(biāo)準(zhǔn)化：

　　 $9S]{K5F4YG_@(FA)Q4DH~4F.png$

　　1．2 Fisher′s ratio

　　Fisher′s ratio[12]對(duì)每一個(gè)特征計(jì)算其類間均值的方差與類內(nèi)平均方差的比值，根據(jù)比值的大小判斷特征j對(duì)分類作用的大小。

　　 X9KADS3IPQ]8@5P`UPHO4`B.png

　　c類中特征j的方差。FR越大，對(duì)分類起的作用越大。

　　1．3 Fuzzy Entropy

　　模糊熵的定義很多,De Luca和Termini考慮到模糊集合的概念在克勞德·艾爾伍德·香農(nóng)(Claud Elwood Shannon)概率熵的基礎(chǔ)上提出模糊熵的公式如下[13]：

　　 P~7EXUQ_M27`LMXF5G(%_3I.png

　　1．4 Mahalanobis Distance，MD

　　設(shè) FN]1TNP)MEH2Q3K~RM]AN33.png i和j分別表示第i類和第j類內(nèi)所有樣本的均值向量(行向量)， BFD@3MU6KY_Z(OMW0~R0ZYN.png 表示特征集合的協(xié)方差矩陣。Mahalanobis Distance計(jì)算方法如下[5]：

　　對(duì)于含兩類以上的數(shù)據(jù)集，MD可表示為：

　　 $~WDXE4]EEG~{TAVP]_DSL0R.png$

　　MD越大表示該特征集合含有的信息越多。

2 基于D-S理論的多準(zhǔn)則特征評(píng)估方法

　　2．1 D-S證據(jù)理論

　　首先定義一個(gè)空間，稱為辨識(shí)框架，由一些互斥且窮舉的元素組成。對(duì)于問題域中任何命題A，都應(yīng)包含于2?茲。定義映射m：2X→[0，1]，為基本概率賦值函數(shù)，則相應(yīng)的D-S融合規(guī)則為[14-15]：

　　 1RWF8KTXRU~)_S7@HP%EEEY.png

　　其中， }L}}7@JE0N]IB6@STO`JD0T.png 表示各證據(jù)之間的沖突系數(shù)。

　　D-S證據(jù)理論雖然有很多優(yōu)點(diǎn)，但在組合高沖突的證據(jù)時(shí)會(huì)出現(xiàn)違背常理的組合結(jié)果。針對(duì)這一問題，國內(nèi)外研究人員提出眾多改進(jìn)方法。Murphy提出一種對(duì)證據(jù)源求算術(shù)平均的改進(jìn)算法，該方法簡單有效，因此本文將該方法作為融合規(guī)則。

　　2．2 基于D-S理論的多準(zhǔn)則特征評(píng)估方法

Image 001.jpg

　　MCFE-DSEC的原理如圖1所示，給定一個(gè)特征集，首先根據(jù)每一個(gè)單一評(píng)價(jià)準(zhǔn)則得到相應(yīng)的得分向量，每個(gè)特征的得分大小代表該特征的重要程度；然后，對(duì)每個(gè)得分向量歸一化作為分?jǐn)?shù)證據(jù)向量；根據(jù)融合規(guī)則將分?jǐn)?shù)證據(jù)向量融合得到綜合得分向量；最后，對(duì)綜合得分向量排序得到特征的綜合排序。

　　下面將詳細(xì)介紹MCFE-DSEC方法的融合規(guī)則。設(shè)識(shí)別框架?專={F1，F(xiàn)2，…，F(xiàn)M}包含M個(gè)互不相容的元素，F(xiàn)i表示第i個(gè)特征。假設(shè)有N個(gè)單一特征評(píng)價(jià)準(zhǔn)則，si表示由第i(1≤i≤N)個(gè)準(zhǔn)則得到的得分向量，對(duì)si歸一化：

　　 K6IBI04BNMDL$$7Y1ZM[18R.png

　　由融合準(zhǔn)則得到統(tǒng)一的得分向量[e(F1)，e(F1)，…，e(FM)]。得分向量中的元素降序排列，得到特征的綜合排序。

3 實(shí)驗(yàn)與分析

　　為了驗(yàn)證本文算法的有效性和優(yōu)越性，對(duì)高速列車的實(shí)測故障數(shù)據(jù)進(jìn)行，本文分別采用多準(zhǔn)則MCFE-DSEC、Borda Count和3種單一評(píng)價(jià)準(zhǔn)則(Fuzzy Entropy、 Fisher′s ratio、RE)對(duì)特征進(jìn)行評(píng)價(jià)，每次去掉一個(gè)冗余特征，并用剩余的特征子集進(jìn)行分類，就可得到各個(gè)特征空間的分類準(zhǔn)確率，并將上述5種方法各個(gè)特征空間的分類準(zhǔn)確率對(duì)比。

　　3.1 實(shí)驗(yàn)設(shè)計(jì)

　　為了驗(yàn)證MCFE-DSEC方法在高鐵故障診斷中的有效性，應(yīng)用MCFE-DSEC方法對(duì)某型高速列車實(shí)測數(shù)據(jù)進(jìn)行了仿真驗(yàn)證。對(duì)高速列車4種工況（正常、橫向減振器失效、抗蛇行減振器失效、空簧失氣）的數(shù)據(jù)分別提取小波系數(shù)均值、方差以及快速傅里葉變換的均值、方差得到8維特征，每種工況有20組樣本，共80組樣本。從4種工況中分別選取一組樣本作為訓(xùn)練樣本，剩下的76組數(shù)據(jù)作為測試樣本。

　　3.2 實(shí)驗(yàn)結(jié)果分析

Image 002.jpg

Image 003.jpg

　　圖2～圖6表示不同速度下6種特征評(píng)價(jià)方法在各個(gè)特征空間內(nèi)的準(zhǔn)確率對(duì)比，表1為不同速度下6種特征評(píng)價(jià)方法在各個(gè)特征空間內(nèi)的準(zhǔn)確率的平均值以及原特征空間的分類準(zhǔn)確率。由圖2～圖6和表1可得：與其他方法相比， MCFE-DSEC方法對(duì)5種速度下各個(gè)空間都有較高的分類準(zhǔn)確率，在去除冗余特征的過程中分類準(zhǔn)確率呈現(xiàn)先增長后下降的趨勢，不僅如此，各個(gè)特征空間的分類準(zhǔn)確率平均值也是6種方法中最高的。而其他方法只能對(duì)某一速度下的特征作出有效的評(píng)價(jià)，但是對(duì)其他速度下的特征不適用。如Borda Count方法，只對(duì)速度140 km/h、220 km/h有較好的評(píng)價(jià)結(jié)果，但對(duì)其他速度不適用；Fisher′s ratio方法只對(duì)速度200 km/h、220 km/h有較好的評(píng)價(jià)，但準(zhǔn)確率低于MCFE-DSEC方法，而對(duì)其他速度的評(píng)價(jià)結(jié)果很差。MCFE-DSEC方法在140 km/h速度下與原特征空間相比分類準(zhǔn)確率提高了22.04%，在160 km/h速度下與原特征空間相比分類準(zhǔn)確率提高了8.63%。以上說明MCFE-DSEC方法能夠更好的對(duì)特征作出評(píng)價(jià)，且具有普適性。

4 結(jié)束語

　　基于多準(zhǔn)則特征評(píng)估方法和改進(jìn)的D-S證據(jù)理論各自的優(yōu)點(diǎn)，本文提出一種新的特征選擇方法MCFE-DSEC。實(shí)驗(yàn)部分以高速列車故障數(shù)據(jù)為研究對(duì)象進(jìn)行了驗(yàn)證。實(shí)驗(yàn)結(jié)果證明了該方法可以有效地對(duì)各個(gè)特征做出評(píng)價(jià)，剔除冗余特征，降低分類器的復(fù)雜度，有效地提高高速列車多種故障分類的準(zhǔn)確度。

　　參考文獻(xiàn)

　　[1] SUN X，LIU Y，XU M，et al.Feature selection using dynamicweights for classification[J].Knowledge-Based Systems，2013(37)：541-549.

　　[2] SONG Q，NI J，WANG G.A fast clustering-based feature subset selection algorithm for high-dimensional data[J].Knowledge and Data Engineering，IEEE Transactions on，2013，25(1)：1-14.

　　[3] YU L，LIU H.Efficient feature selection via analysis of relevance and redundancy[J].The Journal of Machine Learning Research，2004(5)：1205-1224.

　　[4] AHMAD F K，NORWAWI N M，DERIS S，et al.A review of feature selection techniques via gene expression profiles[C].Information Technology，2008.ITSim 2008.International Symposium on.IEEE，2008，2：1-7.

　　[5] YAN W.Fusion in multi-criterion feature ranking[C].Information Fusion，2007 10th International Conference on.IEEE，2007：1-6.

　　[6] YANG F，MAO K Z.Robust feature selection for microarraydata based on multicriterion fusion[J].IEEE/ACM Transactions on Computational Biology and Bioinformatics(TCBB)，2011，8(4)：1080-1092.

　　[7] 孫全，葉秀清，顧偉康.一種新的基于證據(jù)理論的合成公式[J].電子學(xué)報(bào)，2000，28(8)：117-119.

　　[8] 李弼程，錢曾波.一種有效的證據(jù)理論合成公式[J].數(shù)據(jù)采集與處理，2002，17(1)：33-36.

　　[9] MURPHY C K.Combining belief functions when evidence conflicts[J].Decision support systems，2000，29(1)：1-9.

　　[10] ZHU J，F(xiàn)EI Z.Feature selection for high-dimensional and small-sized data based on multi-criterion fusion[J].Journalof Convergence Information Technology，2012，7(19)：203.

　　[11] MITRA P，MURTHY C A，PAL S K.Unsupervised feature selection using feature similarity[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2002，24(3)：301-312.

　　[12] ZABIDI A，MANSOR W，KHUAN L Y，et al.The effect ofF-ratio in the classification of asphyxiated infant cries using multilayer perceptron Neural Network[C].Biomedical Engineering and Sciences(IECBES)，2010 IEEE EMBS Conference on.IEEE，2010：126-129.

　　[13] LUUKKA P.Feature selection using fuzzy entropy measureswith similarity classifier[J].Expert Systems with Applica-tions，2011，38(4)：4600-4607.

　　[14] DEMPSTER A P.Upper and lower probabilities induced by a multivalued mapping[J].The Annals of Mathematical Statistics，1967(2)：325-339.

　　[15] SHAFER G.A mathematical theory of evidence[M].Princeton：Princeton university press，1976.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容