文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.200284
中文引用格式: 高凡,王富章,張銘,等. 基于TF-IDF進化集成分類器的鐵路安全故障文本分類[J].電子技術應用,2021,47(4):71-76,81.
英文引用格式: Gao Fan,Wang Fuzhang,Zhang Ming,et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique,2021,47(4):71-76,81.
0 引言
安全問題歷來是鐵路運輸?shù)闹攸c關注問題,在鐵路安全監(jiān)控體系中,為減少運營過程中可能存在的安全隱患,減少設備故障,保障系統(tǒng)穩(wěn)定運行,安全人員根據(jù)日常巡檢、專項巡檢、重大節(jié)假日排查等計劃定期到現(xiàn)場檢查存在的安全生產故障隱患,并將問題記錄為文本形式存儲。管理人員依據(jù)這些問題記錄,分析、總結與整改問題。在長期形成的海量的安全問題文本文件中,采用文本分類技術將安全問題自動歸類,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領域的重要性日漸凸顯。
一般來說,文本分類過程有以下3個步驟[1]:預處理、文本表示和文本分類。其中,文本預處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等。文本表示即將提取的文本特征轉換為計算機可處理的數(shù)據(jù)類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,TF-IDF),以及基于深度學習的Word2vec表示方法等[2]。在構造分類器時使用的技術大體包括單個的基分類器、集成分類器以及深度學習模型[3]。集成分類器主要包含Bagging和Boosting兩種,Bagging的主要算法是隨機森林,Boosting的主要算法是梯度提升樹。在深度學習領域,有基于深度信念網絡、卷積神經網絡[4-5]、循環(huán)神經網絡等完成文本分類任務[6]。
目前,國內學者在鐵路文本分析領域研究較多。王廣采用貝葉斯網絡的預測模型和自適應增強算法(Adaptive Boosting,AdaBoost)的預測模型實現(xiàn)天氣相關的鐵路道岔故障預測[7];趙陽等以故障文本信息為依據(jù),針對高鐵信號車載設備,提出貝葉斯結構學習算法(HDBN_SL)[8];李佳奇等將面向Agent的分布式人工智能技術引入到信號設備故障診斷系統(tǒng)中[9];楊連報針對信號故障不平衡數(shù)據(jù),采用SVM-SMOTE算法對TF-IDF轉換后的小類別文本向量數(shù)據(jù)隨機生成,分別采用基分類器和集成分類對數(shù)據(jù)進行分類[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風險、隱患內容,通常包括安全問題發(fā)生的時間、地點、問題描述等關鍵要素[11],所以針對每一類安全問題,存在特定的關鍵詞,本文在文本特征抽取上采用TF-IDF表示,針對Bagging集成分類器的基礎上,采用遺傳算法優(yōu)化,提升分類準確性[12]。
本文詳細內容請下載:http://ihrv.cn/resource/share/2000003467
作者信息:
高 凡1,王富章1,張 銘1,趙俊華2,李高科1
(1.中國鐵道科學研究院,北京100081;2.北京經緯信息技術有限公司,北京100081)