123,123

基于TF-IDF进化集成分类器的铁路安全故障文本分类

2021年电子技术应用第4期

高凡1，王富章1，张铭1，赵俊华2，李高科1

1.中国铁道科学研究院，北京100081；2.北京经纬信息技术有限公司，北京100081

摘要： 铁路安全问题是铁路运输保证的核心问题，铁路安全问题非结构化文本数据量大，文本内容无特定规律，对于综合分析解决安全故障问题造成很高的难度。针对铁路安全问题数据智能分类，提出进化集成分类器模型。运用TF-IDF算法，通过分析接触网安全问题的数据特点提取文本特征。采用决策树作为基分类器的Bagging集成分类器将文本数据分类，在Bagging分类过程中，针对Bagging算法产生的基分类器组合解集，提出采用遗传算法(Genetic Algorithm)将其优化，产生分类结果较优的基分类器组合解集。以铁路局实际安全问题进行实验分析，实验证明TF-IDF+Bagging+Genetic Algorithm=Evolutionary Ensemble Classifier进化集成分类器模型在铁路安全问题文本分类中具有较高的准确性。

關鍵詞： 铁路安全问题 TF-IDF 基分类器集成分类器进化集成分类器

中圖分類號： TN02；U284
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.200284
中文引用格式： 高凡，王富章，張銘，等. 基于TF-IDF進化集成分類器的鐵路安全故障文本分類[J].電子技術應用，2021，47(4)：71-76，81.
英文引用格式： Gao Fan，Wang Fuzhang，Zhang Ming，et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique，2021，47(4)：71-76，81.

Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier

Gao Fan1，Wang Fuzhang1，Zhang Ming1，Zhao Junhua2，Li Gaoke1

1.China Academy of Railway Science，Beijing 100081，China； 2.Beijing Jingwei Information Technologies Co.，Ltd.，Beijing 100081，China

Abstract： Railway safety is the core of railway transportation guarantee. The unstructured text data of railway safety problems is large, and the content of the text has no specific rules, which makes it very difficult to comprehensively analyze and solve the safety problems. Aiming at the intelligent classification of railway safety data, an evolutionary ensemble classifier model is proposed. By analyzing the characteristics of the catenary security issues of data, TF-IDF model is adopted to realize the feature extraction. Bagging ensemble classifier which uses Decision Tree as the base classifier classifies the text data, in the process of classification of Bagging, for the combined solution set of base classifier generated by Bagging Algorithm, Genetic Algorithm is proposed to optimize it to generate the combined solution set of base classifier with better classification results. Based on the safety problem of power supply contact network of a railway bureau, the experimental analysis shows that the TF-IDF+Bagging+Genetic Algorithm=Evolutionary Ensemble Classifier model has a high classification index in the text classification of railway safety problems.

Key words : software railway safety problems；TF-IDF；base classifier；integrated classifier；evolutionary integration classifier

0 引言

安全問題歷來是鐵路運輸?shù)闹攸c關注問題，在鐵路安全監(jiān)控體系中，為減少運營過程中可能存在的安全隱患，減少設備故障，保障系統(tǒng)穩(wěn)定運行，安全人員根據日常巡檢、專項巡檢、重大節(jié)假日排查等計劃定期到現(xiàn)場檢查存在的安全生產故障隱患，并將問題記錄為文本形式存儲。管理人員依據這些問題記錄，分析、總結與整改問題。在長期形成的海量的安全問題文本文件中，采用文本分類技術將安全問題自動歸類，輔助管理人員更好地掌握與處理安全問題，在鐵路安全領域的重要性日漸凸顯。

一般來說，文本分類過程有以下3個步驟^[1]：預處理、文本表示和文本分類。其中，文本預處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據等。文本表示即將提取的文本特征轉換為計算機可處理的數(shù)據類型(通常用向量表示)。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency，TF-IDF)，以及基于深度學習的Word2vec表示方法等^[2]。在構造分類器時使用的技術大體包括單個的基分類器、集成分類器以及深度學習模型^[3]。集成分類器主要包含Bagging和Boosting兩種，Bagging的主要算法是隨機森林，Boosting的主要算法是梯度提升樹。在深度學習領域，有基于深度信念網絡、卷積神經網絡^[4-5]、循環(huán)神經網絡等完成文本分類任務^[6]。

目前，國內學者在鐵路文本分析領域研究較多。王廣采用貝葉斯網絡的預測模型和自適應增強算法(Adaptive Boosting，AdaBoost)的預測模型實現(xiàn)天氣相關的鐵路道岔故障預測^[7]；趙陽等以故障文本信息為依據，針對高鐵信號車載設備，提出貝葉斯結構學習算法(HDBN_SL)^[8]；李佳奇等將面向Agent的分布式人工智能技術引入到信號設備故障診斷系統(tǒng)中^[9]；楊連報針對信號故障不平衡數(shù)據，采用SVM-SMOTE算法對TF-IDF轉換后的小類別文本向量數(shù)據隨機生成，分別采用基分類器和集成分類對數(shù)據進行分類^[10]。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風險、隱患內容，通常包括安全問題發(fā)生的時間、地點、問題描述等關鍵要素^[11]，所以針對每一類安全問題，存在特定的關鍵詞，本文在文本特征抽取上采用TF-IDF表示，針對Bagging集成分類器的基礎上，采用遺傳算法優(yōu)化，提升分類準確性^[12]。

本文詳細內容請下載：http://ihrv.cn/resource/share/2000003467

作者信息：

高凡1，王富章1，張銘1，趙俊華2，李高科1

(1.中國鐵道科學研究院，北京100081；2.北京經緯信息技術有限公司，北京100081)

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容