123,123

基于分解策略的多标签在线特征选择算法

网络安全与数据治理 4期

张永伟1，2，朱祁1，2，吴永城1，2

(1.南瑞集团(国网电力科学研究院)有限公司，江苏南京210003； 2.南京南瑞智慧交通科技有限公司，江苏南京210032)

摘要： 在线学习方法是用于大规模数据集的、高效且可扩展的机器学习算法。然而，在对多标签数据集进行特征选择时，传统的在线多标签学习方法需要访问数据集的所有特征，当数据集具有较高维度时，这种在线学习方式并不能适用于实际情景。针对多标签数据集的特征选择，在现有研究的基础上，使用二类分解策略，提出基于分解策略的多标签在线特征选择算法。该算法利用稀疏正则化和截取方法进行在线特征选择，降低计算复杂度。实验表明，算法的特征选择性能优于其他多标签在线特征选择算法。

關鍵詞： 特征选择在线学习多标签分类二类分解策略

中圖分類號： TP305；TP181
文獻標識碼： A
DOI： 10.19358/j.issn.2097-1788.2022.04.010
引用格式：張永偉，朱祁，吳永城. 基于分解策略的多標簽在線特征選擇算法[J].網(wǎng)絡安全與數(shù)據(jù)治理，2022，41(4)：65-71，77.

Online multi-label feature selection algorithm based on binary relevance strategy

Zhang Yongwei1，2，Zhu Qi1，2，Wu Yongcheng1，2

(1.NARI Group Corporation(State Grid Electric Power Research Institute)，Nanjing 210003，China； 2.Nanjing NARI Intelligent Transport Technology Co.，Ltd.，Nanjing 210032，China)

Abstract： Online learning method is an efficient and extensible machine learning algorithm for large-scale applications. However, when selecting features for multi-label datasets, the traditional online multi-label learning algorithms need to access all the features of the dataset. When the dataset has a higher dimension, this online learning method cannot be applied to the actual situation. Based on the existing research, a multi-label online feature selection algorithm based on decomposition strategy is proposed by using binary relevance strategy. This algorithm uses sparse regularization and interception methods for online feature selection to reduce computational complexity. The experimental results show that the feature selection performance of the algorithm is better than that of other multi-label online feature selection algorithms.

Key words : feature selection；online learning；multi-label classification；binary relevance strategy

0 引言

近年來，隨著多標簽分類問題的深入研究，出現(xiàn)了大量的多標簽分類算法。目前，在多標簽分類中，存在四種主要的處理策略：數(shù)據(jù)分解法、算法擴展法、混合法和集成法。特征選擇是多標簽分類問題中的一個重要課題，并且已經(jīng)進行了廣泛研究。對于分類，特征選擇的目標是通過相關特征的一個子集來構建有效的預測模型，通過消除不相關和冗余特征，可以減輕維度災難的影響，提高泛化性能，加快學習過程，提高模型預測的性能。特征選擇已在許多領域得到應用，特別是在涉及高維數(shù)據(jù)的問題中。

雖然已經(jīng)進行了廣泛研究，但大多數(shù)現(xiàn)有的特征選擇研究都局限于批量學習，假定特征選擇任務是以離線/批量學習的方式進行的，而且訓練實例的特征是先驗的。這樣的假設并不總是適用于訓練樣本以順序方式到達的實際應用。與批量學習方式相比，在線學習方式則采用增量的方式處理數(shù)據(jù)集，相對而言，計算代價要小于批量學習算法。在現(xiàn)有的多標簽在線分類算法中計算數(shù)據(jù)的全部特征信息是需要代價的。尤其是存在高維數(shù)據(jù)和數(shù)據(jù)冗余時，傳統(tǒng)的多標簽在線分類算法，需大量計算且分類性能較差。本文利用在線學習的優(yōu)勢，研究了多標簽在線特征選擇問題，旨在通過有效地探索在線學習方法來解決多標簽特征選擇問題。具體而言，多標簽在線特征選擇的目標是研究在線分類器，其僅涉及用于分類的少量和固定數(shù)量的特征。當處理高維度的連續(xù)訓練數(shù)據(jù)時，如在線垃圾郵件分類任務(其中傳統(tǒng)的批量特征選擇方法不能直接應用)，在線特征選擇尤為重要和必要。

本文詳細內(nèi)容請下載：http://ihrv.cn/resource/share/2000004992。

作者信息：

張永偉1，2，朱祁1，2，吳永城1，2

(1.南瑞集團(國網(wǎng)電力科學研究院)有限公司，江蘇南京210003；

2.南京南瑞智慧交通科技有限公司，江蘇南京210032)

微信圖片_20210517164139.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權禁止轉(zhuǎn)載。

相關內(nèi)容