文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2097-1788.2022.04.010
引用格式: 張永偉,朱祁,吳永城. 基于分解策略的多標(biāo)簽在線特征選擇算法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,41(4):65-71,77.
0 引言
近年來,隨著多標(biāo)簽分類問題的深入研究,出現(xiàn)了大量的多標(biāo)簽分類算法。目前,在多標(biāo)簽分類中,存在四種主要的處理策略:數(shù)據(jù)分解法、算法擴(kuò)展法、混合法和集成法。特征選擇是多標(biāo)簽分類問題中的一個(gè)重要課題,并且已經(jīng)進(jìn)行了廣泛研究。對于分類,特征選擇的目標(biāo)是通過相關(guān)特征的一個(gè)子集來構(gòu)建有效的預(yù)測模型,通過消除不相關(guān)和冗余特征,可以減輕維度災(zāi)難的影響,提高泛化性能,加快學(xué)習(xí)過程,提高模型預(yù)測的性能。特征選擇已在許多領(lǐng)域得到應(yīng)用,特別是在涉及高維數(shù)據(jù)的問題中。
雖然已經(jīng)進(jìn)行了廣泛研究,但大多數(shù)現(xiàn)有的特征選擇研究都局限于批量學(xué)習(xí),假定特征選擇任務(wù)是以離線/批量學(xué)習(xí)的方式進(jìn)行的,而且訓(xùn)練實(shí)例的特征是先驗(yàn)的。這樣的假設(shè)并不總是適用于訓(xùn)練樣本以順序方式到達(dá)的實(shí)際應(yīng)用。與批量學(xué)習(xí)方式相比,在線學(xué)習(xí)方式則采用增量的方式處理數(shù)據(jù)集,相對而言,計(jì)算代價(jià)要小于批量學(xué)習(xí)算法。在現(xiàn)有的多標(biāo)簽在線分類算法中計(jì)算數(shù)據(jù)的全部特征信息是需要代價(jià)的。尤其是存在高維數(shù)據(jù)和數(shù)據(jù)冗余時(shí),傳統(tǒng)的多標(biāo)簽在線分類算法,需大量計(jì)算且分類性能較差。本文利用在線學(xué)習(xí)的優(yōu)勢,研究了多標(biāo)簽在線特征選擇問題,旨在通過有效地探索在線學(xué)習(xí)方法來解決多標(biāo)簽特征選擇問題。具體而言,多標(biāo)簽在線特征選擇的目標(biāo)是研究在線分類器,其僅涉及用于分類的少量和固定數(shù)量的特征。當(dāng)處理高維度的連續(xù)訓(xùn)練數(shù)據(jù)時(shí),如在線垃圾郵件分類任務(wù)(其中傳統(tǒng)的批量特征選擇方法不能直接應(yīng)用),在線特征選擇尤為重要和必要。
本文詳細(xì)內(nèi)容請下載:http://ihrv.cn/resource/share/2000004992。
作者信息:
張永偉1,2,朱 祁1,2,吳永城1,2
(1.南瑞集團(tuán)(國網(wǎng)電力科學(xué)研究院)有限公司,江蘇 南京210003;
2.南京南瑞智慧交通科技有限公司,江蘇 南京210032)