中文引用格式: 劉道君,劉帥,張玉松,等. 基于K-means的異常識別方法[J]. 電子技術應用,2025,51(5):62-67.
英文引用格式: Liu Daojun,Liu Shuai,Zhang Yusong,et al. Outlier detection method based on K-means[J]. Application of Electronic Technique,2025,51(5):62-67.
引言
異常識別在當今社會中具有重要意義,它可以幫助提高安全性、優(yōu)化效率、預測未來、改善數(shù)據(jù)質(zhì)量以及支持決策,在各個領域中推動進步和發(fā)展。隨著技術的不斷發(fā)展和應用范圍的擴大,異常識別將繼續(xù)發(fā)揮重要作用,并為人類社會帶來更多的益處。
當前,已有上千種異常識別算法被陸續(xù)提出。它們大致可以被劃分為基于統(tǒng)計、基于距離、基于深度學習、基于集成的算法。具體地,基于統(tǒng)計的算法使用數(shù)據(jù)的統(tǒng)計特性來識別異常值,常見的統(tǒng)計信息包括均值、標準差、中位數(shù)、百分位數(shù)等?;诰嚯x的算法通過計算對象之間的相似度或距離來識別異常值?;诩傻乃惴ńY合多個基本異常檢測模型的輸出,以提高整體的性能和魯棒性?;谏疃葘W習的算法利用多層神經(jīng)網(wǎng)絡來學習數(shù)據(jù)的復雜特征,并在此基礎上進行異常檢測。盡管上述類型算法已經(jīng)被驗證可以在各樣場景下很好地識別數(shù)據(jù)集中的復雜異常,但大多算法面臨一個共同的問題,就是需要若干輸入?yún)?shù),且異常識別效果與參數(shù)值高度相關。然而,異常識別是一種無監(jiān)督分析任務,這意味著面對未知數(shù)據(jù)集時,將無法客觀地預測哪些參數(shù)值是適當?shù)摹R环N名為DPC的算法解決了上述問題,它通過識別簇邊界區(qū)域,然后將邊界區(qū)域中密度小于密度均值的對象識別為異常,識別過程中不需要輸入任何參數(shù)。然而,DPC的異常識別效果易受對象分布的影響。若簇間較為接近時,會有許多正常數(shù)據(jù)對象被錯誤地識別為異常。顯然,如果構建一個既無輸入?yún)?shù)又有優(yōu)異的異常識別效果的算法模型將是有意義的。
為了實現(xiàn)上一目標,本文提出了一種全新的名為K-outlier的算法。具體地,K-outlier算法首先將數(shù)據(jù)集劃分為個簇,其中為數(shù)據(jù)集中數(shù)據(jù)對象的數(shù)量。由于異常對象分布相對稀疏,因此異常對象將被劃分到只包含少量對象的小簇中。然后,K-outlier算法統(tǒng)計每個簇中對象的數(shù)量,并生成數(shù)量概率圖,稱之為決策圖。從決策圖中,使用者可以很清晰地識別出哪些簇中的對象數(shù)量少且概率低,從而將它們識別為異常簇(因為異常對象的數(shù)量遠小于正常對象,且異常對象所在簇中對象的數(shù)量也遠小于正常對象所在簇中對象的數(shù)量),其中的對象識別為異常。K-outlier算法的主要貢獻:
(1)首次將K-means引入異常識別任務。K-means是最經(jīng)典的聚類算法,盡管它沒有異常識別能力,但它具有低時間復雜的優(yōu)勢,可以幫助K-outlier算法快速識別出異常。
(2)生成可視決策圖代替輸入?yún)?shù)。K-outlier算法不再像其他異常識別算法需要輸入?yún)?shù)來識別異常,使用者可以通過決策圖提供的可視信息直接得到異常識別結果。
(3)K-outlier算法的異常識別效果不受對象分布的影響。由于將異常劃分到小簇中,與正常對象進行了物理隔離,因此不受正常對象分布的影響。
(4)通過大量實驗驗證了K-outlier算法的有效性。實驗表明K-outlier算法對密度不平衡數(shù)據(jù)集、復雜分布數(shù)據(jù)集具有一定的魯棒性。在7個真實世界數(shù)據(jù)集上,相比于現(xiàn)有算法,K-outlier算法取得了最優(yōu)的結果。
本文詳細內(nèi)容請下載:
http://ihrv.cn/resource/share/2000006527
作者信息:
劉道君,劉帥,張玉松,歐思程
(中國長江電力股份有限公司 三峽水利樞紐梯級調(diào)度通信中心 湖北 宜昌 443000)