《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 設計應用 > 基于K-means的異常識別方法
基于K-means的異常識別方法
電子技術應用
劉道君,劉帥,張玉松,歐思程
中國長江電力股份有限公司 三峽水利樞紐梯級調(diào)度通信中心
摘要: 在工業(yè)、電力、交通等領域,異常往往是系統(tǒng)發(fā)生問題或故障的先兆。通過異常識別技術,可以及時發(fā)現(xiàn)系統(tǒng)異常行為,預防或迅速應對潛在的故障,提高系統(tǒng)的可靠性和穩(wěn)定性。當前的異常識別算法通常需要引入專家信息(如適宜的參數(shù)值),但在許多識別場景中,數(shù)據(jù)分布以及異常發(fā)生原因是未知的,導致專家信息不可信。因此,如何設計一款無需專家信息介入的異常識別算法意義非凡。設計了一種自適應的異常識別算法,通過K-means聚類算法識別出眾多小簇,然后統(tǒng)計各簇中對象數(shù)量的分布概率以生成概率分布圖。從概率分布圖中,可以清晰觀察到哪些簇中的對象數(shù)量明顯小于其他簇,從而將它們識別為異常簇,其中的對象識別為異常。換句話說,概率分布圖代替了專家信息,可協(xié)助使用者在分布以及原因未知情況下識別有效異常。
中圖分類號:TP181 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.245654
中文引用格式: 劉道君,劉帥,張玉松,等. 基于K-means的異常識別方法[J]. 電子技術應用,2025,51(5):62-67.
英文引用格式: Liu Daojun,Liu Shuai,Zhang Yusong,et al. Outlier detection method based on K-means[J]. Application of Electronic Technique,2025,51(5):62-67.
Outlier detection method based on K-means
Liu Daojun,Liu Shuai,Zhang Yusong,Ou Sicheng
China Yangtze Power Co.,Ltd., Three Gorges Cascade Dispatch Communication Center
Abstract: In industry, electric power, transportation and other fields, anomalies are often the precursors of problems or failures in the system. Through anomaly identification techniques, system abnormal behavior can be detected in time to prevent or quickly respond to potential failures and improve system reliability and stability. Current anomaly identification algorithms usually need to introduce expert information (e.g., suitable parameter values), but in many identification scenarios, the data distribution as well as the cause of anomaly occurrence are unknown, resulting in unreliable expert information. Therefore, it is significant to design an anomaly identification algorithm that does not require the intervention of expert information. In this paper, an adaptive anomaly identification algorithm is designed. Specifically, it identifies numerous small clusters by K-means, and then counts the distribution probability of the number of objects in each cluster to generate a probability distribution graph. From the probability distribution graph, it can be clearly observed which clusters contain significantly smaller numbers of objects than other clusters, and thus they are recognized as anomalous clusters in which the objects are recognized as anomalies. In other words, the probability distribution graph replaces expert information and assists the user in identifying valid anomalies when the distribution as well as the cause is unknown.
Key words : outlier detection;probability;decision graph

引言

異常識別在當今社會中具有重要意義,它可以幫助提高安全性、優(yōu)化效率、預測未來、改善數(shù)據(jù)質(zhì)量以及支持決策,在各個領域中推動進步和發(fā)展。隨著技術的不斷發(fā)展和應用范圍的擴大,異常識別將繼續(xù)發(fā)揮重要作用,并為人類社會帶來更多的益處。

當前,已有上千種異常識別算法被陸續(xù)提出。它們大致可以被劃分為基于統(tǒng)計、基于距離、基于深度學習、基于集成的算法。具體地,基于統(tǒng)計的算法使用數(shù)據(jù)的統(tǒng)計特性來識別異常值,常見的統(tǒng)計信息包括均值、標準差、中位數(shù)、百分位數(shù)等?;诰嚯x的算法通過計算對象之間的相似度或距離來識別異常值?;诩傻乃惴ńY合多個基本異常檢測模型的輸出,以提高整體的性能和魯棒性?;谏疃葘W習的算法利用多層神經(jīng)網(wǎng)絡來學習數(shù)據(jù)的復雜特征,并在此基礎上進行異常檢測。盡管上述類型算法已經(jīng)被驗證可以在各樣場景下很好地識別數(shù)據(jù)集中的復雜異常,但大多算法面臨一個共同的問題,就是需要若干輸入?yún)?shù),且異常識別效果與參數(shù)值高度相關。然而,異常識別是一種無監(jiān)督分析任務,這意味著面對未知數(shù)據(jù)集時,將無法客觀地預測哪些參數(shù)值是適當?shù)摹R环N名為DPC的算法解決了上述問題,它通過識別簇邊界區(qū)域,然后將邊界區(qū)域中密度小于密度均值的對象識別為異常,識別過程中不需要輸入任何參數(shù)。然而,DPC的異常識別效果易受對象分布的影響。若簇間較為接近時,會有許多正常數(shù)據(jù)對象被錯誤地識別為異常。顯然,如果構建一個既無輸入?yún)?shù)又有優(yōu)異的異常識別效果的算法模型將是有意義的。

為了實現(xiàn)上一目標,本文提出了一種全新的名為K-outlier的算法。具體地,K-outlier算法首先將數(shù)據(jù)集劃分為個簇,其中為數(shù)據(jù)集中數(shù)據(jù)對象的數(shù)量。由于異常對象分布相對稀疏,因此異常對象將被劃分到只包含少量對象的小簇中。然后,K-outlier算法統(tǒng)計每個簇中對象的數(shù)量,并生成數(shù)量概率圖,稱之為決策圖。從決策圖中,使用者可以很清晰地識別出哪些簇中的對象數(shù)量少且概率低,從而將它們識別為異常簇(因為異常對象的數(shù)量遠小于正常對象,且異常對象所在簇中對象的數(shù)量也遠小于正常對象所在簇中對象的數(shù)量),其中的對象識別為異常。K-outlier算法的主要貢獻:

(1)首次將K-means引入異常識別任務。K-means是最經(jīng)典的聚類算法,盡管它沒有異常識別能力,但它具有低時間復雜的優(yōu)勢,可以幫助K-outlier算法快速識別出異常。

(2)生成可視決策圖代替輸入?yún)?shù)。K-outlier算法不再像其他異常識別算法需要輸入?yún)?shù)來識別異常,使用者可以通過決策圖提供的可視信息直接得到異常識別結果。

(3)K-outlier算法的異常識別效果不受對象分布的影響。由于將異常劃分到小簇中,與正常對象進行了物理隔離,因此不受正常對象分布的影響。

(4)通過大量實驗驗證了K-outlier算法的有效性。實驗表明K-outlier算法對密度不平衡數(shù)據(jù)集、復雜分布數(shù)據(jù)集具有一定的魯棒性。在7個真實世界數(shù)據(jù)集上,相比于現(xiàn)有算法,K-outlier算法取得了最優(yōu)的結果。


本文詳細內(nèi)容請下載:

http://ihrv.cn/resource/share/2000006527


作者信息:

劉道君,劉帥,張玉松,歐思程

(中國長江電力股份有限公司 三峽水利樞紐梯級調(diào)度通信中心 湖北 宜昌 443000)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權禁止轉(zhuǎn)載。