123,123,123

基于K-means的异常识别方法

电子技术应用

刘道君，刘帅，张玉松，欧思程

中国长江电力股份有限公司三峡水利枢纽梯级调度通信中心

摘要： 在工业、电力、交通等领域，异常往往是系统发生问题或故障的先兆。通过异常识别技术，可以及时发现系统异常行为，预防或迅速应对潜在的故障，提高系统的可靠性和稳定性。当前的异常识别算法通常需要引入专家信息（如适宜的参数值），但在许多识别场景中，数据分布以及异常发生原因是未知的，导致专家信息不可信。因此，如何设计一款无需专家信息介入的异常识别算法意义非凡。设计了一种自适应的异常识别算法，通过K-means聚类算法识别出众多小簇，然后统计各簇中对象数量的分布概率以生成概率分布图。从概率分布图中，可以清晰观察到哪些簇中的对象数量明显小于其他簇，从而将它们识别为异常簇，其中的对象识别为异常。换句话说，概率分布图代替了专家信息，可协助使用者在分布以及原因未知情况下识别有效异常。

關(guān)鍵詞： 异常识别概率决策图

中圖分類(lèi)號(hào)：TP181 文獻(xiàn)標(biāo)志碼：A DOI: 10.16157/j.issn.0258-7998.245654
中文引用格式： 劉道君，劉帥，張玉松，等. 基于K-means的異常識(shí)別方法[J]. 電子技術(shù)應(yīng)用，2025，51(5)：62-67.
英文引用格式： Liu Daojun，Liu Shuai，Zhang Yusong，et al. Outlier detection method based on K-means[J]. Application of Electronic Technique，2025，51(5)：62-67.

Outlier detection method based on K-means

Liu Daojun，Liu Shuai，Zhang Yusong，Ou Sicheng

China Yangtze Power Co.，Ltd.， Three Gorges Cascade Dispatch Communication Center

Abstract： In industry, electric power, transportation and other fields, anomalies are often the precursors of problems or failures in the system. Through anomaly identification techniques, system abnormal behavior can be detected in time to prevent or quickly respond to potential failures and improve system reliability and stability. Current anomaly identification algorithms usually need to introduce expert information (e.g., suitable parameter values), but in many identification scenarios, the data distribution as well as the cause of anomaly occurrence are unknown, resulting in unreliable expert information. Therefore, it is significant to design an anomaly identification algorithm that does not require the intervention of expert information. In this paper, an adaptive anomaly identification algorithm is designed. Specifically, it identifies numerous small clusters by K-means, and then counts the distribution probability of the number of objects in each cluster to generate a probability distribution graph. From the probability distribution graph, it can be clearly observed which clusters contain significantly smaller numbers of objects than other clusters, and thus they are recognized as anomalous clusters in which the objects are recognized as anomalies. In other words, the probability distribution graph replaces expert information and assists the user in identifying valid anomalies when the distribution as well as the cause is unknown.

Key words : outlier detection；probability；decision graph

引言

異常識(shí)別在當(dāng)今社會(huì)中具有重要意義，它可以幫助提高安全性、優(yōu)化效率、預(yù)測(cè)未來(lái)、改善數(shù)據(jù)質(zhì)量以及支持決策，在各個(gè)領(lǐng)域中推動(dòng)進(jìn)步和發(fā)展。隨著技術(shù)的不斷發(fā)展和應(yīng)用范圍的擴(kuò)大，異常識(shí)別將繼續(xù)發(fā)揮重要作用，并為人類(lèi)社會(huì)帶來(lái)更多的益處。

當(dāng)前，已有上千種異常識(shí)別算法被陸續(xù)提出。它們大致可以被劃分為基于統(tǒng)計(jì)、基于距離、基于深度學(xué)習(xí)、基于集成的算法。具體地，基于統(tǒng)計(jì)的算法使用數(shù)據(jù)的統(tǒng)計(jì)特性來(lái)識(shí)別異常值，常見(jiàn)的統(tǒng)計(jì)信息包括均值、標(biāo)準(zhǔn)差、中位數(shù)、百分位數(shù)等?；诰嚯x的算法通過(guò)計(jì)算對(duì)象之間的相似度或距離來(lái)識(shí)別異常值。基于集成的算法結(jié)合多個(gè)基本異常檢測(cè)模型的輸出，以提高整體的性能和魯棒性?；谏疃葘W(xué)習(xí)的算法利用多層神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)數(shù)據(jù)的復(fù)雜特征，并在此基礎(chǔ)上進(jìn)行異常檢測(cè)。盡管上述類(lèi)型算法已經(jīng)被驗(yàn)證可以在各樣場(chǎng)景下很好地識(shí)別數(shù)據(jù)集中的復(fù)雜異常，但大多算法面臨一個(gè)共同的問(wèn)題，就是需要若干輸入?yún)?shù)，且異常識(shí)別效果與參數(shù)值高度相關(guān)。然而，異常識(shí)別是一種無(wú)監(jiān)督分析任務(wù)，這意味著面對(duì)未知數(shù)據(jù)集時(shí)，將無(wú)法客觀地預(yù)測(cè)哪些參數(shù)值是適當(dāng)?shù)?。一種名為DPC的算法解決了上述問(wèn)題，它通過(guò)識(shí)別簇邊界區(qū)域，然后將邊界區(qū)域中密度小于密度均值的對(duì)象識(shí)別為異常，識(shí)別過(guò)程中不需要輸入任何參數(shù)。然而，DPC的異常識(shí)別效果易受對(duì)象分布的影響。若簇間較為接近時(shí)，會(huì)有許多正常數(shù)據(jù)對(duì)象被錯(cuò)誤地識(shí)別為異常。顯然，如果構(gòu)建一個(gè)既無(wú)輸入?yún)?shù)又有優(yōu)異的異常識(shí)別效果的算法模型將是有意義的。

為了實(shí)現(xiàn)上一目標(biāo)，本文提出了一種全新的名為K-outlier的算法。具體地，K-outlier算法首先將數(shù)據(jù)集劃分為個(gè)簇，其中為數(shù)據(jù)集中數(shù)據(jù)對(duì)象的數(shù)量。由于異常對(duì)象分布相對(duì)稀疏，因此異常對(duì)象將被劃分到只包含少量對(duì)象的小簇中。然后，K-outlier算法統(tǒng)計(jì)每個(gè)簇中對(duì)象的數(shù)量，并生成數(shù)量概率圖，稱(chēng)之為決策圖。從決策圖中，使用者可以很清晰地識(shí)別出哪些簇中的對(duì)象數(shù)量少且概率低，從而將它們識(shí)別為異常簇（因?yàn)楫惓?duì)象的數(shù)量遠(yuǎn)小于正常對(duì)象，且異常對(duì)象所在簇中對(duì)象的數(shù)量也遠(yuǎn)小于正常對(duì)象所在簇中對(duì)象的數(shù)量），其中的對(duì)象識(shí)別為異常。K-outlier算法的主要貢獻(xiàn)：

(1)首次將K-means引入異常識(shí)別任務(wù)。K-means是最經(jīng)典的聚類(lèi)算法，盡管它沒(méi)有異常識(shí)別能力，但它具有低時(shí)間復(fù)雜的優(yōu)勢(shì)，可以幫助K-outlier算法快速識(shí)別出異常。

(2)生成可視決策圖代替輸入?yún)?shù)。K-outlier算法不再像其他異常識(shí)別算法需要輸入?yún)?shù)來(lái)識(shí)別異常，使用者可以通過(guò)決策圖提供的可視信息直接得到異常識(shí)別結(jié)果。

(3)K-outlier算法的異常識(shí)別效果不受對(duì)象分布的影響。由于將異常劃分到小簇中，與正常對(duì)象進(jìn)行了物理隔離，因此不受正常對(duì)象分布的影響。

(4)通過(guò)大量實(shí)驗(yàn)驗(yàn)證了K-outlier算法的有效性。實(shí)驗(yàn)表明K-outlier算法對(duì)密度不平衡數(shù)據(jù)集、復(fù)雜分布數(shù)據(jù)集具有一定的魯棒性。在7個(gè)真實(shí)世界數(shù)據(jù)集上，相比于現(xiàn)有算法，K-outlier算法取得了最優(yōu)的結(jié)果。

本文詳細(xì)內(nèi)容請(qǐng)下載：

http://ihrv.cn/resource/share/2000006527

作者信息：

劉道君，劉帥，張玉松，歐思程

（中國(guó)長(zhǎng)江電力股份有限公司三峽水利樞紐梯級(jí)調(diào)度通信中心湖北宜昌 443000）

Magazine.Subscription.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容