中文引用格式: 李秋云,劉燕武. 一種服務(wù)于K-means的初始中心選取方法[J]. 電子技術(shù)應(yīng)用,2023,49(3):134-138.
英文引用格式: Li Qiuyun,Liu Yanwu. An initial centers selection method serving K-means[J]. Application of Electronic Technique,2023,49(3):134-138.
0 引言
聚類是一種無監(jiān)督分析方法,其目的是識(shí)別出數(shù)據(jù)集中的所有數(shù)據(jù)簇,并將每個(gè)簇中的數(shù)據(jù)點(diǎn)看作一類。在眾多聚類算法中,K-means[1]是使用頻率最高的舉足輕重的算法之一。K-means算法從數(shù)據(jù)集中選取k個(gè)數(shù)據(jù)點(diǎn)作為初始聚類中心,按照距離最近原則,將其他數(shù)據(jù)點(diǎn)分配給這k個(gè)初始中心得到初始簇,再將處于初始簇中心的數(shù)據(jù)點(diǎn)作為新的聚類中心。重復(fù)上述過程,直到聚類中心不再改變?yōu)橹埂-means算法的原理相對(duì)簡單,這也是其受到廣泛追捧的原因。然而,該算法也存在著明顯缺陷:
(1)分析之前,需要明確k值。在K-means算法中,k值就是簇的數(shù)量。若k被設(shè)置為10,那么K-means算法將識(shí)別出10個(gè)數(shù)據(jù)簇。但聚類是一種無監(jiān)督分析任務(wù),在聚類之前無法得知數(shù)據(jù)集存在多少簇。顯然,K-means算法的機(jī)理與聚類初衷是相矛盾的。在真實(shí)分析場(chǎng)景中,常常會(huì)出現(xiàn)k值多于或少于真實(shí)簇?cái)?shù)的情況,影響聚類準(zhǔn)確度。
(2)初始中心易聚團(tuán)。K-means算法隨機(jī)將k個(gè)數(shù)據(jù)點(diǎn)確定為初始聚類中心,易造成多個(gè)聚類中心出現(xiàn)在同一簇內(nèi),導(dǎo)致該簇被分解為多類。
(3)迭代次數(shù)無法控制。K-means算法需要經(jīng)過多次迭代直至聚類中心不再改變?yōu)橹埂MǔG闆r下,聚類中心最終會(huì)迭代到密度稠密區(qū)。也就是說,初始中心越遠(yuǎn)離密度核心,K-means算法的迭代次數(shù)越多,運(yùn)行時(shí)間越長。又因初始中心是隨機(jī)選取的,致使K-means算法的運(yùn)行時(shí)間無法控制。
針對(duì)上述問題,本文提出一種名為DPCC(Density Peak Clustering Centers)的方法,為K-means算法提供初始中心。DPCC運(yùn)用于K-means算法之前,通過計(jì)算數(shù)據(jù)點(diǎn)密度以及與高密度數(shù)據(jù)點(diǎn)間最近距離生成決策圖,以凸顯數(shù)據(jù)集中所有的密度峰值點(diǎn)。這些密度峰值點(diǎn)即可作為K-means算法的初始中心。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://ihrv.cn/resource/share/2000005243
作者信息:
李秋云1,劉燕武2
(1.中國運(yùn)載火箭技術(shù)研究院 北京宇航系統(tǒng)工程研究所,北京 100076;
2.中國電子信息產(chǎn)業(yè)集團(tuán)有限公司,廣東 深圳 518000)