123,123

一种新的模糊聚类有效性指标

2015年微型机与应用第8期

梁鲜1，曲福恒1，才华2，杨勇1

（1.长春理工大学计算机科学技术学院，吉林长春 130022； 2.长春理工大学电子信息工程学院，吉林长春 130022）

摘要： 针对模糊C均值（FCM）算法聚类数需要预先设定的问题，提出了一种新的模糊聚类有效性指标。首先，计算簇中每个属性的方差，给方差较小的属性赋予较大的权值，给方差较大的属性赋予较小的权值，得到一种基于属性加权的FCM算法；然后，根据FCM改进算法得到的隶属度矩阵计算类内紧致性和类间分离性；最后，利用类内紧致性和类间分离性定义一个新的聚类有效性指标。实验结果表明，该指标可以找到符合数据自然分布的类的数目。基于属性加权的FCM算法可以识别不同属性的重要程度，增加聚类结果的准确率，使用FCM改进算法得到的隶属度矩阵定义的有效性指标，能够发现正确的聚类个数，实现聚类无监督的学习过程。

關(guān)鍵詞： 模糊聚类模糊C均值算法有效性指标最佳聚类数

Abstract：

Key words :

　　摘要：針對模糊C均值（FCM）算法聚類數(shù)需要預(yù)先設(shè)定的問題，提出了一種新的模糊聚類有效性指標(biāo)。首先，計算簇中每個屬性的方差，給方差較小的屬性賦予較大的權(quán)值，給方差較大的屬性賦予較小的權(quán)值，得到一種基于屬性加權(quán)的FCM算法；然后，根據(jù)FCM改進(jìn)算法得到的隸屬度矩陣計算類內(nèi)緊致性和類間分離性；最后，利用類內(nèi)緊致性和類間分離性定義一個新的聚類有效性指標(biāo)。實(shí)驗結(jié)果表明，該指標(biāo)可以找到符合數(shù)據(jù)自然分布的類的數(shù)目?；趯傩约訖?quán)的FCM算法可以識別不同屬性的重要程度，增加聚類結(jié)果的準(zhǔn)確率，使用FCM改進(jìn)算法得到的隸屬度矩陣定義的有效性指標(biāo)，能夠發(fā)現(xiàn)正確的聚類個數(shù)，實(shí)現(xiàn)聚類無監(jiān)督的學(xué)習(xí)過程。

　　關(guān)鍵詞：模糊聚類；模糊C均值算法；有效性指標(biāo)；最佳聚類數(shù)

0 引言

　　聚類分析[1-3]是一種無監(jiān)督的分類過程。研究聚類問題的一個最基本問題是發(fā)現(xiàn)符合數(shù)據(jù)真實(shí)分布的聚類個數(shù)。借助模糊C均值算法[4-5]，定義有效性指標(biāo)，發(fā)現(xiàn)數(shù)據(jù)集的內(nèi)在結(jié)構(gòu)成為研究熱點(diǎn)。由于數(shù)據(jù)類型和數(shù)據(jù)結(jié)構(gòu)的多樣性，導(dǎo)致沒有通用的有效性指標(biāo)。

　　針對FCM算法在聚類過程中未考慮樣本各維屬性對聚類貢獻(xiàn)不同的問題，使用自適應(yīng)的方法計算簇中每個屬性的權(quán)值，得到一種基于屬性加權(quán)的FCM算法。充分考慮數(shù)據(jù)集的幾何結(jié)構(gòu)，使用改進(jìn)FCM算法得到的隸屬度矩陣，計算類內(nèi)緊致性和類間分離性，定義新的聚類有效性指標(biāo)，發(fā)現(xiàn)符合數(shù)據(jù)真實(shí)分布的聚類個數(shù)。

1 一種新的模糊聚類有效性指標(biāo)

　　1.1 一種基于屬性加權(quán)的FCM算法

　　聚類過程中為了使FCM算法能夠區(qū)分不同屬性的重要作用，使用自適應(yīng)的方法計算簇中每個屬性的權(quán)值。給簇內(nèi)方差較小的屬性賦予較大的權(quán)值，給簇內(nèi)方差較大的屬性賦予較小的權(quán)值，得到同一屬性在不同簇中具有不同權(quán)值的FCM算法。根據(jù)權(quán)值的大小識別屬性的重要性，增加聚類結(jié)果的準(zhǔn)確率。

　　改進(jìn)算法通過最小化目標(biāo)函數(shù)J′m實(shí)現(xiàn)：

　　1.2 緊致性和分離性

　　類內(nèi)數(shù)據(jù)的緊致性和類間數(shù)據(jù)的分離性是衡量FCM聚類結(jié)果有效性的重要標(biāo)準(zhǔn)和基本條件[6-7]?；趯傩约訖?quán)的FCM算法，定義類內(nèi)數(shù)據(jù)的緊致性為：

　　其中， UM~(F3NI4BK{)DU3{9OH]WN.png 表示樣本xi屬于簇p和簇q的隸屬度的差值。簇間的分離性越大，Sep（c）的值越大。

　　對類內(nèi)數(shù)據(jù)緊致性和類間數(shù)據(jù)分離性進(jìn)行歸一化，得到如下公式：

　　聚類質(zhì)量越好，fc的值越小。因此，可以通過計算fc的最小值，發(fā)現(xiàn)符合數(shù)據(jù)分布的聚類個數(shù)。

2 仿真實(shí)驗及結(jié)果

　　為了證明本文算法的有效性，進(jìn)行真實(shí)數(shù)據(jù)的測試。取模糊因子m=2，最大聚類個數(shù)為10。

　　真實(shí)數(shù)據(jù)使用UCI中的Iris數(shù)據(jù)集、BUPA數(shù)據(jù)集和WDBC數(shù)據(jù)集。在數(shù)據(jù)集上運(yùn)行基于屬性加權(quán)的FCM算法，使用本文提出的聚類有效性指標(biāo)進(jìn)行聚類分析。3個數(shù)據(jù)集上有效性指標(biāo)與聚類個數(shù)之間的變化關(guān)系如圖1所示。多個有效性指標(biāo)確定3個數(shù)據(jù)集的最佳聚類數(shù)，比較結(jié)果如表1所示。

　　由圖1可知，3個數(shù)據(jù)集上有效性指標(biāo)fc的最小值分別對應(yīng)數(shù)據(jù)集的真實(shí)聚類個數(shù)。由表1可知，有效性指標(biāo)fc和PBMF可以同時發(fā)現(xiàn)3個數(shù)據(jù)集的真實(shí)聚類個數(shù)。XB指標(biāo)僅能發(fā)現(xiàn)WDBC數(shù)據(jù)集的真實(shí)聚類個數(shù)，SC指標(biāo)不能發(fā)現(xiàn)BUPA數(shù)據(jù)集的真實(shí)聚類個數(shù)，F(xiàn)HV僅能發(fā)現(xiàn)Iris數(shù)據(jù)集的真實(shí)聚類個數(shù)，CWB指標(biāo)發(fā)現(xiàn)的聚類個數(shù)與3個數(shù)據(jù)集的真實(shí)聚類個數(shù)均有偏差。由此證明有效性指標(biāo)fc是有效的，且優(yōu)于多個現(xiàn)有的有效性指標(biāo)。

3 結(jié)論

　　為了使FCM算法在聚類過程中能夠識別不同屬性對聚類貢獻(xiàn)的大小，使用自適應(yīng)的方法計算簇中每個屬性的權(quán)值，給簇內(nèi)方差較小的屬性賦予較大的權(quán)值，給簇內(nèi)方差較大的屬性賦予較小的權(quán)值，得到每個屬性在不同簇中具有不同權(quán)值的FCM算法。利用改進(jìn)FCM算法得到的隸屬度矩陣計算類內(nèi)數(shù)據(jù)的緊致性和類間數(shù)據(jù)的分離性，定義聚類有效性指標(biāo)，自動獲得最佳聚類數(shù)，實(shí)現(xiàn)聚類無監(jiān)督的學(xué)習(xí)過程。通過實(shí)驗證明了該指標(biāo)的有效性和可行性。

　　參考文獻(xiàn)

　　[1] Su Tieming， Ye Sanpai， Sun Wei， et al. Compensation model for thermal error of machining center based on gray-fuzzy clustering and LS-SVM[J]. Journal of Shenyang University of Technology，2011，33（5）：524-530.

　　[2] 向培素．近鄰半監(jiān)督聚類算法的MATLAB實(shí)現(xiàn)[J]．?dāng)?shù)學(xué)技術(shù)與應(yīng)用，2012（8）：100-101.

　　[3] Yu Haitao， Li Zi， Yao Nianmin. Research on optimization method for K-Means clustering algorithm[J]. Journal of Chinese Computer Systems， 2012，33（10）：2273-2277.

　　[4] 王亮，王士同.動態(tài)權(quán)值混合C-均值模糊核聚類算法[J].軟件學(xué)報，2011，28（8）：2852-2855.

　　[5] 楊草原，劉大有，楊博，等.聚類集成方法研究[J].計算機(jī)科學(xué)，2011，38（2）：166-170.

　　[6] KANNAN S R， RAMATHILAGAM S， DEVI R， et al. Robust kernel FCM in segmentation of breast medical images[J]. Expert System with Applications， 2011，38（4）：4382-4389.

　　[7] ZALIK K R， ZALIK B. Validity index for clusters of different sizes and densities[J]. Pattern Recognition Letters， 2011，32（2）：221-234.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容