《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 一種新的模糊聚類有效性指標
一種新的模糊聚類有效性指標
2015年微型機與應用第8期
梁 鮮1,曲福恒1,才 華2,楊 勇1
(1.長春理工大學 計算機科學技術學院,吉林 長春 130022; 2.長春理工大學 電子信息工程學院,吉林 長春 130022)
摘要: 針對模糊C均值(FCM)算法聚類數需要預先設定的問題,提出了一種新的模糊聚類有效性指標。首先,計算簇中每個屬性的方差,給方差較小的屬性賦予較大的權值,給方差較大的屬性賦予較小的權值,得到一種基于屬性加權的FCM算法;然后,根據FCM改進算法得到的隸屬度矩陣計算類內緊致性和類間分離性;最后,利用類內緊致性和類間分離性定義一個新的聚類有效性指標。實驗結果表明,該指標可以找到符合數據自然分布的類的數目。基于屬性加權的FCM算法可以識別不同屬性的重要程度,增加聚類結果的準確率,使用FCM改進算法得到的隸屬度矩陣定義的有效性指標,能夠發(fā)現正確的聚類個數,實現聚類無監(jiān)督的學習過程。
Abstract:
Key words :

  摘  要: 針對模糊C均值(FCM)算法聚類數需要預先設定的問題,提出了一種新的模糊聚類有效性指標。首先,計算簇中每個屬性的方差,給方差較小的屬性賦予較大的權值,給方差較大的屬性賦予較小的權值,得到一種基于屬性加權的FCM算法;然后,根據FCM改進算法得到的隸屬度矩陣計算類內緊致性和類間分離性;最后,利用類內緊致性和類間分離性定義一個新的聚類有效性指標。實驗結果表明,該指標可以找到符合數據自然分布的類的數目?;趯傩约訖嗟腇CM算法可以識別不同屬性的重要程度,增加聚類結果的準確率,使用FCM改進算法得到的隸屬度矩陣定義的有效性指標,能夠發(fā)現正確的聚類個數,實現聚類無監(jiān)督的學習過程。

  關鍵詞: 模糊聚類;模糊C均值算法;有效性指標;最佳聚類數

0 引言

  聚類分析[1-3]是一種無監(jiān)督的分類過程。研究聚類問題的一個最基本問題是發(fā)現符合數據真實分布的聚類個數。借助模糊C均值算法[4-5],定義有效性指標,發(fā)現數據集的內在結構成為研究熱點。由于數據類型和數據結構的多樣性,導致沒有通用的有效性指標。

  針對FCM算法在聚類過程中未考慮樣本各維屬性對聚類貢獻不同的問題,使用自適應的方法計算簇中每個屬性的權值,得到一種基于屬性加權的FCM算法。充分考慮數據集的幾何結構,使用改進FCM算法得到的隸屬度矩陣,計算類內緊致性和類間分離性,定義新的聚類有效性指標,發(fā)現符合數據真實分布的聚類個數。

1 一種新的模糊聚類有效性指標

  1.1 一種基于屬性加權的FCM算法

  聚類過程中為了使FCM算法能夠區(qū)分不同屬性的重要作用,使用自適應的方法計算簇中每個屬性的權值。給簇內方差較小的屬性賦予較大的權值,給簇內方差較大的屬性賦予較小的權值,得到同一屬性在不同簇中具有不同權值的FCM算法。根據權值的大小識別屬性的重要性,增加聚類結果的準確率。

  改進算法通過最小化目標函數J′m實現:

  13.jpg

  1.2 緊致性和分離性

  類內數據的緊致性和類間數據的分離性是衡量FCM聚類結果有效性的重要標準和基本條件[6-7]?;趯傩约訖嗟腇CM算法,定義類內數據的緊致性為:

  45.jpg

  其中,UM~(F3NI4BK{)DU3{9OH]WN.png表示樣本xi屬于簇p和簇q的隸屬度的差值。簇間的分離性越大,Sep(c)的值越大。

  對類內數據緊致性和類間數據分離性進行歸一化,得到如下公式:

  68.jpg

  聚類質量越好,fc的值越小。因此,可以通過計算fc的最小值,發(fā)現符合數據分布的聚類個數。

2 仿真實驗及結果

  為了證明本文算法的有效性,進行真實數據的測試。取模糊因子m=2,最大聚類個數為10。

  真實數據使用UCI中的Iris數據集、BUPA數據集和WDBC數據集。在數據集上運行基于屬性加權的FCM算法,使用本文提出的聚類有效性指標進行聚類分析。3個數據集上有效性指標與聚類個數之間的變化關系如圖1所示。多個有效性指標確定3個數據集的最佳聚類數,比較結果如表1所示。

001.jpg

  由圖1可知,3個數據集上有效性指標fc的最小值分別對應數據集的真實聚類個數。由表1可知,有效性指標fc和PBMF可以同時發(fā)現3個數據集的真實聚類個數。XB指標僅能發(fā)現WDBC數據集的真實聚類個數,SC指標不能發(fā)現BUPA數據集的真實聚類個數,FHV僅能發(fā)現Iris數據集的真實聚類個數,CWB指標發(fā)現的聚類個數與3個數據集的真實聚類個數均有偏差。由此證明有效性指標fc是有效的,且優(yōu)于多個現有的有效性指標。

3 結論

  為了使FCM算法在聚類過程中能夠識別不同屬性對聚類貢獻的大小,使用自適應的方法計算簇中每個屬性的權值,給簇內方差較小的屬性賦予較大的權值,給簇內方差較大的屬性賦予較小的權值,得到每個屬性在不同簇中具有不同權值的FCM算法。利用改進FCM算法得到的隸屬度矩陣計算類內數據的緊致性和類間數據的分離性,定義聚類有效性指標,自動獲得最佳聚類數,實現聚類無監(jiān)督的學習過程。通過實驗證明了該指標的有效性和可行性。

  參考文獻

  [1] Su Tieming, Ye Sanpai, Sun Wei, et al. Compensation model for thermal error of machining center based on gray-fuzzy clustering and LS-SVM[J]. Journal of Shenyang University of Technology,2011,33(5):524-530.

  [2] 向培素.近鄰半監(jiān)督聚類算法的MATLAB實現[J].數學技術與應用,2012(8):100-101.

  [3] Yu Haitao, Li Zi, Yao Nianmin. Research on optimization method for K-Means clustering algorithm[J]. Journal of Chinese Computer Systems, 2012,33(10):2273-2277.

  [4] 王亮,王士同.動態(tài)權值混合C-均值模糊核聚類算法[J].軟件學報,2011,28(8):2852-2855.

  [5] 楊草原,劉大有,楊博,等.聚類集成方法研究[J].計算機科學,2011,38(2):166-170.

  [6] KANNAN S R, RAMATHILAGAM S, DEVI R, et al. Robust kernel FCM in segmentation of breast medical images[J]. Expert System with Applications, 2011,38(4):4382-4389.

  [7] ZALIK K R, ZALIK B. Validity index for clusters of different sizes and densities[J]. Pattern Recognition Letters, 2011,32(2):221-234.


此內容為AET網站原創(chuàng),未經授權禁止轉載。