聚類分析的弱點(diǎn):無(wú)論數(shù)據(jù)中是否真正存在不同的類別,利用聚類分析總能得到將其拆分為若干類的結(jié)果。因此,進(jìn)行結(jié)果的有效性驗(yàn)證就變得非常關(guān)鍵。
結(jié)果驗(yàn)證的方式:
(1)關(guān)鍵變量的分類別描述。如果在專業(yè)上比較重要的一些變量在各類別間的分布無(wú)明顯差異,則有理由懷疑聚類結(jié)果的有效性。
(2)各變量的類間比較。如果有較多變量在類間無(wú)差異,則有理由懷疑聚類效果不佳。
(3)將聚類結(jié)果作為因變量建立判別式,如果對(duì)各類別分別進(jìn)行判別的回代正確率都非常高,那么就有較大把握認(rèn)為這些類別是客觀存在且存在明顯特征差異的
(4)各個(gè)類別中案例數(shù)量盡量不要差距過(guò)大,否則有理由懷疑其“有用性”
(5)對(duì)同一數(shù)據(jù)集使用不同的聚類方法,比較其結(jié)果,如果差異過(guò)大,則有理由懷疑聚類結(jié)果的“穩(wěn)定性”
(6)數(shù)據(jù)量過(guò)大時(shí),可按照比例將其隨機(jī)分成兩個(gè)部分,用同一種方法兩個(gè)部分進(jìn)行處理,特征、數(shù)量差異過(guò)大,則有理由懷疑其“可靠性”