欧美极品第一页,999青青视频,嫩草一区二区

聚類分析的一般處理步驟：
確定維度、數據預處理、選擇合適的聚類方法、對聚類效果進行分析、聚類結果分析與展示

用戶分類是分析在這些維度上的用戶是否有顯著的區(qū)別，因此聚類分析的數據維度的選擇是至關重要的。
需要考慮兩個方面：

目標
首先，維度的選擇在大方向上是要與需要解決的問題相一致。即用戶在這些維度上有顯著的區(qū)別。
In other words，這些維度需要能夠表明用戶的特征，以助于產品設計或優(yōu)化。
如：
用戶行為特征，來針對不同用戶做不同的設計；
活躍度等特征，找出高價值用戶；
維度的特征
對于單個維度，數據的分布以正態(tài)分布為佳，其他分布應該進行數據處理。
長尾分布可以取log10（）
對于多個維度，維度應該不具有很強的相關性。有很強的相關性，可以作因子分析。

另外，CLIQUE算法，可以發(fā)現子空間的簇，來篩選合適的維度。

3.1基于原型的聚類 Prototype-Based Clustering

K-means
Mixture Models 混合模型
EM算法
優(yōu)點：比k均值或模糊c均值更一般，可以使用各種類型的分布
缺點：EM算法可能很慢；不能很好處理近似協(xié)線型的數據點；在正確的模型形式方面也存在問題；
Self-Organizing Maps(SOM)自組織映射

3.2基于密度的聚類 Density-Based Clustering

DBSCAN
Subspace Clustering子空間聚類
CLIQUE(Clustering In quest)系統(tǒng)地發(fā)現子空間簇的基于網格的聚類算法

3.3基于圖的聚類 Graph-Based Clustering
Sparsification稀疏化
斷開相似度小于一定閾值的邊，或僅保留連接到點的k個最近鄰的邊

3.4可伸縮的聚類算法 Scalable Clustering Algorithm

BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies)
能夠處理離群點
是一種增量的聚類方法，因為它對每一個數據點的聚類的決策都是基于當前已經處理過的數據點，而不是基于全局的數據點。
主要是在數據體量很大的時候使用，而且數據類型是numerical
CURE(Clustering Using REpresentative)
處理離群點和具有非球形和非均勻大小的簇的數據
在簇里選定一定數量的點，彼此最遠，以代表簇的形狀

通過比較每個簇的描述性統(tǒng)計量，來分析各個簇的特點。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av