title: A Framework for Projected Clustering of High Dimensional Data Streams pdf
code: None
abstract
本文提出了一個新的高維流式數(shù)據(jù)聚類的方法, HPStream。該方法利用了投影聚類的思想,在低維度子空間中進(jìn)行聚類。但是傳統(tǒng)的特征選擇算法需要遍歷整個數(shù)據(jù)集,并且計算復(fù)雜度相當(dāng)大。
本文提出的高維度投影流聚類通過在流處理過程中不斷的微調(diào)投影維度和數(shù)據(jù)點(diǎn)的集合來達(dá)到聚類效果。
contribution
projected clustering
提出了流式數(shù)據(jù)下的投影聚類的方法,和傳統(tǒng)的投影聚類的方法不同的是,以往的方法要么是考慮了全部的數(shù)據(jù)維度的流式聚類,例如CluStream,要么是只考慮了投影聚類,沒有考慮到實際的流式數(shù)據(jù)的應(yīng)用環(huán)境,例如 PROCLUS
linear update philosophy in projected clustering
提出了一種投影聚類下的線性更新的理論,實現(xiàn)大規(guī)模高維度數(shù)據(jù)下的聚類。組作還提出了幾個新的概念,例如fading clustering structure,能夠根據(jù)用戶的需求,非常方便的結(jié)合當(dāng)前的數(shù)據(jù)和歷史的數(shù)據(jù)進(jìn)行聚類。
Fading Clustering Structure
該方法非常類似于BIRCH算法,不過在統(tǒng)計CF(聚類特征)的時候,引入了一個隨著時間(指數(shù))衰減的函數(shù)進(jìn)行加權(quán)。

image.png

image.png
projected clustering algorithm

image.png

image.png

image.png

image.png