HPStream

title: A Framework for Projected Clustering of High Dimensional Data Streams pdf

code: None

abstract

本文提出了一個新的高維流式數(shù)據(jù)聚類的方法, HPStream。該方法利用了投影聚類的思想,在低維度子空間中進(jìn)行聚類。但是傳統(tǒng)的特征選擇算法需要遍歷整個數(shù)據(jù)集,并且計算復(fù)雜度相當(dāng)大。

本文提出的高維度投影流聚類通過在流處理過程中不斷的微調(diào)投影維度和數(shù)據(jù)點(diǎn)的集合來達(dá)到聚類效果。

contribution

projected clustering

提出了流式數(shù)據(jù)下的投影聚類的方法,和傳統(tǒng)的投影聚類的方法不同的是,以往的方法要么是考慮了全部的數(shù)據(jù)維度的流式聚類,例如CluStream,要么是只考慮了投影聚類,沒有考慮到實際的流式數(shù)據(jù)的應(yīng)用環(huán)境,例如 PROCLUS

linear update philosophy in projected clustering

提出了一種投影聚類下的線性更新的理論,實現(xiàn)大規(guī)模高維度數(shù)據(jù)下的聚類。組作還提出了幾個新的概念,例如fading clustering structure,能夠根據(jù)用戶的需求,非常方便的結(jié)合當(dāng)前的數(shù)據(jù)和歷史的數(shù)據(jù)進(jìn)行聚類。

Fading Clustering Structure

該方法非常類似于BIRCH算法,不過在統(tǒng)計CF(聚類特征)的時候,引入了一個隨著時間(指數(shù))衰減的函數(shù)進(jìn)行加權(quán)。

image.png
image.png

projected clustering algorithm

image.png
image.png
image.png
image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容