讀《不等長時間序列滑窗STS距離聚類算法》論文

  1. WHY

傳統(tǒng)時間序列聚類的缺點:

1)時間序列聚類的研究一般采用等長劃分,會丟失重要特征點,對聚類結果有負面影響。

2)采用時間序列測量值不能準確度量相似度。

image.png

如下埃博拉出血熱、衛(wèi)生部在數值上很相似,但教育部和衛(wèi)生部在形狀更相似。若是以形狀作為度量傳統(tǒng)的歐氏距離可能就不太合適了。

不等長時間序列滑窗STS聚類算法:

1)通過標準分數z_score預處理,消除時間序列觀測值數量級差異的影響。

2)更改了相似度計算的方式,采用基于滑窗的方法計算不等長序列的距離。

3)采用類k-means的聚類算法的中心曲線計算方法。

  1. WHAT

時間序列數據因其趨勢信息的直觀展現(xiàn)形式,廣泛應用于社交網絡、互聯(lián)網搜索和新聞媒體數據分析中。例如:Google應用搜索流感的相關信息的時間序列預測流感爆發(fā)趨勢。根據某話題熱度時間序列數據趨勢的規(guī)律性,通過聚類區(qū)分不同類型的時間序列數據。同一類簇的Twitter話題具有相同或相似的發(fā)展趨勢,進而應用于話題的發(fā)展趨勢的預測。

時間序列聚類算法可以分為兩類。

1)基于原始數據的時間序列聚類算法。

2)基于特征的時間序列聚類算法。

基于特征的時間序列聚類算法指根據原始數據從時間序列中提取形態(tài)特征(極值點位置、分段斜率)、結構特征(平均值、方差等統(tǒng)計值特征)、模型特征(模型的預測值),從而根據這些特征值進行聚類。這類方法的優(yōu)點解決了不等長時間序列聚類問題,缺點是減弱了原始數據值得影響,聚類的形狀趨勢信息往往比較粗糙。

3. HOW

一、距離度量公式

STS距離計算的是累加時間序列間每個時間間隔斜率差的平方,公式


image.png

image.png

如上圖所示,g1、g2和g2、g3的歐式距離的數值更相近。g1、g2的STS距離大于g2、g3的數值。在形狀距離上,STS距離計算方式表現(xiàn)更好,一定程度上可以解決歐式距離度量時間序列局部特征信息確實和受觀測數值數量級差異影響大的問題,但是依舊無法度量不等長時間序列的距離。

基于滑窗的STS距離公式。


image.png

如上圖所示,當計算不同長度的時間序列的s和r的距離時,先不斷平移時間序列s,然后找到s和r距離最近的字段,就如同上圖虛線之間的位置,此時s和r距離最近,這個最近距離作為s和r之間的距離。


image.png

二、預處理過程

z-score標準分數用數據觀測值和觀測值平均值的距離代替原觀測值。z-score處理后的數據平均值為0,標準差為1。標準差的作用是統(tǒng)一量綱,去除數值的數量級差異影響。

總結

本論文提出了形狀距離的不等長時間序列的聚類方法。我們可以學到的有

1)z-score統(tǒng)一量綱,消除數值數量級差異,聚類效果更好。

2)計算x和y時間序列的STS距離,可以平移其中一個時間序列,求最小值作為STS距離值,這就消除了同一時間序列不同起始點的影響。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 時間序列的聚類 張戎? 在機器學習領域,聚類問題一直是一個非常常見的問題。無論是在傳統(tǒng)的機器學習(Machine ...
    AIOPstack閱讀 7,626評論 0 1
  • 原文地址我在最近的工作中遇到了一個問題,問題是我需要根據銀行賬戶在一定時間內的使用信息對該賬戶在未來的一段時間是否...
    七相SIM閱讀 30,211評論 5 21
  • 本文比較了基于歐氏距離和DTW聚類對時間序列聚類和分類的可靠性。 從抽樣的樣本中發(fā)現(xiàn)了基于DTW聚類算法遠遠比基于...
    流浪在北京的蘋果閱讀 4,884評論 2 5
  • 時間序列異常檢測 本文總結了我在時間序列異常算法方面的一些經驗。讀者需要對常規(guī)機械學習算法有一定的了解。希望本文能...
    hzyido閱讀 20,146評論 7 24
  • 久違的晴天,家長會。 家長大會開好到教室時,離放學已經沒多少時間了。班主任說已經安排了三個家長分享經驗。 放學鈴聲...
    飄雪兒5閱讀 7,816評論 16 22

友情鏈接更多精彩內容