SEISMIC: A Self-Exciting Point Process Model for Predicting Tweet Popularity
概述
- 用自激點(diǎn)過程預(yù)測一條tweet的最終轉(zhuǎn)發(fā)量
- 斯坦福的工作
- 公開了數(shù)據(jù)和代碼:http://snap.stanford.edu/seismic
- 模型不用訓(xùn)練,也沒用過多的特征
- 根據(jù)tweet早期(前一小時(shí))的轉(zhuǎn)發(fā)情況,預(yù)測最終轉(zhuǎn)發(fā)量
- 實(shí)驗(yàn)上只用15%的相對誤差
動(dòng)機(jī)
- 預(yù)測一篇文章的最終流行度對于內(nèi)容的排序和內(nèi)容的聚合是很重要的
- Twitter這種信息流式的內(nèi)容,用戶幾乎不可能全部跟上,所以可能會錯(cuò)過大量的信息
- 準(zhǔn)確的預(yù)測將使Twitter能夠更好地對內(nèi)容進(jìn)行排名,更快地發(fā)現(xiàn)熱門帖子
自激點(diǎn)過程
- 點(diǎn)過程:描述某類事件發(fā)生的時(shí)刻、地點(diǎn)等的一種隨機(jī)過程。其中- - - 描述某類事件發(fā)生次數(shù)隨時(shí)間變化的過程叫做“計(jì)數(shù)過程”,比較常見的是泊松過程
- 自激點(diǎn)過程就是每次時(shí)間發(fā)生能使得這個(gè)事件的發(fā)生概率發(fā)生變化,例如霍克斯過程,自激點(diǎn)過程常常被用來對“rich get richer”現(xiàn)象建模
- 在tweet的轉(zhuǎn)發(fā)過程中,每一次被轉(zhuǎn)發(fā)都可能帶動(dòng)更多的人轉(zhuǎn)發(fā),因?yàn)檗D(zhuǎn)發(fā)能夠使得更多人看到,而且一個(gè)tweet的傳播性也會隨著時(shí)間而下降。
SEISMIC (Self-Exciting Model of Information Cascades) 模型
- tweet的傳播性隨時(shí)間變化
- 能夠識別某個(gè)時(shí)間點(diǎn)信息流的狀態(tài):supercritical or subcritical state (超臨界或者亞臨界狀態(tài)),就是傳播性大于或者小于某個(gè)值
- 超臨界狀態(tài)下的信息流正在經(jīng)歷一個(gè)“爆炸”增長的時(shí)期, 在這個(gè)時(shí)候,這個(gè)信息的最終流行度無法被準(zhǔn)確的預(yù)測, 反之就容易預(yù)測。
- 模型無參數(shù),也沒有特征工程,也沒有考慮社交網(wǎng)絡(luò)結(jié)構(gòu)
- 只用到了tweet歷史被轉(zhuǎn)發(fā)的時(shí)間和節(jié)點(diǎn)(轉(zhuǎn)發(fā)的人)在社交網(wǎng)絡(luò)里面的度數(shù)(這個(gè)人的follow 數(shù)量)
- 模型的時(shí)間復(fù)雜度是線性的,也容易并行化
- 模型有較強(qiáng)的解釋性
實(shí)驗(yàn)效果
- 超過state of the art方法的效果30%(accuracy)
- 用前一小時(shí)的記錄預(yù)測,15%的相對誤差
- 用前10分鐘的記錄預(yù)測,25%的相對誤差
- 實(shí)驗(yàn)還展示了怎么識別將會“病毒式”傳播的tweet
相關(guān)工作
- 一般分為基于特征的方法和基于點(diǎn)過程的方法
- 本工作與其他用霍克斯過程的方法的不同是:本方法的過程的強(qiáng)度(intensity)會依賴于另一個(gè)過程強(qiáng)度而變化。
重要參考文獻(xiàn)
- S. Gao, J. Ma, and Z. Chen. Modeling and predicting
retweeting dynamics on microblogging platforms. In WSDM
’15, 2015. 也是點(diǎn)過程做流行度預(yù)測
方法實(shí)現(xiàn)
- 一堆公式看得腦殼疼

公式1

公式2

公式3
實(shí)驗(yàn)
- 實(shí)驗(yàn)做了挺多做的挺充分的