概述
論文主要觀點
本文將抽取網(wǎng)絡中節(jié)點的特征轉化成最優(yōu)化一個“可能性”目標函數(shù)問題,這個“可能性”是該節(jié)點可以保存其鄰居節(jié)點的信息。
成果
- node2vec,如上述,利用SGD優(yōu)化,高效
- “隨機選擇鄰居”算法,可讓node2vec可適應不同的網(wǎng)絡
方法模型
-
定義可能性,并且給予兩個條件,構成要優(yōu)化的目標函數(shù);
條件獨立性:
節(jié)點之間對稱性:
最后目標函數(shù):
- 既然目標函數(shù)描述的是此節(jié)點能保存相鄰節(jié)點的可能性,那么最重要的就是對于相鄰節(jié)點的選擇算法了,在這里本文利用了一種“Random Walks”的方式,其中含有幾個參數(shù),該算法可以在BFS和DFS中隨意變換以達到最好的效果,這部分沒具體看,不做詳細記錄。
創(chuàng)新點
本文的“保存相鄰節(jié)點可能性”來自于一篇自然語言處理論文,在自然語言中,源文件是線性的,只要設置一個“滑動窗口”即可方便實現(xiàn)。那么本文將該線性方法使用到非線性的圖中,創(chuàng)新點就在于引入“Random Walks”的鄰居節(jié)點選擇方式。
總結
本文的特征抽取方式類似于聚類分析的非監(jiān)督方法,本質上都是利用相鄰節(jié)點之間的聯(lián)系。文中提到了網(wǎng)絡中的節(jié)點一般有兩種相似度量:1.內容相似性,2.結構相似性。其中內容相似性主要是相鄰節(jié)點之間的相似性,而結構上相似的的點并不一定是相鄰的,可能隔得很遠,這也是文中為何要把BFS和DFS相結合來選擇鄰居節(jié)點的原因。
我的想法
- 這是一篇很有啟發(fā)作用的好文章。總的來說,你可以以兩個方式來看一個網(wǎng)絡中的節(jié)點,第一,“看本身”,只看這個節(jié)點,用其本身的表象來抽取特征,對應于監(jiān)督方式;第二,“看聯(lián)系”,看其和其周圍的節(jié)點,其周圍節(jié)點一定具有一定的相似度,對應于無監(jiān)督方式。
- 那么對于任何問題,我們如果想去看聯(lián)系,首先要根據(jù)某種規(guī)則讓他們存在聯(lián)系,這種存在聯(lián)系的過程必須是自然的,才能很好的體現(xiàn)出“無人為干預”的自主聚類形式。