圖(graph)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)(四)--代碼解析(Model_2)

【2】Model_2: 1stChebNet(2017)-github:gcn? (https://github.com/tkipf/gcn)? (tensorflow)

{Semi-Supervised Classification with Graph Convolutional Networks}基于圖卷積網(wǎng)絡(luò)的半監(jiān)督分類

文章:https://www.colabug.com/5231014.html

Graph Convolutional Networks

這是一個用tensorflow框架實現(xiàn)的圖卷積神經(jīng)網(wǎng)絡(luò),用來完成圖中的節(jié)點類型分類,即是一個分類模型。

兩篇論文:

【1】Semi-Supervised Classification with Graph Convolutional Networks?(ICLR 2017)

【2】Graph Convolutional Networks?(2016)



從github下載代碼,上傳到服務(wù)器上(盡量保證你的服務(wù)能連接外網(wǎng),因為在調(diào)試程序時需要從外網(wǎng)中下載所需的數(shù)據(jù),盡量保證你的服務(wù)器有GPU,因為有的代碼常常會用GPU來加速),解壓:unzip gcn-master.zip

查看虛擬環(huán)境名:conda?env list? ? ?

選擇一個虛擬環(huán)境激活:source activate your_env_name

查看python版本:python? ?(python3)

安裝:python setup.py install

成功安裝

查看requirements??

·tensorflow(>0.12)??

·networkx

運行模型:

cd gcn

python train.py? ? ? ?或者自定數(shù)據(jù)集運行? ?python train.py --dataset citeseer

正常運行結(jié)果:



現(xiàn)在開始在本地pycharm中分析源代碼

setup.py可以看到作者Thomas Kipf已經(jīng)他寫的圖卷積網(wǎng)絡(luò)gcn做成了安裝包,剛才運行的python setup.py install就是將該gcn模型安裝到python的lib目錄下。

運行模型命令: python train.py

以下是train.py代碼,我們主要關(guān)心模型的輸入數(shù)據(jù)格式。

train.py代碼

以下截圖是train.py的代碼,從中可以看出,數(shù)據(jù)集有三個可選,模型種類有三個可選。

數(shù)據(jù)集:'cora','citeseer','pubmed'

模型:'gcn','gcn_cheby','dense'

train.py代碼

程序中的數(shù)據(jù)集,有三個整理好的數(shù)據(jù)集:'cora','citeseer','pubmed'

utils.py代碼
utils.py代碼

我們自己的數(shù)據(jù)集,處理成這個模型可用的格式。

·N*N的鄰接矩陣? (N是圖節(jié)點的個數(shù))

·N*D的特征矩陣? (D是節(jié)點特征向量的維度)

·N*E?的分類標簽矩陣? (E是類別個數(shù))

詳細理解一下數(shù)據(jù):

ind.dataset_str.x文件?是train訓(xùn)練集實例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩陣存儲的。

ind.dataset_str.tx文件?是test測試集實例的特征向量,按scipy.sparse.csr.csr_matrix稀疏矩陣存儲的。

ind.dataset_str.allx文件?是所有(有標簽和無標簽)的train訓(xùn)練實例特征向量,按scipy.sparse.csr.csr_matrix稀疏矩陣存儲的。? (半監(jiān)督方法,一些標簽數(shù)據(jù),一些無標簽數(shù)據(jù))

ind.dataset_str.y文件?是train訓(xùn)練數(shù)據(jù)集的one-hot類型的標簽向量,按numpy.ndarray形式存儲的。

ind.dataset_str.ty文件?是test測試數(shù)據(jù)集的one-hot類型的標簽向量,按numpy.ndarray形式存儲的。

ind.dataset_str.ally文件?是所有有標簽數(shù)據(jù)的one-hot類型標簽向量,按numpy.ndarray形式存儲的。

ind.dataset_str.graph文件?是一個字典{index:[index_of_neighbor_nodes]}

ind.dataset_str.test.index文件?是測試數(shù)據(jù)集的index

以上數(shù)據(jù)都用pickle存儲。

讀取pickle數(shù)據(jù)顯示如下:

ind.cora.x數(shù)據(jù)? ?train訓(xùn)練數(shù)據(jù)
ind.cora.y數(shù)據(jù)? ?train數(shù)據(jù)集的標簽one-hot向量
ind.cora.tx數(shù)據(jù)? ? test測試數(shù)據(jù)
ind.cora.ty數(shù)據(jù)? ?test數(shù)據(jù)集的標簽one-hot向量??
ind.cora.allx數(shù)據(jù)? ? 所有(有標簽和無標簽)的train訓(xùn)練集?
ind.cora.ally數(shù)據(jù)? ??所有有標簽數(shù)據(jù)的one-hot類型標簽向量??
ind.cora.graph數(shù)據(jù)? ?字典

再理解load_data()函數(shù)

load_data()函數(shù)? 圖1
load_data()函數(shù)? 圖2
oad_data()函數(shù)? 圖3

GCN的實驗效果

這個框架還支持多個圖形實例(可能具有不同大小)的批量分類,每個實例具有一個鄰接矩陣。 最好連接各個特征矩陣并構(gòu)建(稀疏)塊對角矩陣,其中每個塊對應(yīng)于一個圖實例的鄰接矩陣。 對于池化(在圖形級輸出而不是節(jié)點級輸出的情況下),最好指定一個簡單的池化矩陣,該矩陣從各自的圖形實例中收集特征,如下所示:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容