網(wǎng)絡(luò)數(shù)據(jù)統(tǒng)計(jì)分析筆記|| 為什么研究網(wǎng)絡(luò)

前情回顧:
Gephi網(wǎng)絡(luò)圖極簡(jiǎn)教程
Network在單細(xì)胞轉(zhuǎn)錄組數(shù)據(jù)分析中的應(yīng)用

我研究網(wǎng)絡(luò)是因?yàn)轫?xiàng)目需要,在2018年的時(shí)候,有個(gè)可視化項(xiàng)目需要做網(wǎng)絡(luò)圖,于是就在某購書網(wǎng)上搜:


這本書買來后,大致 瀏覽了一番,確實(shí)對(duì)網(wǎng)絡(luò)分析的基本概念有了系統(tǒng)的感知。感謝作者為我們提供了一個(gè)鑰匙,打開網(wǎng)絡(luò)分析的大門。

Eric D. Kolaczyk是波士頓大學(xué)數(shù)學(xué)與統(tǒng)計(jì)系的統(tǒng)計(jì)學(xué)教授與統(tǒng)計(jì)學(xué)項(xiàng)目負(fù)責(zé)人,同時(shí)是生物信息學(xué)項(xiàng)目、系統(tǒng)工程方向以及計(jì)算神經(jīng)科學(xué)項(xiàng)目的教職人員。他撰寫的以網(wǎng)絡(luò)為主題的著作不僅發(fā)展了統(tǒng)計(jì)學(xué)的方法與理論,還涵蓋了探測(cè)計(jì)算機(jī)網(wǎng)絡(luò)上的匿名流量模式,預(yù)測(cè)蛋白質(zhì)相互作用網(wǎng)絡(luò)中的生物功能,以及刻畫社會(huì)網(wǎng)絡(luò)中行動(dòng)者群體影響等應(yīng)用性的工作。他是美國統(tǒng)計(jì)協(xié)會(huì)(American Statistical Association,簡(jiǎn)稱ASA)會(huì)士,也是電氣和電子工程師協(xié)會(huì)(Institute of Electrical and Electronics Engineers,簡(jiǎn)稱IEEE)高級(jí)會(huì)員。

那個(gè)項(xiàng)目最后產(chǎn)生的就是Gephi網(wǎng)絡(luò)圖極簡(jiǎn)教程。自那以后,這本書基本在吃灰,前幾日讀李霞老師《生物信息學(xué)》教材,第十二章《生物分子網(wǎng)絡(luò)》勾起那段記憶,打算二刷。故建立了這個(gè)文集,在這里把書中的 代碼跑一邊,一些概念再加深一下:

  • 作為在線筆記方便查閱
    +作為公開筆記希望遇見你

凡事都要問個(gè),為什么,值得嗎?

要回答這個(gè)問題,不得不問一下兩個(gè)問題:

  • 什么是網(wǎng)絡(luò)?
  • 網(wǎng)絡(luò)值得我們花時(shí)間嗎?

歸結(jié)到底,我們?yōu)槭裁匆芯烤W(wǎng)絡(luò)?

網(wǎng)絡(luò)是描述和建模復(fù)雜系統(tǒng)的通用語言。網(wǎng)絡(luò)是我們熟悉的概念,講的是集合中元素之間的關(guān)系。在數(shù)據(jù)分析中也是用來描述元素屬性的關(guān)系,隨著大數(shù)據(jù)的發(fā)展,各行各業(yè)的數(shù)據(jù)積累越來越多,不管是數(shù)據(jù)量還是數(shù)據(jù)類型不斷增加,而網(wǎng)絡(luò)是一種描述多元數(shù)據(jù)的有力工具??梢哉f,研究網(wǎng)絡(luò)讓我們更加逼近真實(shí)世界。在生物信息學(xué)中有生物分子網(wǎng)絡(luò)(Biological molecular network),它之所以作為文章的figM,不僅僅因?yàn)榛ㄉ凇?/p>

當(dāng)描述系統(tǒng)中的元素及其相互連接的概念是,網(wǎng)(network)的形象是一種自然的選擇。在歷史上,網(wǎng)絡(luò)的正式研究一般追溯到1735年歐拉對(duì)七橋問題的研究,在數(shù)學(xué)上經(jīng)常用圖(graph)來形象化地表示網(wǎng)絡(luò)。所以這兩個(gè)概念有時(shí)候會(huì)互換使用,在我們的文章中也不做過多地強(qiáng)調(diào),根據(jù)語境我們可以理解,不至于把graph理解成picture。

網(wǎng)絡(luò)作為一種數(shù)據(jù)結(jié)構(gòu),在計(jì)算生物學(xué),工程學(xué),金融,營銷,公共衛(wèi)生等領(lǐng)域均有用武之地。隨著高通量數(shù)據(jù)搜集、存儲(chǔ)和管理的設(shè)備健全,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)作為數(shù)據(jù)科學(xué)的一個(gè)分支反映了一個(gè)面向復(fù)雜系統(tǒng)的研究范式,即面向系統(tǒng)發(fā)展而非還原論視角。

那么,網(wǎng)絡(luò)數(shù)據(jù)科學(xué)主要可以做什么呢?

  • 網(wǎng)絡(luò)可視化與特征化
  • 建模與推斷
  • 網(wǎng)絡(luò)過程

網(wǎng)絡(luò)可視化與特征化的主要工作是把網(wǎng)絡(luò)中的節(jié)點(diǎn)與連線的屬性與實(shí)際的科學(xué)領(lǐng)域聯(lián)系到一起,構(gòu)建基于網(wǎng)絡(luò)的描述體系,如:子圖,加權(quán),傳遞性,同配性,聚類系數(shù),小世界等。建模與推斷主要應(yīng)用統(tǒng)計(jì)模型來探索網(wǎng)絡(luò)的形成,布局,基于隨機(jī)圖的統(tǒng)計(jì)推斷等。 網(wǎng)絡(luò)過程旨在描述一個(gè)以節(jié)點(diǎn)為索引的、正在進(jìn)行的隨機(jī)過程。就像人與人之間的關(guān)系一樣,網(wǎng)絡(luò)中的元素不是靜止的,而是各種關(guān)系的總和,

接下來,為什么要用R進(jìn)行網(wǎng)絡(luò)分析?

降低學(xué)習(xí)曲線。

可以進(jìn)行網(wǎng)絡(luò)分析的工具有很多,R中igraph包、Python 中的Networkx構(gòu)建并實(shí)現(xiàn)出圖。當(dāng)然,除此之外,還有一些非命令行的軟件,例如cytoscape,gephi,pajek,graphviz(dot),Ucinet等。用R因?yàn)楸容^容易入門,相對(duì)于python版本更新沒有那么頻繁,很多教程還可以參考學(xué)習(xí)。

我們跟著《網(wǎng)絡(luò)數(shù)據(jù)的統(tǒng)計(jì)分析:R語言實(shí)戰(zhàn)》這本書來入門網(wǎng)絡(luò)數(shù)據(jù)分析,書的作者希望你是需要網(wǎng)絡(luò)分析的科研人員或者感興趣的本科生。本書并沒有太多的理論知識(shí),更偏向?qū)嵅俸蛻?yīng)用。本書是想在概念與技術(shù)背景以及軟件使用之間找到一種平衡。

本書的示例代碼打包為sand(R包),可以安裝使用,也可以在github中下載下代碼,本地調(diào)試。

這一切,都是為了你能夠盡快入門。

R 4.0.2

在寫作的過程中發(fā)現(xiàn)這本書有不少人在寫筆記,看來,這真的是一門網(wǎng)絡(luò)圖入門的書籍呀。
https://zhuanlan.zhihu.com/p/146230302

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容