人妻久久久一区二区,曰韩特黄九区,亚洲Av奶水

不同來源的異構(gòu)數(shù)據(jù)間存在著千絲萬縷的關(guān)聯(lián)，這種數(shù)據(jù)之間隱藏的關(guān)聯(lián)關(guān)系和網(wǎng)絡(luò)結(jié)構(gòu)特性對于數(shù)據(jù)分析至關(guān)重要，圖計算就是以圖作為數(shù)據(jù)模型來表達(dá)問題并予以解決的過程。

圖計算實踐

一、背景

隨著網(wǎng)絡(luò)信息技術(shù)的飛速發(fā)展，數(shù)據(jù)逐漸向多源異構(gòu)化方向發(fā)展，且不同來源的異構(gòu)數(shù)據(jù)之間也存在的千絲萬縷的關(guān)聯(lián)，這種數(shù)據(jù)之間隱藏的關(guān)聯(lián)關(guān)系和網(wǎng)絡(luò)結(jié)構(gòu)特性對于數(shù)據(jù)分析至關(guān)重要。但傳統(tǒng)關(guān)系型數(shù)據(jù)庫在分析大規(guī)模數(shù)據(jù)關(guān)聯(lián)特性時存在性能缺陷、表達(dá)有限等問題，因此有著更強(qiáng)大表達(dá)能力的圖數(shù)據(jù)受到業(yè)界極大重視，圖計算就是以圖作為數(shù)據(jù)模型來表達(dá)問題并予以解決的過程。圖可以融合多源多類型的數(shù)據(jù)，除了可以展示數(shù)據(jù)靜態(tài)基礎(chǔ)特性之外，還可通過圖計算展示隱藏在數(shù)據(jù)之間的圖結(jié)構(gòu)特性和點對關(guān)聯(lián)關(guān)系，成為社交網(wǎng)絡(luò)、推薦系統(tǒng)、知識圖譜、金融風(fēng)控、網(wǎng)絡(luò)安全、文本檢索等領(lǐng)域重要的分析手段。

二、算法應(yīng)用

為了支撐大規(guī)模圖計算的業(yè)務(wù)需求，Nebula Graph 基于 GraphX 提供了 PageRank 和 Louvain 社區(qū)發(fā)現(xiàn)的圖計算算法，允許用戶通過提交 Spark 任務(wù)的形式執(zhí)行算法應(yīng)用。此外，用戶也可以通過 Spark Connector 編寫 Spark 程序調(diào)用 GraphX 自帶的其他圖算法，如 LabelPropagation、ConnectedComponent 等。

PageRank

PageRank 是谷歌提出的用于解決鏈接分析中網(wǎng)頁排名問題的算法，目的是為了對互聯(lián)網(wǎng)中數(shù)以億計的網(wǎng)頁進(jìn)行排名。

PageRank 簡介

美國斯坦福大學(xué)的 Larry Page 和 Sergey Brin 在研究網(wǎng)頁排序問題時采用學(xué)術(shù)界評判論文重要性的方法，即看論文的引用量以及引用該論文的論文質(zhì)量，對應(yīng)于網(wǎng)頁的重要性有兩個假設(shè)：

數(shù)量假設(shè)：如果一個網(wǎng)頁 A 被很多其他網(wǎng)頁鏈接到，則該網(wǎng)頁比較重要；
質(zhì)量假設(shè)：如果一個很重要的網(wǎng)頁鏈接到網(wǎng)頁 A，則該網(wǎng)頁的重要性會被提高。

并基于這兩個假設(shè)提出 PageRank 算法。

PageRank 應(yīng)用場景

社交應(yīng)用的相似度內(nèi)容推薦

在對微博、微信等社交平臺進(jìn)行社交網(wǎng)絡(luò)分析時，可以基于 PageRank 算法根據(jù)用戶通常瀏覽的信息以及停留時間實現(xiàn)基于用戶的相似度的內(nèi)容推薦；

分析用戶社交影響力

在社交網(wǎng)絡(luò)分析時根據(jù)用戶的 PageRank 值進(jìn)行用戶影響力分析；

文獻(xiàn)重要性研究

根據(jù)文獻(xiàn)的 PageRank 值評判該文獻(xiàn)的質(zhì)量，PageRank 算法就是基于評判文獻(xiàn)質(zhì)量的想法來實現(xiàn)設(shè)計。

此外 PageRank 在數(shù)據(jù)分析和挖掘中也有很多的應(yīng)用。

算法思路

GraphX 的 PageRank 算法是基于 Pregel 計算模型的，該算法流程包括 3 步驟：

為圖中每個節(jié)點（網(wǎng)頁）設(shè)置一個同樣的初始 PageRank 值；
第一次迭代：沿邊發(fā)送消息，每個節(jié)點收到所有關(guān)聯(lián)邊上對點的信息，得到一個新的 PageRank 值；
第二次迭代：用這組新的 PageRank 按不同算法模式對應(yīng)的公式形成節(jié)點自己新的 PageRank。

Louvain 社區(qū)發(fā)現(xiàn)

Louvain 是用來進(jìn)行社會網(wǎng)絡(luò)挖掘的社區(qū)發(fā)現(xiàn)算法，屬于圖的聚類算法。

Louvain 算法介紹

Louvain 是基于模塊度（Modularity）的社區(qū)發(fā)現(xiàn)算法，通過模塊度來衡量一個社區(qū)的緊密程度。如果一個節(jié)點加入到某一社區(qū)中會使得該社區(qū)的模塊度相比其他社區(qū)有最大程度的增加，則該節(jié)點就應(yīng)當(dāng)屬于該社區(qū)。如果加入其它社區(qū)后沒有使其模塊度增加，則留在自己當(dāng)前社區(qū)中。

模塊度

模塊度公式

模塊度 Q 的物理意義：社區(qū)內(nèi)節(jié)點的連邊數(shù)與隨機(jī)情況下的邊數(shù)之差，定義函數(shù)如下：

image

其中

image

：節(jié)點 i 和節(jié)點 j 之間邊的權(quán)重

image

：所有與節(jié)點 i 相連的邊的權(quán)重之和

image

：節(jié)點 i 所屬的社區(qū)

image

：圖中所有邊的權(quán)重之和

模塊度公式變形

在此公式中，只有節(jié)點 i 和節(jié)點 j 屬于同一社區(qū)，公式才有意義，所以該公式是衡量的某一社區(qū)內(nèi)的緊密度。對于該公式的簡化變形如下：

image

表示：社區(qū) c 內(nèi)的邊的權(quán)重之和

image

表示：所有與社區(qū) c 內(nèi)節(jié)點相連的邊的權(quán)重之和（因為 i 屬于社區(qū) c）包括社區(qū)內(nèi)節(jié)點與節(jié)點 i 的邊和社區(qū)外節(jié)點與節(jié)點 i 的邊。

image

表示：所有與社區(qū) c 內(nèi)節(jié)點相連的邊的權(quán)重之和（因為 j 屬于社區(qū) c）包括社區(qū)內(nèi)節(jié)點與節(jié)點 j 的邊和社區(qū)外節(jié)點與節(jié)點 j 的邊。

image

代替

image

和

image

。（即社區(qū) c 內(nèi)邊權(quán)重和 + 社區(qū) c 與其他社區(qū)連邊的權(quán)重和）

求解模塊度變化

在 Louvain 算法中不需要求每個社區(qū)具體的模塊度，只需要比較社區(qū)中加入某個節(jié)點之后的模塊度變化，所以需要求解 △Q。

將節(jié)點 i 分配到某一社區(qū)中，社區(qū)的模塊度變化為：

image

其中

image

：社區(qū)內(nèi)所有節(jié)點與節(jié)點 i 連邊權(quán)重之和（對應(yīng)新社區(qū)的實際內(nèi)部權(quán)重和乘以 2，因為

image

對于社區(qū)內(nèi)所有的頂點 i，每條邊其實被計算了兩次）

image

：所有與節(jié)點 i 相連的邊的權(quán)重之和
故實現(xiàn)算法時只需求

image

即可。

Louvain 應(yīng)用場景

金融風(fēng)控

在金融風(fēng)控場景中，可以根據(jù)用戶行為特征進(jìn)行團(tuán)伙識別；

社交網(wǎng)絡(luò)

可以基于網(wǎng)絡(luò)關(guān)系中點對之間關(guān)聯(lián)的廣度和強(qiáng)度進(jìn)行社交網(wǎng)絡(luò)劃分；對復(fù)雜網(wǎng)絡(luò)分析、電話網(wǎng)絡(luò)分析人群之間的聯(lián)系密切度；

推薦系統(tǒng)

基于用戶興趣愛好的社區(qū)發(fā)現(xiàn)，可以根據(jù)社區(qū)并結(jié)合協(xié)同過濾等推薦算法進(jìn)行更精確有效的個性化推薦。

Louvain 算法思路

Louvain 算法包括兩個階段，其流程就是這兩個階段的迭代過程。

階段一：不斷地遍歷網(wǎng)絡(luò)圖中的節(jié)點，通過比較節(jié)點給每個鄰居社區(qū)帶來的模塊度的變化，將單個節(jié)點加入到能夠使 Modularity 模塊度有最大增量的社區(qū)中。
（比如節(jié)點 v 分別加入到社區(qū) A、B、C 中，使得三個社區(qū)的模塊度增量為-1， 1， 2，則節(jié)點 v 最終應(yīng)該加入到社區(qū) C 中）

階段二：對第一階段進(jìn)行處理，將屬于同一社區(qū)的頂點合并為一個大的超點重新構(gòu)造網(wǎng)絡(luò)圖，即一個社區(qū)作為圖的一個新的節(jié)點。此時兩個超點之間邊的權(quán)重是兩個超點內(nèi)所有原始頂點之間相連的邊權(quán)重之和，即兩個社區(qū)之間的邊權(quán)重之和。

下面是對第一二階段的實例介紹。

Louvain 社區(qū)算法

第一階段遍歷圖中節(jié)點加入到其所屬社區(qū)中，得到中間的圖，形成四個社區(qū)；

第二節(jié)點對社區(qū)內(nèi)的節(jié)點進(jìn)行合并成一個超級節(jié)點，社區(qū)節(jié)點有自連邊，其權(quán)重為社區(qū)內(nèi)部所有節(jié)點間相連的邊的權(quán)重之和的 2 倍，社區(qū)之間的邊為兩個社區(qū)間頂點跨社區(qū)相連的邊的權(quán)重之和，如紅色社區(qū)和淺綠色社區(qū)之間通過（8,11）、（10，11）、（10,13）相連，所以兩個社區(qū)之間邊的權(quán)重為 3。

注：社區(qū)內(nèi)的權(quán)重為所有內(nèi)部結(jié)點之間邊權(quán)重的兩倍，因為 Kin 的概念是社區(qū)內(nèi)所有節(jié)點與節(jié)點 i 的連邊和，在計算某一社區(qū)的 Kin 時，實際上每條邊都被其兩端的頂點計算了一次，一共被計算了兩次。

整個 Louvain 算法就是不斷迭代第一階段和第二階段，直到算法穩(wěn)定（圖的模塊度不再變化）或者到達(dá)最大迭代次數(shù)。

三、算法實踐

演示環(huán)境

三臺虛擬機(jī)，環(huán)境如下：
- Cpu name：Intel(R) Xeon(R) Platinum 8260M CPU @ 2.30GHz
- Processors：32
- CPU Cores：16
- Memory Size：128G
軟件環(huán)境
- Spark：spark-2.4.6-bin-hadoop2.7 三個節(jié)點集群
- yarn V2.10.0：三個節(jié)點集群
- Nebula Graph V1.1.0：分布式部署，默認(rèn)配置

測試數(shù)據(jù)

創(chuàng)建圖空間

CREATE SPACE algoTest(partition_num=100, replica_factor=1);

創(chuàng)建點邊 Schema

CREATE TAG PERSON()
CREATE EDGE FRIEND(likeness double);

導(dǎo)入數(shù)據(jù)

利用 Exchange 工具將數(shù)據(jù)離線導(dǎo)入 Nebula Graph。

測試結(jié)果

Spark 任務(wù)的資源分配為 --driver-memory=20G --executor-memory=100G --executor-cores=3

PageRank 在一億數(shù)據(jù)集上的執(zhí)行時間為 21min（PageRank 算法執(zhí)行時間）
Louvain 在一億數(shù)據(jù)集上的執(zhí)行時間為 1.3h（Reader + Louvain 算法執(zhí)行時間）

如何使用 Nebula Graph 的算法

下載 nebula-algorithm 項目并打成 jar 包

$ git clone git@github.com:vesoft-inc/nebula-java.git
$ cd nebula-java/tools/nebula-algorithm
$ mvn package -DskipTests

配置項目中的 src/main/resources/application.conf

{
  # Spark relation config
  spark: {
    app: {
        # not required, default name is the algorithm that you are going to execute.
        name: PageRank

        # not required
        partitionNum: 12
    }

    master: local

    # not required
    conf: {
        driver-memory: 8g
        executor-memory: 8g
        executor-cores: 1g
        cores-max:6
    }
  }

  # Nebula Graph relation config
  nebula: {
    # metadata server address
    addresses: "127.0.0.1:45500"
    user: root
    pswd: nebula
    space: algoTest
    # partition specified while creating nebula space, if you didn't specified the partition, then it's 100.
    partitionNumber: 100
    # nebula edge type
    labels: ["FRIEND"]

    hasWeight: true
    # if hasWeight is true，then weightCols is required， and weghtCols' order must be corresponding with labels.
    # Noted: the graph algorithm only supports isomorphic graphs,
    #        so the data type of each col in weightCols must be consistent and all numeric types.
    weightCols: [“l(fā)ikeness”]
  }

  algorithm: {
    # the algorithm that you are going to execute，pick one from [pagerank, louvain]
    executeAlgo: louvain
    # algorithm result path
    path: /tmp

    # pagerank parameter
    pagerank: {
        maxIter: 20
        resetProb: 0.15  # default 0.15

    }

    # louvain parameter
    louvain: {
        maxIter: 20
        internalIter: 10
        tol: 0.5
   }
  }
}

確保用戶環(huán)境已安裝 Spark 并啟動 Spark 服務(wù)
提交 nebula-algorithm 應(yīng)用程序：

spark-submit --master xxx --class com.vesoft.nebula.tools.algorithm.Main /your-jar-path/nebula-algorithm-1.0.1.jar -p /your-application.conf-path/application.conf

如果你對上述內(nèi)容感興趣，歡迎用 nebula-algorithm 試試^^

References

Nebula Graph：https://github.com/vesoft-inc/nebula
GraphX：https://github.com/apache/spark/tree/master/graphx
Spark-connector：https://github.com/vesoft-inc/nebula-java/tree/master/tools/nebula-spark
Exchange：https://github.com/vesoft-inc/nebula-java/blob/master/doc/tools/exchange/ex-ug-toc.md
nebula-algorithm：https://github.com/vesoft-inc/nebula-java/tree/master/tools/nebula-algorithm

作者有話說：Hi，我是安祺，Nebula Graph 研發(fā)工程師，如果你對本文有任何疑問，歡迎來論壇和我交流：https://discuss.nebula-graph.com.cn/

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

GraphX 在圖數(shù)據(jù)庫 Nebula Graph 的圖計算實踐

GraphX 在圖數(shù)據(jù)庫 Nebula Graph 的圖計算實踐

一、背景

二、算法應(yīng)用

PageRank

PageRank 簡介

PageRank 應(yīng)用場景

社交應(yīng)用的相似度內(nèi)容推薦

分析用戶社交影響力

文獻(xiàn)重要性研究

算法思路

Louvain 社區(qū)發(fā)現(xiàn)

Louvain 算法介紹

模塊度

Louvain 應(yīng)用場景

Louvain 算法思路

三、算法實踐

演示環(huán)境

測試數(shù)據(jù)

如何使用 Nebula Graph 的算法

References

推薦閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

GraphX 在圖數(shù)據(jù)庫 Nebula Graph 的圖計算實踐

一、背景

二、算法應(yīng)用

PageRank

PageRank 簡介

PageRank 應(yīng)用場景

社交應(yīng)用的相似度內(nèi)容推薦

分析用戶社交影響力

文獻(xiàn)重要性研究

算法思路

Louvain 社區(qū)發(fā)現(xiàn)

Louvain 算法介紹

模塊度

Louvain 應(yīng)用場景

Louvain 算法思路

三、算法實踐

演示環(huán)境

測試數(shù)據(jù)

如何使用 Nebula Graph 的算法

References

推薦閱讀

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

一、背景

二、算法應(yīng)用

三、算法實踐