1 背景介紹
1.1 傳統(tǒng)反欺詐技術(shù)面臨挑戰(zhàn)
數(shù)字技術(shù)與金融業(yè)的融合發(fā)展,也伴隨著金融欺詐風(fēng)險不斷擴大,反欺詐形勢嚴(yán)峻。數(shù)字金融欺詐逐漸表現(xiàn)出專業(yè)化、產(chǎn)業(yè)化、隱蔽化、場景化的特征,同傳統(tǒng)的詐騙相比,數(shù)字金融詐騙往往是有組織,成規(guī)模的,他們分工明確、合作緊密、協(xié)同作案,形成一條完整的犯罪產(chǎn)業(yè)鏈。傳統(tǒng)反欺詐技術(shù)面臨的三大挑戰(zhàn):維度單一、效率低下、范圍受限。(引用自《數(shù)字金融反欺詐白皮書》)
1.2 圖數(shù)據(jù)庫技術(shù)應(yīng)運而生
面對復(fù)雜的大數(shù)據(jù),如何高效的從大規(guī)模數(shù)據(jù)中獲取有價值的信息,傳統(tǒng)技術(shù)面臨巨大挑戰(zhàn)。
圖數(shù)據(jù)庫這項新興技術(shù)正是反欺詐的一把利劍,基于圖數(shù)據(jù)庫技術(shù)構(gòu)建的關(guān)系圖譜可用于深度數(shù)據(jù)挖掘,包括:關(guān)系推理、關(guān)聯(lián)度檢測、集中度測量、語義分析、團(tuán)伙發(fā)現(xiàn)、可視化展示等。
本質(zhì)上反欺詐面臨的核心問題就是如何處理海量的用戶關(guān)聯(lián)關(guān)系。傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理海量關(guān)系上做得并不好,面對復(fù)雜關(guān)系網(wǎng)絡(luò)的處理存在如下問題:數(shù)據(jù)規(guī)模大難以存儲、計算效率低、關(guān)系建模難、維護(hù)性/易用性/擴展性差等。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫不同的是,圖數(shù)據(jù)庫在處理關(guān)聯(lián)關(guān)系上具有天生的優(yōu)勢,這些問題都能很好的一一化解。根據(jù)DB-Engines報告,從最近十年的表現(xiàn)來看圖數(shù)據(jù)庫已經(jīng)成為關(guān)注度最高,發(fā)展趨勢最明顯的數(shù)據(jù)庫類型。
HugeGraph圖數(shù)據(jù)庫就是在這個需求背景下應(yīng)運而生的。
HugeGraph是百度安全面對反欺詐、威脅情報、黑產(chǎn)打擊等業(yè)務(wù)自研的一款圖數(shù)據(jù)庫。HugeGraph通過多維度的特征檢測(屬性特征、關(guān)系特征)、關(guān)聯(lián)度檢測、團(tuán)伙檢測等技術(shù)來識別欺詐風(fēng)險,提供了由點及面的反欺詐解決方案。

2 欺詐特征檢測
根據(jù)用戶的特征檢測分析,我們可以對其進(jìn)行風(fēng)險度評分,特征檢測主要包括如下幾方面:
2.1 屬性特征檢測
· 信用記錄(貸款、還款、逾期記錄等)
· 匹配電話黑名單(公檢法公開名單、數(shù)據(jù)聯(lián)盟不良名單)
· 匹配詐騙地理位置(如詐騙中介、代辦機構(gòu))
· 匹配代理服務(wù)器名單
· 檢測信息造假或隱瞞:如學(xué)歷、年齡、地址、公開簡歷、IP定位等。
2.2 關(guān)系特征檢測
· 大量賬戶同時擁有同一個手機號
· 大量用戶同時使用同一個手機或WiFi網(wǎng)絡(luò)
· 同一個賬號或設(shè)備在多平臺申請借貸
· 自相矛盾關(guān)系檢測,包括:用戶填寫的關(guān)系自相矛盾、用戶公司地址自相矛盾、通話記錄與職業(yè)自相矛盾等等
· 關(guān)系環(huán)路檢測(比如檢測是否有循環(huán)擔(dān)保)
· 多層關(guān)系高度聚集性檢測,比如大量賬號通過大量虛假設(shè)備接入同一個網(wǎng)絡(luò)
2.3 關(guān)聯(lián)度檢測
近朱者赤近墨者黑,通過用戶的關(guān)系網(wǎng)絡(luò)來檢測其與風(fēng)險節(jié)點的關(guān)聯(lián)度,可識別出其風(fēng)險程度并作為一個參考指標(biāo),比如某用戶3度關(guān)系之內(nèi)是否觸黑。這個過程我們稱之為關(guān)聯(lián)度檢測。
關(guān)聯(lián)度檢測的典型技術(shù)包括:
· 檢測用戶的多層社會關(guān)系是否符合正常的圖譜特征,比如若是孤立的子圖則可能是假造的關(guān)系網(wǎng)絡(luò),該用戶存在高風(fēng)險
· 檢測多層關(guān)系網(wǎng)絡(luò)中是否包含高風(fēng)險節(jié)點,比如二度觸黑
· 通過PersonalRank、PageRank等算法計算關(guān)系網(wǎng)絡(luò)中節(jié)點的風(fēng)險評分
其中高風(fēng)險節(jié)點包括黑/灰名單、高風(fēng)險評分節(jié)點等;關(guān)系網(wǎng)絡(luò)是指實體(用戶ID、賬戶、手機號、設(shè)備、地點)與各種關(guān)系(如通訊錄、通話記錄、轉(zhuǎn)賬交易、登錄地點)之間的相互關(guān)聯(lián)組成的網(wǎng)絡(luò)。
3 欺詐團(tuán)伙檢測
3.1 使用社區(qū)發(fā)現(xiàn)算法檢測欺詐團(tuán)伙
用戶的關(guān)聯(lián)關(guān)系是一個復(fù)雜的網(wǎng)絡(luò),對復(fù)雜網(wǎng)絡(luò)的研究一直是許多領(lǐng)域的研究熱點,其中社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)中的一個普遍特征,同一個社區(qū)內(nèi)的節(jié)點之間的連接緊密,而社區(qū)與社區(qū)之間的連接則比較稀疏。正如《數(shù)字金融反欺詐白皮書》所述,數(shù)字金融詐騙往往是有組織成規(guī)模的,如何找出這些組織本質(zhì)上就是從復(fù)雜網(wǎng)絡(luò)中找到一個一個的團(tuán)伙并加以分析。

檢測欺詐團(tuán)伙的算法我們稱之為社區(qū)發(fā)現(xiàn)算法(或者說社區(qū)聚類算法),社區(qū)發(fā)現(xiàn)是一個復(fù)雜而有意義的過程,近幾年來,分析復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)得到了許多學(xué)者的關(guān)注,同時也出現(xiàn)了很多社區(qū)發(fā)現(xiàn)算法(如LPA、SCAN、Louvain等)。
在金融關(guān)系網(wǎng)絡(luò)里面往往社交屬性比較弱,大部分用戶的社交關(guān)系很稀疏,找到關(guān)系緊密的社區(qū)就是發(fā)現(xiàn)欺詐團(tuán)伙的關(guān)鍵,當(dāng)然并不是所有的團(tuán)伙都是欺詐團(tuán)伙,因此有必要根據(jù)一個閾值來進(jìn)行評判,比如根據(jù)前述欺詐特征檢測出來各成員的風(fēng)險評分,如果大于0.7分的用戶在某團(tuán)伙占比達(dá)到60%則判為欺詐團(tuán)伙。
HugeGraph圖數(shù)據(jù)庫目前提供了兩種社區(qū)發(fā)現(xiàn)算法:簡單高效的標(biāo)簽傳播算法LPA,以及基于模塊度優(yōu)化迭代算法Louvain。通過圖的社區(qū)發(fā)現(xiàn)算法將用戶劃分為一個一個的群體(我們稱之為團(tuán)伙),然后根據(jù)團(tuán)伙中各成員的風(fēng)險評分綜合計算整個團(tuán)伙的風(fēng)險程度,從而識別出高風(fēng)險的欺詐團(tuán)伙。

3.2 社區(qū)發(fā)現(xiàn)算法簡介
LPA 算法簡介
第一步:為所有節(jié)點指定一個唯一的標(biāo)簽;
第二步:逐輪刷新所有節(jié)點的標(biāo)簽,直到達(dá)到收斂要求為止。對于每一輪刷新,節(jié)點標(biāo)簽刷新的規(guī)則如下:對于某一個節(jié)點,考察其所有鄰居節(jié)點的標(biāo)簽,并進(jìn)行統(tǒng)計,將出現(xiàn)個數(shù)最多的那個標(biāo)簽賦給當(dāng)前節(jié)點。當(dāng)個數(shù)最多的標(biāo)簽不唯一時,隨機選一個。
Louvain 算法簡介
第一個階段:首先將每個節(jié)點指定到唯一的一個社區(qū),然后按順序?qū)⒐?jié)點在這些社區(qū)間進(jìn)行移動。分別嘗試將節(jié)點移動到相鄰節(jié)點所在的社區(qū),并計算相應(yīng)的模塊度變化值,哪個移動變化最大就將節(jié)點移動到相應(yīng)的社區(qū)中去。按照這個方法反復(fù)迭代,直到網(wǎng)絡(luò)中任何節(jié)點的移動都不能再改善總體模塊度值為止。
第二個階段:將第一個階段得到的社區(qū)視為新的“節(jié)點”(一個社區(qū)對應(yīng)一個),重新構(gòu)造子圖,兩個新“節(jié)點”之間邊的權(quán)值為相應(yīng)兩個社區(qū)之間各邊的權(quán)值的總和,原社區(qū)內(nèi)部邊的權(quán)值之和作為新“節(jié)點”的權(quán)值。簡單來說如果社區(qū)內(nèi)部權(quán)值越大、社區(qū)之間權(quán)值越小,那么總體模塊度就越大。
Louvain算法包含了一種層次結(jié)構(gòu),正如對一個學(xué)校的所有初中生進(jìn)行聚合一樣,首先我們可以將他們按照班級來聚合,進(jìn)一步還可以在此基礎(chǔ)上按照年級來聚合,兩次聚合都可以看做是一個社區(qū)發(fā)現(xiàn)結(jié)果,就看想要聚合到什么層次與程度。
社區(qū)發(fā)現(xiàn)算法總結(jié)
LPA算法優(yōu)勢是算法簡單,效率高;Louvain的優(yōu)勢是支持多層聚類,可以先把所有用戶劃分為小組,然后以小組為單位進(jìn)一步聚類,劃分為大組,以此類推,這樣可以發(fā)現(xiàn)更大或者更為隱蔽的詐騙團(tuán)伙。
未來,我們也將持續(xù)利用各種新技術(shù)、新手段、新模型,結(jié)合互聯(lián)網(wǎng)業(yè)務(wù)風(fēng)控場景的典型特征,探索更多行之有效的方法,應(yīng)用到金融反欺詐中,相信很快,圖數(shù)據(jù)庫技術(shù)會發(fā)揮出更大的價值。