圖數(shù)據(jù)庫應(yīng)用——金融反欺詐實踐

1 背景介紹

1.1 傳統(tǒng)反欺詐技術(shù)面臨挑戰(zhàn)

數(shù)字技術(shù)與金融業(yè)的融合發(fā)展,也伴隨著金融欺詐風(fēng)險不斷擴大,反欺詐形勢嚴(yán)峻。數(shù)字金融欺詐逐漸表現(xiàn)出專業(yè)化、產(chǎn)業(yè)化、隱蔽化、場景化的特征,同傳統(tǒng)的詐騙相比,數(shù)字金融詐騙往往是有組織,成規(guī)模的,他們分工明確、合作緊密、協(xié)同作案,形成一條完整的犯罪產(chǎn)業(yè)鏈。傳統(tǒng)反欺詐技術(shù)面臨的三大挑戰(zhàn):維度單一、效率低下、范圍受限。(引用自《數(shù)字金融反欺詐白皮書》)

1.2 圖數(shù)據(jù)庫技術(shù)應(yīng)運而生

面對復(fù)雜的大數(shù)據(jù),如何高效的從大規(guī)模數(shù)據(jù)中獲取有價值的信息,傳統(tǒng)技術(shù)面臨巨大挑戰(zhàn)。

圖數(shù)據(jù)庫這項新興技術(shù)正是反欺詐的一把利劍,基于圖數(shù)據(jù)庫技術(shù)構(gòu)建的關(guān)系圖譜可用于深度數(shù)據(jù)挖掘,包括:關(guān)系推理、關(guān)聯(lián)度檢測、集中度測量、語義分析、團(tuán)伙發(fā)現(xiàn)、可視化展示等。

本質(zhì)上反欺詐面臨的核心問題就是如何處理海量的用戶關(guān)聯(lián)關(guān)系。傳統(tǒng)關(guān)系型數(shù)據(jù)庫在處理海量關(guān)系上做得并不好,面對復(fù)雜關(guān)系網(wǎng)絡(luò)的處理存在如下問題:數(shù)據(jù)規(guī)模大難以存儲、計算效率低、關(guān)系建模難、維護(hù)性/易用性/擴展性差等。與傳統(tǒng)關(guān)系型數(shù)據(jù)庫不同的是,圖數(shù)據(jù)庫在處理關(guān)聯(lián)關(guān)系上具有天生的優(yōu)勢,這些問題都能很好的一一化解。根據(jù)DB-Engines報告,從最近十年的表現(xiàn)來看圖數(shù)據(jù)庫已經(jīng)成為關(guān)注度最高,發(fā)展趨勢最明顯的數(shù)據(jù)庫類型。

HugeGraph圖數(shù)據(jù)庫就是在這個需求背景下應(yīng)運而生的。

HugeGraph是百度安全面對反欺詐、威脅情報、黑產(chǎn)打擊等業(yè)務(wù)自研的一款圖數(shù)據(jù)庫。HugeGraph通過多維度的特征檢測(屬性特征、關(guān)系特征)、關(guān)聯(lián)度檢測、團(tuán)伙檢測等技術(shù)來識別欺詐風(fēng)險,提供了由點及面的反欺詐解決方案。

1.png

2 欺詐特征檢測

根據(jù)用戶的特征檢測分析,我們可以對其進(jìn)行風(fēng)險度評分,特征檢測主要包括如下幾方面:

2.1 屬性特征檢測

· 信用記錄(貸款、還款、逾期記錄等)
· 匹配電話黑名單(公檢法公開名單、數(shù)據(jù)聯(lián)盟不良名單)
· 匹配詐騙地理位置(如詐騙中介、代辦機構(gòu))
· 匹配代理服務(wù)器名單
· 檢測信息造假或隱瞞:如學(xué)歷、年齡、地址、公開簡歷、IP定位等。

2.2 關(guān)系特征檢測

· 大量賬戶同時擁有同一個手機號
· 大量用戶同時使用同一個手機或WiFi網(wǎng)絡(luò)
· 同一個賬號或設(shè)備在多平臺申請借貸
· 自相矛盾關(guān)系檢測,包括:用戶填寫的關(guān)系自相矛盾、用戶公司地址自相矛盾、通話記錄與職業(yè)自相矛盾等等
· 關(guān)系環(huán)路檢測(比如檢測是否有循環(huán)擔(dān)保)
· 多層關(guān)系高度聚集性檢測,比如大量賬號通過大量虛假設(shè)備接入同一個網(wǎng)絡(luò)

2.3 關(guān)聯(lián)度檢測

近朱者赤近墨者黑,通過用戶的關(guān)系網(wǎng)絡(luò)來檢測其與風(fēng)險節(jié)點的關(guān)聯(lián)度,可識別出其風(fēng)險程度并作為一個參考指標(biāo),比如某用戶3度關(guān)系之內(nèi)是否觸黑。這個過程我們稱之為關(guān)聯(lián)度檢測。

關(guān)聯(lián)度檢測的典型技術(shù)包括:

· 檢測用戶的多層社會關(guān)系是否符合正常的圖譜特征,比如若是孤立的子圖則可能是假造的關(guān)系網(wǎng)絡(luò),該用戶存在高風(fēng)險
· 檢測多層關(guān)系網(wǎng)絡(luò)中是否包含高風(fēng)險節(jié)點,比如二度觸黑
· 通過PersonalRank、PageRank等算法計算關(guān)系網(wǎng)絡(luò)中節(jié)點的風(fēng)險評分

其中高風(fēng)險節(jié)點包括黑/灰名單、高風(fēng)險評分節(jié)點等;關(guān)系網(wǎng)絡(luò)是指實體(用戶ID、賬戶、手機號、設(shè)備、地點)與各種關(guān)系(如通訊錄、通話記錄、轉(zhuǎn)賬交易、登錄地點)之間的相互關(guān)聯(lián)組成的網(wǎng)絡(luò)。

3 欺詐團(tuán)伙檢測

3.1 使用社區(qū)發(fā)現(xiàn)算法檢測欺詐團(tuán)伙

用戶的關(guān)聯(lián)關(guān)系是一個復(fù)雜的網(wǎng)絡(luò),對復(fù)雜網(wǎng)絡(luò)的研究一直是許多領(lǐng)域的研究熱點,其中社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)中的一個普遍特征,同一個社區(qū)內(nèi)的節(jié)點之間的連接緊密,而社區(qū)與社區(qū)之間的連接則比較稀疏。正如《數(shù)字金融反欺詐白皮書》所述,數(shù)字金融詐騙往往是有組織成規(guī)模的,如何找出這些組織本質(zhì)上就是從復(fù)雜網(wǎng)絡(luò)中找到一個一個的團(tuán)伙并加以分析。

MacHi 2020-03-23 14-17-10.png

檢測欺詐團(tuán)伙的算法我們稱之為社區(qū)發(fā)現(xiàn)算法(或者說社區(qū)聚類算法),社區(qū)發(fā)現(xiàn)是一個復(fù)雜而有意義的過程,近幾年來,分析復(fù)雜網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)得到了許多學(xué)者的關(guān)注,同時也出現(xiàn)了很多社區(qū)發(fā)現(xiàn)算法(如LPA、SCAN、Louvain等)。

在金融關(guān)系網(wǎng)絡(luò)里面往往社交屬性比較弱,大部分用戶的社交關(guān)系很稀疏,找到關(guān)系緊密的社區(qū)就是發(fā)現(xiàn)欺詐團(tuán)伙的關(guān)鍵,當(dāng)然并不是所有的團(tuán)伙都是欺詐團(tuán)伙,因此有必要根據(jù)一個閾值來進(jìn)行評判,比如根據(jù)前述欺詐特征檢測出來各成員的風(fēng)險評分,如果大于0.7分的用戶在某團(tuán)伙占比達(dá)到60%則判為欺詐團(tuán)伙。

HugeGraph圖數(shù)據(jù)庫目前提供了兩種社區(qū)發(fā)現(xiàn)算法:簡單高效的標(biāo)簽傳播算法LPA,以及基于模塊度優(yōu)化迭代算法Louvain。通過圖的社區(qū)發(fā)現(xiàn)算法將用戶劃分為一個一個的群體(我們稱之為團(tuán)伙),然后根據(jù)團(tuán)伙中各成員的風(fēng)險評分綜合計算整個團(tuán)伙的風(fēng)險程度,從而識別出高風(fēng)險的欺詐團(tuán)伙。

MacHi 2020-03-23 14-18-37.png

3.2 社區(qū)發(fā)現(xiàn)算法簡介

LPA 算法簡介

第一步:為所有節(jié)點指定一個唯一的標(biāo)簽;
第二步:逐輪刷新所有節(jié)點的標(biāo)簽,直到達(dá)到收斂要求為止。對于每一輪刷新,節(jié)點標(biāo)簽刷新的規(guī)則如下:對于某一個節(jié)點,考察其所有鄰居節(jié)點的標(biāo)簽,并進(jìn)行統(tǒng)計,將出現(xiàn)個數(shù)最多的那個標(biāo)簽賦給當(dāng)前節(jié)點。當(dāng)個數(shù)最多的標(biāo)簽不唯一時,隨機選一個。

Louvain 算法簡介

第一個階段:首先將每個節(jié)點指定到唯一的一個社區(qū),然后按順序?qū)⒐?jié)點在這些社區(qū)間進(jìn)行移動。分別嘗試將節(jié)點移動到相鄰節(jié)點所在的社區(qū),并計算相應(yīng)的模塊度變化值,哪個移動變化最大就將節(jié)點移動到相應(yīng)的社區(qū)中去。按照這個方法反復(fù)迭代,直到網(wǎng)絡(luò)中任何節(jié)點的移動都不能再改善總體模塊度值為止。

第二個階段:將第一個階段得到的社區(qū)視為新的“節(jié)點”(一個社區(qū)對應(yīng)一個),重新構(gòu)造子圖,兩個新“節(jié)點”之間邊的權(quán)值為相應(yīng)兩個社區(qū)之間各邊的權(quán)值的總和,原社區(qū)內(nèi)部邊的權(quán)值之和作為新“節(jié)點”的權(quán)值。簡單來說如果社區(qū)內(nèi)部權(quán)值越大、社區(qū)之間權(quán)值越小,那么總體模塊度就越大。

Louvain算法包含了一種層次結(jié)構(gòu),正如對一個學(xué)校的所有初中生進(jìn)行聚合一樣,首先我們可以將他們按照班級來聚合,進(jìn)一步還可以在此基礎(chǔ)上按照年級來聚合,兩次聚合都可以看做是一個社區(qū)發(fā)現(xiàn)結(jié)果,就看想要聚合到什么層次與程度。

社區(qū)發(fā)現(xiàn)算法總結(jié)

LPA算法優(yōu)勢是算法簡單,效率高;Louvain的優(yōu)勢是支持多層聚類,可以先把所有用戶劃分為小組,然后以小組為單位進(jìn)一步聚類,劃分為大組,以此類推,這樣可以發(fā)現(xiàn)更大或者更為隱蔽的詐騙團(tuán)伙。

未來,我們也將持續(xù)利用各種新技術(shù)、新手段、新模型,結(jié)合互聯(lián)網(wǎng)業(yè)務(wù)風(fēng)控場景的典型特征,探索更多行之有效的方法,應(yīng)用到金融反欺詐中,相信很快,圖數(shù)據(jù)庫技術(shù)會發(fā)揮出更大的價值。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 不久前,一家業(yè)界領(lǐng)先的機器學(xué)習(xí)公司告訴「甲子光年」:常有客戶帶著迫切的反欺詐需求主動找來,但是,我們不敢接。 難點...
    甲子光年閱讀 909評論 1 3
  • 一、項目背景 最近的新聞中都是用戶在看似正常的消費或取款后,發(fā)現(xiàn)自己的卡卻被盜刷了,這種現(xiàn)象就是欺詐交易。欺詐交易...
    Always_6778閱讀 4,001評論 0 6
  • 早上到指揮部辦公室,接到新區(qū)同事的電話,說是領(lǐng)導(dǎo)請我過去,檢查的人馬上到了。 磅礴大雨中騎毛驢到新區(qū)。 開始了悲催...
    做大王好多年閱讀 111評論 0 1
  • 你是人造的皮囊 十指長著鋒利的剪刀 你駭人的外表 恰恰是你的恐懼 孩子 回去你的城堡吧 外面的世界很復(fù)雜 在城堡里...
    青衫牧羊閱讀 266評論 0 4
  • 在喜馬拉雅有種大開眼界的感覺,各色主播,有唱播,書播,情感主播,風(fēng)格也各不相同,都在用自己的方式做著自己能做的。 ...
    西貝哈拿閱讀 178評論 0 0

友情鏈接更多精彩內(nèi)容