P2P深度透視 OMNIRank 平臺(tái)風(fēng)險(xiǎn)量化

問(wèn)題背景##

互聯(lián)網(wǎng)金融2007年進(jìn)入國(guó)內(nèi),2013年得到了蓬勃的發(fā)展。與此同時(shí),也出現(xiàn)了很多問(wèn)題平臺(tái)諸如提現(xiàn)困難、老板跑路、停業(yè)等。截止2016年3月,在國(guó)內(nèi)近4000家P2P平臺(tái)中,問(wèn)題平臺(tái)比例已接近40%,投資者的資金難以得到保障。投資者希望知道自己的資金放在哪里最安全?投到哪個(gè)平臺(tái)最有安全保障?這正是我們產(chǎn)品要解決的核心問(wèn)題—客觀精確地對(duì)P2P平臺(tái)進(jìn)行風(fēng)險(xiǎn)量化。

P1.jpg

我們對(duì)出現(xiàn)問(wèn)題的P2P平臺(tái)做了分析,可能的原因歸結(jié)為兩條:

  1. 先天基因能力不足:如創(chuàng)始團(tuán)隊(duì)缺乏過(guò)硬技術(shù)與運(yùn)營(yíng)經(jīng)驗(yàn)、注冊(cè)資金過(guò)少難以承受突發(fā)危機(jī)等;
  2. 后天發(fā)展存在問(wèn)題:如過(guò)分抬高利率導(dǎo)致難以向投資者兌現(xiàn)、過(guò)度追求利潤(rùn)而忽視了風(fēng)險(xiǎn)控制等。
P2.jpg

根據(jù)以上的分析,我們選取以下四大類(lèi)的特征作為平臺(tái)風(fēng)險(xiǎn)的量化依據(jù),包括:靜態(tài)特征與動(dòng)態(tài)特征兩部分。其中靜態(tài)特征對(duì)應(yīng)于平臺(tái)先天基因,包括平臺(tái)的基本屬性,例如注冊(cè)資金、所在城市、擔(dān)保機(jī)構(gòu)等;動(dòng)態(tài)特征對(duì)應(yīng)于平臺(tái)的后天發(fā)展,包括平臺(tái)的各項(xiàng)指數(shù)、新聞?shì)浨?、用?hù)評(píng)論等信息。

P3.jpg

系統(tǒng)架構(gòu)##

下面是我們的系統(tǒng)架構(gòu),首先使用網(wǎng)絡(luò)爬蟲(chóng)獲取多源異構(gòu)數(shù)據(jù),解析得到結(jié)構(gòu)化數(shù)據(jù)。通過(guò)數(shù)據(jù)清洗將結(jié)構(gòu)化數(shù)據(jù)整理成我們的數(shù)據(jù)資產(chǎn)。在此基礎(chǔ)上我們使用文本處理、主題模型、知識(shí)圖譜、情感分析等技術(shù)分析數(shù)據(jù)資產(chǎn),挖掘其中的內(nèi)在規(guī)律。之后我們提出核心模型—OMNIRank,對(duì)各個(gè)P2P平臺(tái)進(jìn)行風(fēng)險(xiǎn)量化,形成知識(shí)供投資者決策。最后,我們將數(shù)據(jù)分析、模型量化的結(jié)果進(jìn)行可視化,為投資者提供友好的交互界面。

P4.jpg

數(shù)據(jù)源選擇##

為了全面獲取各個(gè)P2P平臺(tái)的信息,我們選擇了客觀的新聞門(mén)戶(hù)、主觀的民意評(píng)論、權(quán)威的網(wǎng)貸社區(qū)和平臺(tái)官方平臺(tái)網(wǎng)站作為數(shù)據(jù)源,從各個(gè)維度了解平臺(tái),為后續(xù)分析打下基礎(chǔ)。

P5.jpg

數(shù)據(jù)獲取##

我們基于Scrapy開(kāi)發(fā)了爬蟲(chóng)框架OMNISpider,它可以:

  1. 分布式可擴(kuò)展:集成Redis、Hadoop,部署于上海交通大學(xué)網(wǎng)絡(luò)信息中心,支持更多數(shù)據(jù)源的并發(fā)爬??;
  2. 靈活配置:通過(guò)修改配置文件即可添加新的任務(wù)或更新已有任務(wù),無(wú)需重構(gòu)代碼。

只需簡(jiǎn)單的配置,既可以通過(guò)調(diào)度、爬取、解析、存儲(chǔ)模塊在短時(shí)間內(nèi)爬取海量的多源異構(gòu)數(shù)據(jù)。

P6.jpg

數(shù)據(jù)清洗##

下圖是我們的數(shù)據(jù)清洗過(guò)程。我們對(duì)爬取的結(jié)構(gòu)化數(shù)據(jù)進(jìn)行了數(shù)據(jù)去重、空值處理、數(shù)據(jù)去噪、格式統(tǒng)一、對(duì)齊融合。

P7.jpg

數(shù)據(jù)資產(chǎn)##

經(jīng)過(guò)數(shù)據(jù)的清洗與融合,我們得到了數(shù)據(jù)資產(chǎn)。據(jù)不完全統(tǒng)計(jì),我們的數(shù)據(jù)資產(chǎn)包括27萬(wàn)余條新聞、8萬(wàn)多條P2P相關(guān)的微博和評(píng)論、3050家P2P平臺(tái)的基本信息、3年來(lái)各平臺(tái)指數(shù)月評(píng)級(jí)數(shù)據(jù)。為了持續(xù)地?cái)U(kuò)充數(shù)據(jù)資產(chǎn),我們把數(shù)據(jù)存放在Hadoop分布式文件系統(tǒng)(HDFS)中。

P8.jpg

數(shù)據(jù)分析##

在此基礎(chǔ)上,我們希望進(jìn)一步得到與平臺(tái)風(fēng)險(xiǎn)有關(guān)的信息。首先是文本處理,使用分詞技術(shù)對(duì)新聞文本、用戶(hù)評(píng)論文本等進(jìn)行分詞與詞性標(biāo)注,用Word2Vec技術(shù)將詞語(yǔ)訓(xùn)練為高維向量,從而更好地表示地詞語(yǔ)間的相互關(guān)系以及其中蘊(yùn)含的語(yǔ)義。

P9.jpg

在理解文本的基礎(chǔ)上,我們使用LDA模型對(duì)新聞進(jìn)行處理,生成5個(gè)主題,每個(gè)主題取權(quán)重前7的詞語(yǔ)作為關(guān)鍵詞。通過(guò)各個(gè)平臺(tái)在不同主題上的新聞分布規(guī)律和變化趨勢(shì),我們可以對(duì)平臺(tái)進(jìn)一步地理解,并了解整個(gè)行業(yè)的最新熱點(diǎn)。

P10.jpg

我們對(duì)語(yǔ)義信息、主題信息進(jìn)行整理,經(jīng)過(guò)命名實(shí)體識(shí)別、關(guān)系抽取、開(kāi)放域知識(shí)提取技術(shù),形成了一個(gè)包含1萬(wàn)多個(gè)結(jié)點(diǎn)的知識(shí)圖譜。為了提供更快的查詢(xún)服務(wù),我們將它存在圖數(shù)據(jù)庫(kù)中。投資者可以進(jìn)行知識(shí)探索,更加全面的了解各平臺(tái)、人員、職位、地理分布之間的聯(lián)系。

P11.jpg

為了更進(jìn)一步理解平臺(tái)口碑,我們對(duì)新聞以及用戶(hù)評(píng)論數(shù)據(jù)做情感分析,判斷出整個(gè)行業(yè),以及各個(gè)平臺(tái)的輿論傾向,并以天為粒度進(jìn)行統(tǒng)計(jì),便于投資者全面了解行業(yè),進(jìn)行投資決策。

P12.jpg

OMNIRank模型##

經(jīng)過(guò)以上數(shù)據(jù)資產(chǎn)的準(zhǔn)備及探索分析,我們提出我們的核心模型OMNIRank,一個(gè)對(duì)P2P平臺(tái)進(jìn)行風(fēng)險(xiǎn)量化,為投資者提供投資決策的模型。Google開(kāi)發(fā)了人工智能AlphaGo。它是一個(gè)會(huì)下圍棋的人工智能。它采用全局特征和局部特征結(jié)合的思想,主要方法是深度神經(jīng)網(wǎng)絡(luò)。

P13.jpg

OMNIRank是一個(gè)對(duì)P2P平臺(tái)風(fēng)險(xiǎn)量化的人工智能,它的本質(zhì)是一個(gè)深度神經(jīng)網(wǎng)絡(luò)。模型輸入5大類(lèi)共118個(gè)特征,包含全局的靜態(tài)特征、局部的動(dòng)態(tài)特征。結(jié)合各個(gè)特征特點(diǎn)及神經(jīng)網(wǎng)絡(luò)模型的優(yōu)勢(shì),我們?cè)O(shè)計(jì)了OMNIRank深度神經(jīng)網(wǎng)絡(luò):

  1. 使用多層神經(jīng)網(wǎng)絡(luò)(MLP)處理靜態(tài)平臺(tái)屬性特征;
  2. 使用長(zhǎng)短時(shí)記憶元(LSTM)處理動(dòng)態(tài)平臺(tái)指標(biāo)時(shí)間序列;
  3. 使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)處理新聞、評(píng)論文本數(shù)據(jù)。

就像AlphaGo可以進(jìn)行自我對(duì)弈一樣,OMNIRank可以通過(guò)反饋回路自我學(xué)習(xí),不斷提升模型的能力。

P14.jpg

下圖展示了OMNIRank模型對(duì)平臺(tái)風(fēng)險(xiǎn)量化的效果。我們?cè)诮肽甑臄?shù)據(jù)集上進(jìn)行了驗(yàn)證,使用兩個(gè)指標(biāo)對(duì)模型性能評(píng)估:準(zhǔn)確率和AUC值。其中準(zhǔn)確率表示模型把平臺(tái)分類(lèi)正確的比例;AUC是模型對(duì)正負(fù)樣本區(qū)分程度的量化評(píng)估。準(zhǔn)確率與AUC值越高,表示模型效果越好??梢钥吹?,半年來(lái),模型對(duì)平臺(tái)判斷的準(zhǔn)確率與AUC值呈上升趨勢(shì),并且在最近的一個(gè)月(2016年4月)的評(píng)估中,準(zhǔn)確率達(dá)0.85,AUC值達(dá)0.9以上。

P15.jpg

為了更直觀地呈現(xiàn)模型效果,我們展示了OMNIRank模型對(duì)正常平臺(tái)和問(wèn)題平臺(tái)的風(fēng)險(xiǎn)辨識(shí)。OMNIRank對(duì)一個(gè)平臺(tái)評(píng)分越高,表示這個(gè)平臺(tái)越可靠,風(fēng)險(xiǎn)越低。下圖是2016年4月對(duì)各個(gè)平臺(tái)的評(píng)分分布,正常平臺(tái)集中在1附近,問(wèn)題平臺(tái)集中在0附近,可見(jiàn)OMNIRank成功地將問(wèn)題平臺(tái)與正常平臺(tái)區(qū)分開(kāi)。

P16.jpg

我們將OMNIRank與其他機(jī)器學(xué)習(xí)算法,包括邏輯回歸(Logistic Regression)、隨機(jī)森林(Random Forest)、支持向量機(jī)(SVM)進(jìn)行了對(duì)比,對(duì)比結(jié)果如下圖所示。我們發(fā)現(xiàn),比起其他模型,OMNIRank可以更加顯著地區(qū)分正常平臺(tái)和問(wèn)題平臺(tái),它具有更強(qiáng)的能力識(shí)別出問(wèn)題平臺(tái)。因此OMNIRank對(duì)平臺(tái)風(fēng)險(xiǎn)的量化比傳統(tǒng)模型更加可靠。

P17.jpg

OMNIRank是如何幫助投資者選擇投資平臺(tái)的呢?我們每個(gè)月使用OMNIRank對(duì)平臺(tái)風(fēng)險(xiǎn)進(jìn)行量化預(yù)測(cè),并根據(jù)量化結(jié)果對(duì)平臺(tái)排名,排名越靠前表示該平臺(tái)下個(gè)月出現(xiàn)問(wèn)題的概率越低。之后計(jì)算在不同排名區(qū)間的平臺(tái),在下個(gè)月實(shí)際出問(wèn)題的比率。我們發(fā)現(xiàn),半年來(lái)排名前100的平臺(tái)沒(méi)有出現(xiàn)問(wèn)題,這給投資者提供了一個(gè)安全的投資區(qū)域。另外,區(qū)間越大,平臺(tái)的平均利率越高,但同時(shí)也伴隨著更高的風(fēng)險(xiǎn)。投資者可以根據(jù)自己的自身情況,平衡風(fēng)險(xiǎn)與收益,選擇最適合自己的平臺(tái)。

P18.jpg

數(shù)據(jù)可視化與交互##

我們?cè)O(shè)計(jì)了數(shù)據(jù)可視化與交互展示產(chǎn)品。通過(guò)這一產(chǎn)品,投資者既可以對(duì)整個(gè)行業(yè)的有所了解,又可以對(duì)每個(gè)平臺(tái)詳細(xì)研究,還可以進(jìn)行不同平臺(tái)之間多個(gè)維度的對(duì)比。此外,我們還專(zhuān)門(mén)為投資者設(shè)計(jì)了懶人選投功能,告訴我們您的需求,我們就會(huì)給您推薦合適的平臺(tái)。更豐富的產(chǎn)品信息,請(qǐng)?jiān)L問(wèn)我們的產(chǎn)品設(shè)計(jì)網(wǎng)站。

產(chǎn)品展示 : http://zhanghonglun.cn/ppd/

P19.jpg

開(kāi)源數(shù)據(jù)與代碼##

我們會(huì)開(kāi)放全部的工作,包括可視化代碼、OMNIRank模型代碼,清洗后的數(shù)據(jù),供大家參考、驗(yàn)證、改進(jìn),歡迎交流切磋。

P20.jpg

關(guān)于我們##

我們上海交通大學(xué)OMNILab的博士研究生,指導(dǎo)教師是金耀輝教授。

P21.jpg

玩數(shù)據(jù),我們是認(rèn)真的~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容