一、項目背景
最近的新聞中都是用戶在看似正常的消費或取款后,發(fā)現自己的卡卻被盜刷了,這種現象就是欺詐交易。欺詐交易是存在于銀行、保險、證券等各行各業(yè)的危害現象,給人們經濟、生活帶來較大損失和威脅。作為世界難題,發(fā)達各國紛紛輔以了強大的信息化管理系統(tǒng),通過數據挖掘和人工智能輔助偵測、識別和評估欺詐交易,有效提高了反欺詐技術手段。
CRISP-DM,即跨行業(yè)數據挖掘標準流程(如下圖),是迄今為止最流行的數據挖據流程參考模型。圖中所示的各個大小節(jié)點之間的關聯會有循環(huán)和粗略不一,過程并不是重點,關鍵是數據挖掘的結果最終能嵌入到業(yè)務流程,以提升業(yè)務效率和效益。

CRISP-DM和SPSS自有開發(fā)的SPSS Modeler契合度非常好, 支持嚴格設計、半試驗研究、偏智能化的三大統(tǒng)計方法論,是全球最為出色的統(tǒng)計軟件之一.本次以SPSS Modeler18為建模工具,利用非真實的醫(yī)療保險業(yè)數據(投保人信息、醫(yī)療機構信息表、索賠信息表、醫(yī)療診斷與處理信息表)作為內部業(yè)務數據、非真實的小額貸款數據作為第三方客戶數據源,進行欺詐交易發(fā)現的數據挖掘建模和分析, 也相信于其他行業(yè)具有借鑒意義。
在CRISP-DM的商業(yè)理解階段,首先對企業(yè)進行擁有資源、需求、風險、成本收益的形勢評估,以便對數據挖掘目標的進行確定。
業(yè)務梳理的醫(yī)療保險欺詐風險分析如下:
1)國內醫(yī)療保險欺詐表現形式
主要有 : 冒名頂替 ( 即就醫(yī)資格作假) ; 病因作假 ( 將非醫(yī)保支付病種( 如車禍 、工傷、打架斗毆、自殺等 ) 改成醫(yī)保支付病種); 夸大損失; 票據作假; 醫(yī)療文書作假; 住院床位作假( 即掛床住院 ) ; 編造虛假住院、門診特殊病等有關資料“騙?!?。
2)欺詐的主體
在“第三方付費 ”的制度下 ,醫(yī)務人員和被保險人可能合謀欺詐保險機構。
主要有三個角色:投保人、醫(yī)療機構、保險公司,發(fā)生欺詐的可能性來源有投保人、醫(yī)療機構。結合業(yè)務特征整理數據挖掘的目標和思路方向如下:
數據異常檢測;
對投保人進行分類研究,使用用戶畫像,并結合外部數據對已有和潛在的客戶進行欺詐評分預測;
對醫(yī)療機構信息的分類研究;
醫(yī)療索賠檢測。
聲明:鑒于篇幅,本篇概為總攬,對具體的思路、算法將在今后做專題。
二、數據與模型分析
2.1數據異常檢測
不少數據異常情況從業(yè)務邏輯來說是一件可以憑借經驗直接判斷的事情。比如某客戶的索賠頻率和額度在一段時間大量增加、投保人的支付金額和投保人醫(yī)療費用數據大小關系異常等,都可以視為疑似欺詐,相關過程不做技術展示了。
Benford定律和anomaly detection是審計、證券等行業(yè)運用比較廣泛的異常監(jiān)測方法。所謂異常檢測就是發(fā)現與大部分對象不同的對象,其實就是發(fā)現離群點。我們可以同時多種異常檢測方法來提升發(fā)現欺詐交易的命中率。Benford定律的是個有點趣的定律,揭示了海量數據中首位數字分布特征:數據的第一位數字數字越大,出現的頻率越低。通過聚類建模,以醫(yī)療機構編號、支付金額、索賠筆數等為輸入變量:


我們可以得出當索賠闕值大于50 、聚類的距離闕值大于0.2的機構疑似欺詐報告:“醫(yī)療保健機構編號:10083642887,醫(yī)療保健機構細類: psychology,醫(yī)療保健機構索賠索賠數量 58”和“醫(yī)療保健機構編號: 10085843968,醫(yī)療保健機構細類: med trans,醫(yī)療保健機構索賠索賠數量 71”。
為擴大異常數據搜索范圍,利用專門的異常檢測方法Anomaly建模:


得到如下表中異常偏離指數大于1.5、Anomaly標記為“T” 的疑似欺詐投保人名單:


通過查看模型的結果,表中也展示出導致該條記錄被視為異常值的3個最重要影響因子及影響指數,可以輕易看出包括DIAG診斷、Procedure處理過程、MEDcode醫(yī)療措施在內的因子是導致疑似欺詐的重要因素。
經過欺詐部門審核完畢,可以比較兩種算法的命中率。
2.2投保人的欺詐分析
包括:聚類遷移,欺詐評分,用戶畫像。
2.2.1客戶的聚類遷移
通常來說,在較短時間內,不論是機構還是個人的狀態(tài)、行為模式是較穩(wěn)定的,不會發(fā)生太大的變化。如果對投保人所做的聚類細分,在一年甚至半年內有客戶變換所在細分群組的話,可以提交疑似欺詐報告。聚類建模挑選幾個關鍵輸入變量(參考RFM模型),比如支付金額、支付筆數、保險條款分別對第一年和第二年進行聚類建模并作群組變換的標記,可以得到疑似欺詐名單。
在對客戶的聚類分析中,可以發(fā)現一些記錄數量很少的群組,在營銷活動中常常被忽略,但在欺詐發(fā)現中卻是值得引起注意的一個異常行為類群。
2.2.2欺詐評分:單分類器和集成學習(Ensemble Learning)
個人信用體系建設在發(fā)達國家已經非常成熟,眾所熟悉的銀行業(yè)就涉及到信用審批,額度確定,以及反欺詐等專業(yè)的應用。 美國銀行業(yè)中每年八千億美元的刷卡量中僅造成一個億左右的損失,占總量的約0.02%,其成熟發(fā)展的數據挖掘技術成果斐然。
欺詐評分可以主要分三個步驟:變量轉換,生成logsitic回歸模型和評分轉化。樣本隨機地分成兩部分:一部分用于建立模型,另一部分用來對模型進行檢驗。變量的Bining(分箱)處理實際上對數據是有一定損失的,但出于以業(yè)務服務為出發(fā)點的需求,必須考慮到分箱變量對于業(yè)務人員來說更方便使用和理解。
輸入logistics回歸模型的是各個(分箱)變量的WOE值(weight of evidence) 。Woe值的計算公式:WOE=ln(好客戶占比/懷客戶占比)*100。
變量轉換包含以下步驟:
1)剔除冗余變量(相關系數較大的變量保留其一即可);
2)對連續(xù)變量的Bining處理和離散變量的類別歸并處理;
3)IV值的計算和WOE值的計算,為提升預測能力,盡量篩選IV值大于等于0.02和小于等于0.05的變量。

上圖是變量轉換數據流的模型和輸出的一部分,可以看出第一次輸出表格,作為離散變量的信用卡數據還可以繼續(xù)計算其違約率進行轉換分類。

逐步法進行l(wèi)ogistic回歸建模后,還要利用統(tǒng)計方法對回歸系數進行評分轉化,評分轉化步驟涉及到一個量表編制的業(yè)務量化過程,暫不詳述。預測模型的檢驗可以用roc、k-s指標法等,評分卡檢驗需要反映出哪個分段是區(qū)分最大,選擇ks指標法:


一般,KS>0.2即可認為模型有比較好的預測準確性。
回歸是單分類器的基本常見算法之一,還可以用決策樹C5.0建模。

查看C5.0模型可以得到客戶發(fā)生欺詐的8條規(guī)則,根據這些規(guī)則可以了解發(fā)生欺詐交易之前的若干顯著特征,從而發(fā)現客戶的欺詐征兆,及早進行防范。在規(guī)則1中,可以看到年齡在27歲以下、持信用卡類型為“支票”、國籍是希臘、南斯拉夫的客戶是發(fā)生欺詐交易的高風險的客戶群之一。
單分類器雖然在過去廣泛運用,但存在明顯的不足。近些年來美國銀行業(yè)大量采用了樹形算法家族,目前接觸較多的集成學習主要有2種:基于Boosting的和基于Bagging,新近的還有梯度遞增樹算法。這些集成學習方法避免了變量間的相互依存性問題,而且預測分析能力也逐步增強,適用范圍廣,在反欺詐和其他一些領域被證明效果非常好,是我們專業(yè)人士關注的方向。
Boosting算法的主要思想是在T次迭代中,每次迭代對分類錯誤的樣本加大重采樣權重,使得在下一次的迭代中更加關注這些樣本。這樣訓練的多個弱分類器進行加權融合,產生一個最后的結果分類器,提高了該弱分類算法的準確率。我們使用boosting 設置50棵決策樹迭代:

建模及結果:

2.2.3用戶畫像
近年比較熱的用戶畫像,為的是公司追本溯源對客群有更多感性的認識,輔助市場部進行精準營銷,并利用內部數據和外部(第三方)數據建立起大規(guī)模的數據倉庫體系,成為公司的核心價值資源。用戶通常具有人口統(tǒng)計學,社會群體特征,金融業(yè)務特征、個人興趣愛好等等幾大標簽體系。通過對用戶畫像的研究,搭建客戶的各類標簽體系,可以幫助我們分分鐘認識客戶。

一般來說,銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據,用戶畫像的需求較大也實踐較早。目前很多社交興趣愛好等信息來自于第三方補充。保險行業(yè)的產品是一個長周期產品,保險客戶再次購買保險產品的轉化率很高,對用戶的畫像也會是一個必要的過程。
根據業(yè)務經驗和集成算法理論(當數據集較大時,可以分為不同的子集,分別進行訓練,然后再合成分類器),像銀行業(yè)、電信業(yè)等大型公司的客戶數據,我們可以首先根據客戶價值(長尾理論)的高低分類,再分別對高價值客戶、中低價值客戶等建立可能不同類型的模型以實現更好的分類效果。針對每次不同而豐富的營銷業(yè)務需求,第一步先從龐大的客戶標簽體系中構建出的標簽特征子集,再通過進行LR(RANKING MODEL)等計算標簽影響因子,進行標簽的權重賦值,所得排名靠前的標簽就是此項業(yè)務人員所需了解的目標用戶的畫像了,同時也能較準確地為市場部提供相應的營銷客戶名單,大大提升業(yè)務效率。
假定開頭使用的anomaly數據異常檢測結果為真實,增加投保人信息表中的客戶屬性:“是/否發(fā)生欺詐”并按結果分別標記,使用k-Means建模并輸出各聚類群組的欺詐比例,查看得出結果報告:

從輸出結果中,對于欺詐比例較高的的聚類,我們可以重點考察他們的群組特征標簽,spss modeler中可以直接察看聚類特征的比較情況,得出聚類7的模型特征描述如下,實現了分分鐘便認識欺詐交易的陌生人。

2.3醫(yī)療機構的分類研究
醫(yī)療機構的分類研究同樣可以首先使用聚類遷移分析方法(同上投保人的聚類遷移法),國外的反欺詐技術已經深入結合到各機構的管理過程中了,并取得良好成效。
2.4醫(yī)療索賠的檢測
醫(yī)療服務過程在各機構的處理方式上,通過人工審查欺詐是一件比較有難度和成本的事情。結合臨床路徑的概念和經驗,借助數據挖掘技術建立模型,自動識別每一項特定醫(yī)療服務的系列特征,如防射療程、化療療程度等,是推動醫(yī)療保險業(yè)欺詐發(fā)現重大進展。國內也開始了更多深入的研究與應用。
三、總結
