国模福利在线观看,久久久免费精品推荐,日韩精品电影观看

一、項目背景

最近的新聞中都是用戶在看似正常的消費或取款后，發(fā)現自己的卡卻被盜刷了，這種現象就是欺詐交易。欺詐交易是存在于銀行、保險、證券等各行各業(yè)的危害現象，給人們經濟、生活帶來較大損失和威脅。作為世界難題，發(fā)達各國紛紛輔以了強大的信息化管理系統(tǒng),通過數據挖掘和人工智能輔助偵測、識別和評估欺詐交易，有效提高了反欺詐技術手段。

CRISP-DM，即跨行業(yè)數據挖掘標準流程（如下圖），是迄今為止最流行的數據挖據流程參考模型。圖中所示的各個大小節(jié)點之間的關聯會有循環(huán)和粗略不一，過程并不是重點，關鍵是數據挖掘的結果最終能嵌入到業(yè)務流程，以提升業(yè)務效率和效益。

CRISP-DM和SPSS自有開發(fā)的SPSS Modeler契合度非常好, 支持嚴格設計、半試驗研究、偏智能化的三大統(tǒng)計方法論,是全球最為出色的統(tǒng)計軟件之一.本次以SPSS Modeler18為建模工具，利用非真實的醫(yī)療保險業(yè)數據（投保人信息、醫(yī)療機構信息表、索賠信息表、醫(yī)療診斷與處理信息表）作為內部業(yè)務數據、非真實的小額貸款數據作為第三方客戶數據源，進行欺詐交易發(fā)現的數據挖掘建模和分析, 也相信于其他行業(yè)具有借鑒意義。

在CRISP-DM的商業(yè)理解階段，首先對企業(yè)進行擁有資源、需求、風險、成本收益的形勢評估，以便對數據挖掘目標的進行確定。

業(yè)務梳理的醫(yī)療保險欺詐風險分析如下：

1）國內醫(yī)療保險欺詐表現形式

主要有 : 冒名頂替 ( 即就醫(yī)資格作假) ; 病因作假 ( 將非醫(yī)保支付病種( 如車禍、工傷、打架斗毆、自殺等 ) 改成醫(yī)保支付病種); 夸大損失; 票據作假; 醫(yī)療文書作假; 住院床位作假( 即掛床住院 ) ; 編造虛假住院、門診特殊病等有關資料“騙?！?。

2）欺詐的主體

在“第三方付費 ”的制度下 ,醫(yī)務人員和被保險人可能合謀欺詐保險機構。

主要有三個角色：投保人、醫(yī)療機構、保險公司，發(fā)生欺詐的可能性來源有投保人、醫(yī)療機構。結合業(yè)務特征整理數據挖掘的目標和思路方向如下：

數據異常檢測；

對投保人進行分類研究，使用用戶畫像，并結合外部數據對已有和潛在的客戶進行欺詐評分預測；

對醫(yī)療機構信息的分類研究；

醫(yī)療索賠檢測。

聲明：鑒于篇幅，本篇概為總攬，對具體的思路、算法將在今后做專題。

二、數據與模型分析

2.1數據異常檢測

不少數據異常情況從業(yè)務邏輯來說是一件可以憑借經驗直接判斷的事情。比如某客戶的索賠頻率和額度在一段時間大量增加、投保人的支付金額和投保人醫(yī)療費用數據大小關系異常等，都可以視為疑似欺詐，相關過程不做技術展示了。

Benford定律和anomaly detection是審計、證券等行業(yè)運用比較廣泛的異常監(jiān)測方法。所謂異常檢測就是發(fā)現與大部分對象不同的對象，其實就是發(fā)現離群點。我們可以同時多種異常檢測方法來提升發(fā)現欺詐交易的命中率。Benford定律的是個有點趣的定律，揭示了海量數據中首位數字分布特征：數據的第一位數字數字越大，出現的頻率越低。通過聚類建模，以醫(yī)療機構編號、支付金額、索賠筆數等為輸入變量：

我們可以得出當索賠闕值大于50 、聚類的距離闕值大于0.2的機構疑似欺詐報告：“醫(yī)療保健機構編號:10083642887,醫(yī)療保健機構細類: psychology,醫(yī)療保健機構索賠索賠數量 58”和“醫(yī)療保健機構編號: 10085843968,醫(yī)療保健機構細類: med trans,醫(yī)療保健機構索賠索賠數量 71”。

為擴大異常數據搜索范圍，利用專門的異常檢測方法Anomaly建模：

得到如下表中異常偏離指數大于1.5、Anomaly標記為“T” 的疑似欺詐投保人名單：

通過查看模型的結果，表中也展示出導致該條記錄被視為異常值的3個最重要影響因子及影響指數，可以輕易看出包括DIAG診斷、Procedure處理過程、MEDcode醫(yī)療措施在內的因子是導致疑似欺詐的重要因素。

經過欺詐部門審核完畢,可以比較兩種算法的命中率。

2.2投保人的欺詐分析

包括：聚類遷移，欺詐評分，用戶畫像。

2.2.1客戶的聚類遷移

通常來說，在較短時間內，不論是機構還是個人的狀態(tài)、行為模式是較穩(wěn)定的，不會發(fā)生太大的變化。如果對投保人所做的聚類細分，在一年甚至半年內有客戶變換所在細分群組的話，可以提交疑似欺詐報告。聚類建模挑選幾個關鍵輸入變量（參考RFM模型），比如支付金額、支付筆數、保險條款分別對第一年和第二年進行聚類建模并作群組變換的標記，可以得到疑似欺詐名單。

在對客戶的聚類分析中，可以發(fā)現一些記錄數量很少的群組，在營銷活動中常常被忽略，但在欺詐發(fā)現中卻是值得引起注意的一個異常行為類群。

2.2.2欺詐評分：單分類器和集成學習（Ensemble Learning）

個人信用體系建設在發(fā)達國家已經非常成熟，眾所熟悉的銀行業(yè)就涉及到信用審批，額度確定，以及反欺詐等專業(yè)的應用。美國銀行業(yè)中每年八千億美元的刷卡量中僅造成一個億左右的損失，占總量的約0.02％，其成熟發(fā)展的數據挖掘技術成果斐然。

欺詐評分可以主要分三個步驟:變量轉換,生成logsitic回歸模型和評分轉化。樣本隨機地分成兩部分：一部分用于建立模型，另一部分用來對模型進行檢驗。變量的Bining(分箱)處理實際上對數據是有一定損失的，但出于以業(yè)務服務為出發(fā)點的需求，必須考慮到分箱變量對于業(yè)務人員來說更方便使用和理解。

輸入logistics回歸模型的是各個（分箱）變量的WOE值(weight of evidence) 。Woe值的計算公式：WOE=ln（好客戶占比/懷客戶占比）*100。

變量轉換包含以下步驟：

1）剔除冗余變量（相關系數較大的變量保留其一即可）;

2）對連續(xù)變量的Bining處理和離散變量的類別歸并處理；

3）IV值的計算和WOE值的計算，為提升預測能力，盡量篩選IV值大于等于0.02和小于等于0.05的變量。

上圖是變量轉換數據流的模型和輸出的一部分，可以看出第一次輸出表格，作為離散變量的信用卡數據還可以繼續(xù)計算其違約率進行轉換分類。

逐步法進行l(wèi)ogistic回歸建模后，還要利用統(tǒng)計方法對回歸系數進行評分轉化，評分轉化步驟涉及到一個量表編制的業(yè)務量化過程，暫不詳述。預測模型的檢驗可以用roc、k-s指標法等，評分卡檢驗需要反映出哪個分段是區(qū)分最大，選擇ks指標法：

一般，KS>0.2即可認為模型有比較好的預測準確性。

回歸是單分類器的基本常見算法之一，還可以用決策樹C5.0建模。

查看C5.0模型可以得到客戶發(fā)生欺詐的8條規(guī)則，根據這些規(guī)則可以了解發(fā)生欺詐交易之前的若干顯著特征，從而發(fā)現客戶的欺詐征兆，及早進行防范。在規(guī)則1中，可以看到年齡在27歲以下、持信用卡類型為“支票”、國籍是希臘、南斯拉夫的客戶是發(fā)生欺詐交易的高風險的客戶群之一。

單分類器雖然在過去廣泛運用，但存在明顯的不足。近些年來美國銀行業(yè)大量采用了樹形算法家族，目前接觸較多的集成學習主要有2種：基于Boosting的和基于Bagging，新近的還有梯度遞增樹算法。這些集成學習方法避免了變量間的相互依存性問題，而且預測分析能力也逐步增強，適用范圍廣，在反欺詐和其他一些領域被證明效果非常好，是我們專業(yè)人士關注的方向。

Boosting算法的主要思想是在T次迭代中，每次迭代對分類錯誤的樣本加大重采樣權重，使得在下一次的迭代中更加關注這些樣本。這樣訓練的多個弱分類器進行加權融合，產生一個最后的結果分類器，提高了該弱分類算法的準確率。我們使用boosting 設置50棵決策樹迭代：

建模及結果：

2.2.3用戶畫像

近年比較熱的用戶畫像，為的是公司追本溯源對客群有更多感性的認識，輔助市場部進行精準營銷，并利用內部數據和外部（第三方）數據建立起大規(guī)模的數據倉庫體系，成為公司的核心價值資源。用戶通常具有人口統(tǒng)計學，社會群體特征，金融業(yè)務特征、個人興趣愛好等等幾大標簽體系。通過對用戶畫像的研究，搭建客戶的各類標簽體系，可以幫助我們分分鐘認識客戶。

一般來說,銀行具有豐富的交易數據、個人屬性數據、消費數據、信用數據和客戶數據，用戶畫像的需求較大也實踐較早。目前很多社交興趣愛好等信息來自于第三方補充。保險行業(yè)的產品是一個長周期產品，保險客戶再次購買保險產品的轉化率很高,對用戶的畫像也會是一個必要的過程。

根據業(yè)務經驗和集成算法理論(當數據集較大時，可以分為不同的子集，分別進行訓練，然后再合成分類器)，像銀行業(yè)、電信業(yè)等大型公司的客戶數據，我們可以首先根據客戶價值(長尾理論)的高低分類，再分別對高價值客戶、中低價值客戶等建立可能不同類型的模型以實現更好的分類效果。針對每次不同而豐富的營銷業(yè)務需求，第一步先從龐大的客戶標簽體系中構建出的標簽特征子集，再通過進行LR（RANKING MODEL）等計算標簽影響因子，進行標簽的權重賦值，所得排名靠前的標簽就是此項業(yè)務人員所需了解的目標用戶的畫像了，同時也能較準確地為市場部提供相應的營銷客戶名單，大大提升業(yè)務效率。

假定開頭使用的anomaly數據異常檢測結果為真實，增加投保人信息表中的客戶屬性:“是/否發(fā)生欺詐”并按結果分別標記，使用k-Means建模并輸出各聚類群組的欺詐比例，查看得出結果報告：

從輸出結果中，對于欺詐比例較高的的聚類，我們可以重點考察他們的群組特征標簽，spss modeler中可以直接察看聚類特征的比較情況，得出聚類7的模型特征描述如下，實現了分分鐘便認識欺詐交易的陌生人。

2.3醫(yī)療機構的分類研究

醫(yī)療機構的分類研究同樣可以首先使用聚類遷移分析方法（同上投保人的聚類遷移法），國外的反欺詐技術已經深入結合到各機構的管理過程中了，并取得良好成效。

2.4醫(yī)療索賠的檢測

醫(yī)療服務過程在各機構的處理方式上，通過人工審查欺詐是一件比較有難度和成本的事情。結合臨床路徑的概念和經驗，借助數據挖掘技術建立模型，自動識別每一項特定醫(yī)療服務的系列特征，如防射療程、化療療程度等，是推動醫(yī)療保險業(yè)欺詐發(fā)現重大進展。國內也開始了更多深入的研究與應用。

三、總結

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

反欺詐數據挖掘技術在醫(yī)療保險業(yè)的應用

反欺詐數據挖掘技術在醫(yī)療保險業(yè)的應用

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

反欺詐數據挖掘技術在醫(yī)療保險業(yè)的應用

相關閱讀更多精彩內容

友情鏈接更多精彩內容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av