一、問(wèn)題準(zhǔn)備
需要做出的決策和解決的問(wèn)題
1、特定業(yè)務(wù)重點(diǎn)(過(guò)退,風(fēng)險(xiǎn),動(dòng)支。。。)確定好壞客戶的標(biāo)簽定義
2、確定計(jì)劃的評(píng)分卡范圍、開(kāi)發(fā)、實(shí)施的窗口
解釋:
3、獲取的數(shù)據(jù)范圍和來(lái)源,確保能夠獲取到數(shù)據(jù),內(nèi)部,外部
可能不同的業(yè)務(wù)場(chǎng)景能獲取到的數(shù)據(jù)不同,有些場(chǎng)景存在缺失
4、項(xiàng)目管理計(jì)劃 時(shí)間、資源、人員
二、數(shù)據(jù)獲取與整合
取得數(shù)據(jù)項(xiàng),并且將其整合為適合進(jìn)一步數(shù)據(jù)準(zhǔn)備的形式
通常,數(shù)據(jù)表中的每一行代表一個(gè)賬戶
這是評(píng)分卡開(kāi)發(fā)的首要任務(wù)
1、原始變量:
易于理解,可能不是最有效
2、衍生業(yè)務(wù)指標(biāo):
來(lái)源于原始變量,有明確業(yè)務(wù)含義,可能比原始變量更有效
3、分析變量:
原始數(shù)據(jù)進(jìn)行轉(zhuǎn)換和加工計(jì)算生成具有較高預(yù)測(cè)能力的變量
缺少簡(jiǎn)單或清晰的含義
建模視圖包含以下變量:
1、記錄標(biāo)識(shí):唯一的符號(hào)或者識(shí)別變量
2、候選自變量:所有可能被用于預(yù)測(cè)模型中預(yù)測(cè)變量的字段,包括原始變量,衍生業(yè)務(wù)指標(biāo),分析變量
3、描述變量:包含其他字段取值的標(biāo)識(shí)或描述的字段(將復(fù)雜的離散數(shù)據(jù)提取轉(zhuǎn)換成簡(jiǎn)單的)
4、報(bào)告變量:并不直接用建模,但是用于作報(bào)告
(動(dòng)支金額,逾期金額之類的,輔助判斷模型的好壞)
5、標(biāo)簽狀態(tài)字段:好壞客戶
自變量包含如下三種類型:
1、分類變量,之間沒(méi)有順序和數(shù)量關(guān)系,這些值不能進(jìn)行數(shù)學(xué)運(yùn)算;性別,居住地...
2、順序變量,在類別中定義了順序的概念;等級(jí) 1,2,。。。
3、連續(xù)變量,取值表示真實(shí)數(shù)量規(guī)模的真正指標(biāo)
數(shù)據(jù)來(lái)源
1、人口統(tǒng)計(jì)特征: 客戶基本屬性
2、征信數(shù)據(jù),外部評(píng)分
3、交易記錄 :某個(gè)時(shí)間窗口的頻率和匯總值
4、其他產(chǎn)品的使用情況
建模窗口、實(shí)施窗口
數(shù)據(jù)校準(zhǔn)