Task 1 賽題理解
比賽地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction
賽題背景
賽題以金融風(fēng)控中的個(gè)人信貸為背景,要求選手根據(jù)貸款申請(qǐng)人的數(shù)據(jù)信息預(yù)測(cè)其是否有違約的可能,以此判斷是否通過(guò)此項(xiàng)貸款,這是一個(gè)典型的分類問(wèn)題。
賽題以預(yù)測(cè)金融風(fēng)險(xiǎn)為任務(wù),數(shù)據(jù)集報(bào)名后可見并可下載,該數(shù)據(jù)來(lái)自某信貸平臺(tái)的貸款記錄,總數(shù)據(jù)量超過(guò)120w,包含47列變量信息,其中15列為匿名變量。為了保證比賽的公平性,將會(huì)從中抽取80萬(wàn)條作為訓(xùn)練集,20萬(wàn)條作為測(cè)試集A,20萬(wàn)條作為測(cè)試集B,同時(shí)會(huì)對(duì)employmentTitle、purpose、postCode和title等信息進(jìn)行脫敏。
通過(guò)這道賽題來(lái)引導(dǎo)大家了解金融風(fēng)控中的一些業(yè)務(wù)背景,解決實(shí)際問(wèn)題,幫助競(jìng)賽新人進(jìn)行自我練習(xí)、自我提高。
數(shù)據(jù)字典
以訓(xùn)練數(shù)據(jù)train.csv為例,了解各個(gè)數(shù)據(jù)特征的含義更有利于我們對(duì)數(shù)據(jù)形成宏觀認(rèn)識(shí),為接下來(lái)的特征分析和提取找到思路:
| 變量名 | 變量解釋 | |
|---|---|---|
| id | 為貸款清單分配的唯一信用證標(biāo)識(shí) | |
| loanAmnt | 貸款金額 | |
| term | 貸款期限(year) | |
| interestRate | 貸款利率 | |
| installment | 分期付款金額 | |
| grade | 貸款等級(jí) | |
| subGrade | 貸款等級(jí)之子級(jí) | |
| employmentTitle | 就業(yè)職稱 | |
| employmentLength | 就業(yè)年限(年) | |
| homeOwnership | 借款人在登記時(shí)提供的房屋所有權(quán)狀況 | |
| annualIncome | 年收入 | |
| verificationStatus | 驗(yàn)證狀態(tài) | |
| issueDate | 貸款發(fā)放的月份 | |
| purpose | 借款人在貸款申請(qǐng)時(shí)的貸款用途類別 | |
| postCode | 借款人在貸款申請(qǐng)中提供的郵政編碼的前3位數(shù)字 | |
| regionCode | 地區(qū)編碼 | |
| dti | 債務(wù)收入比 | |
| delinquency_2years | 借款人過(guò)去2年信用檔案中逾期30天以上的違約事件數(shù) | |
| ficoRangeLow | 借款人在貸款發(fā)放時(shí)的fico所屬的下限范圍 | |
| ficoRangeHigh | 借款人在貸款發(fā)放時(shí)的fico所屬的上限范圍 | |
| openAcc | 借款人信用檔案中未結(jié)信用額度的數(shù)量 | |
| pubRec | 貶損公共記錄的數(shù)量 | |
| pubRecBankruptcies | 公開記錄清除的數(shù)量 | |
| revolBal | 信貸周轉(zhuǎn)余額合計(jì) | |
| revolUtil | 循環(huán)額度利用率,或借款人使用的相對(duì)于所有可用循環(huán)信貸的信貸金額 | |
| totalAcc | 借款人信用檔案中當(dāng)前的信用額度總數(shù) | |
| initialListStatus | 貸款的初始列表狀態(tài) | |
| applicationType | 表明貸款是個(gè)人申請(qǐng)還是與兩個(gè)共同借款人的聯(lián)合申請(qǐng) | |
| earliesCreditLine | 借款人最早報(bào)告的信用額度開立的月份 | |
| title | 借款人提供的貸款名稱 | |
| policyCode | 公開可用的策略代碼=1新產(chǎn)品不公開可用的策略代碼=2 | |
| n系列匿名特征 | 匿名特征n0-n14,為一些貸款人行為計(jì)數(shù)特征的處理 |