Kaggle過程概要

kaggle 比賽的基本流程

先對比賽的基本流程進(jìn)行簡述,然后再根據(jù)具體步驟進(jìn)行仔細(xì)學(xué)習(xí),順便把PUBG那個做了,數(shù)據(jù)分析和機(jī)器學(xué)習(xí)方面就算是不用再準(zhǔn)備別的比賽或者信息了(Challenge AI那個算CV的)。

1 Data Exploration

首先是要進(jìn)行EDA(Exploratory Data Analysis),對數(shù)據(jù)進(jìn)行探索性的分析,從而為之后的處理和建模提供分析。

1.1 Visualization

1.2 Statistical Tests

2 Data Preprocessing

2.1 Outlier

2.2 Dummy Variables

3 Feature Engineering

Kaggle 比賽是 “Feature 為主,調(diào)參和 Ensemble 為輔”,我覺得很有道理。Feature Engineering 能做到什么程度,取決于對數(shù)據(jù)領(lǐng)域的了解程度。比如在數(shù)據(jù)包含大量文本的比賽中,常用的 NLP 特征就是必須的。怎么構(gòu)造有用的 Feature,是一個不斷學(xué)習(xí)和提高的過程。

一般來說,當(dāng)一個變量從直覺上來說對所要完成的目標(biāo)有幫助,就可以將其作為 Feature。至于它是否有效,最簡單的方式就是通過圖表來直觀感受。

3.1 Feature Selection

3.2 Feature Encoding

4 Model Selection

4.1 Model Training

4.2 Cross Validation

5. Ensemble Generation

5.1 Stacking

6 Pipeline

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • [TOC] About Trs 只是閱讀過程中對其中一些進(jìn)行注腳而已,更確切的內(nèi)容還是英文原文來的清晰,有些翻譯反...
    mrlevo520閱讀 1,320評論 0 0
  • 今日有幾事 1,寶寶只是病了一天,但是感覺自己一直沒調(diào)整過精神,一直犯困中。中午沒有吃飯,和寶寶兩個人一直睡。我到...
    大果果ly閱讀 229評論 0 0
  • 失眠,將黑夜揉碎成幾段, 一段給了回憶, 記不起最后一次的單純在何時, 或許那時只是傻傻, 身影向后退卻變得依稀,...
    阿伊蘭香閱讀 275評論 0 2
  • 傳統(tǒng)的二十四節(jié)氣,我們大多已經(jīng)是知其然而不知其所以然了。記得小時候?qū)τ诙墓?jié)氣的唯一印象就是我們需要背一個...
    漩月閱讀 1,023評論 7 0
  • 昨天的開發(fā)者大會中,一個參會者問了一下圓桌會議上所有嘉賓一個問題: 如果用兩個詞兩總結(jié)一下你的2017,你會用哪兩...
    黑土錢閱讀 189評論 0 0

友情鏈接更多精彩內(nèi)容