kaggle 比賽的基本流程
先對比賽的基本流程進(jìn)行簡述,然后再根據(jù)具體步驟進(jìn)行仔細(xì)學(xué)習(xí),順便把PUBG那個做了,數(shù)據(jù)分析和機(jī)器學(xué)習(xí)方面就算是不用再準(zhǔn)備別的比賽或者信息了(Challenge AI那個算CV的)。
1 Data Exploration
首先是要進(jìn)行EDA(Exploratory Data Analysis),對數(shù)據(jù)進(jìn)行探索性的分析,從而為之后的處理和建模提供分析。
1.1 Visualization
1.2 Statistical Tests
2 Data Preprocessing
2.1 Outlier
2.2 Dummy Variables
3 Feature Engineering
Kaggle 比賽是 “Feature 為主,調(diào)參和 Ensemble 為輔”,我覺得很有道理。Feature Engineering 能做到什么程度,取決于對數(shù)據(jù)領(lǐng)域的了解程度。比如在數(shù)據(jù)包含大量文本的比賽中,常用的 NLP 特征就是必須的。怎么構(gòu)造有用的 Feature,是一個不斷學(xué)習(xí)和提高的過程。
一般來說,當(dāng)一個變量從直覺上來說對所要完成的目標(biāo)有幫助,就可以將其作為 Feature。至于它是否有效,最簡單的方式就是通過圖表來直觀感受。