#多看賽經(jīng),還有決賽答辯。
#參與練習賽
#EDA數(shù)據(jù)可視化探索
EDA最大的作用是發(fā)現(xiàn)一些異常數(shù)據(jù),并可以重新賦值。
其次是得到一些啟發(fā)。這個啟發(fā)很微妙因為并不知道會得到什么啟發(fā)。
#關(guān)于解決過擬合
1不要輕易對A榜提交csv做集成。不要玩火。
2 這個世界是存在一些特征工程,通過轉(zhuǎn)換差分target的方法,來增加數(shù)據(jù)來解決過擬合的。
3 不要迷信調(diào)參。大部分調(diào)參是無用的,少部分提升一點點的成績。關(guān)注數(shù)據(jù)和特征更加重要。手動調(diào)參和自動調(diào)參本質(zhì)上沒有區(qū)別。
4 大部分情況下,正則化都有用。
#如果某次比賽沒有拿到好名次。不一定是你的實力問題,還有可能是運氣問題。但是只要是比賽,細節(jié)性的東西一定要注意。你越細心,運氣越好。
賽經(jīng)搜集
#https://zhuanlan.zhihu.com/p/43691981
該文主要是以下觀點
把數(shù)據(jù)轉(zhuǎn)換成圖像
? ? 原始數(shù)據(jù)轉(zhuǎn)換成圖像,并把前n位像素作為特征。這是Kaggle競賽中出現(xiàn)的令人驚嘆的特征工程之一。
Meta-leaks
? 能發(fā)現(xiàn)數(shù)據(jù)泄漏的情況,代表數(shù)據(jù)探索分析做的好
表征學習特征
均值編碼
轉(zhuǎn)換目標變量
? ? 改變目標變量分布 log(1+目標)和? 轉(zhuǎn)回 predictions = np.exmp1(log_predictions)。
#https://jizhi.im/blog/post/kaggle_silver
git 上有ppt


地理位置特征
? 聚類

稀疏型特征
