2019-01-15 賽用特征工程總結(jié)

#多看賽經(jīng),還有決賽答辯。

#參與練習賽

#EDA數(shù)據(jù)可視化探索

EDA最大的作用是發(fā)現(xiàn)一些異常數(shù)據(jù),并可以重新賦值。

其次是得到一些啟發(fā)。這個啟發(fā)很微妙因為并不知道會得到什么啟發(fā)。

#關(guān)于解決過擬合

1不要輕易對A榜提交csv做集成。不要玩火。

2 這個世界是存在一些特征工程,通過轉(zhuǎn)換差分target的方法,來增加數(shù)據(jù)來解決過擬合的。

3 不要迷信調(diào)參。大部分調(diào)參是無用的,少部分提升一點點的成績。關(guān)注數(shù)據(jù)和特征更加重要。手動調(diào)參和自動調(diào)參本質(zhì)上沒有區(qū)別。

4 大部分情況下,正則化都有用。

#如果某次比賽沒有拿到好名次。不一定是你的實力問題,還有可能是運氣問題。但是只要是比賽,細節(jié)性的東西一定要注意。你越細心,運氣越好。




賽經(jīng)搜集

#https://zhuanlan.zhihu.com/p/43691981

該文主要是以下觀點

把數(shù)據(jù)轉(zhuǎn)換成圖像

? ? 原始數(shù)據(jù)轉(zhuǎn)換成圖像,并把前n位像素作為特征。這是Kaggle競賽中出現(xiàn)的令人驚嘆的特征工程之一。

Meta-leaks

? 能發(fā)現(xiàn)數(shù)據(jù)泄漏的情況,代表數(shù)據(jù)探索分析做的好

表征學習特征

均值編碼

轉(zhuǎn)換目標變量

? ? 改變目標變量分布 log(1+目標)和? 轉(zhuǎn)回 predictions = np.exmp1(log_predictions)。

#https://jizhi.im/blog/post/kaggle_silver

git 上有ppt

四則運算


時間段特征

地理位置特征

? 聚類


文本特征

稀疏型特征

稀疏型特征
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容