Kaggle是全球最大的數(shù)據(jù)分析在線平臺,吸引了全球范圍內(nèi)數(shù)十萬的頂級數(shù)據(jù)科學(xué)家,同時也是檢測我們機器學(xué)習(xí)技能的最佳平臺。
一、Kaggle簡介
Kaggle成立于2010年,網(wǎng)址:https://www.kaggle.com/。
這里寫圖片描述
Kaggle是全球范圍內(nèi)最大的數(shù)據(jù)眾包平臺。
企業(yè)或者研究者與Kaggle合作之后,可以將數(shù)據(jù)、問題描述、期望的指標(biāo)發(fā)布到Kaggle上,以競賽的形式向廣大的數(shù)據(jù)科學(xué)家征集解決方案,類似于KDD-CUP(國際知識發(fā)現(xiàn)和數(shù)據(jù)挖掘競賽)。
Kaggle上的參賽者將數(shù)據(jù)下載下來,分析數(shù)據(jù),然后運用機器學(xué)習(xí)、數(shù)據(jù)挖掘等知識,建立算法模型,解決問題得出結(jié)果,最后將結(jié)果提交,如果提交的結(jié)果符合指標(biāo)要求并且在參賽者中排名第一,將獲得比賽豐厚的獎金。
二、參加Kaggle比賽的基本流程
1.選擇一個比賽項目
這里寫圖片描述
2.加入競賽,理解項目需求“Competition Details”
這里寫圖片描述
3.下載數(shù)據(jù),訓(xùn)練模型,得出結(jié)果“Get the Data”
這里寫圖片描述
4.提交結(jié)果“Make a submission”
這里寫圖片描述
三、解題思路
“模仿是最好的學(xué)習(xí)方式!”
這里為大家推薦幾篇非常好的文章,里面手把手的教了大家入門級的三個經(jīng)典練習(xí)項目,供大家學(xué)習(xí)。
1.Titanic(泰坦尼克之災(zāi))
中文教程: 邏輯回歸應(yīng)用之Kaggle泰坦尼克之災(zāi)
英文教程:An Interactive Data Science Tutorial
2.House Prices: Advanced Regression Techniques(房價預(yù)測)
中文教程:Kaggle競賽 — 2017年房價預(yù)測
英文教程:How to get to TOP 25% with Simple Model using sklearn
3.Digital Recognition(數(shù)字識別)
中文教程:大數(shù)據(jù)競賽平臺—Kaggle 入門
英文教程:Interactive Intro to Dimensionality Reduction
歡迎關(guān)注微信公眾號:kaggle數(shù)據(jù)分析!