科比職業(yè)生涯數(shù)據(jù)集分析

1.項目目標

通過分析科比職業(yè)生涯比賽的相關(guān)數(shù)據(jù),掌握Numpy, Pandas, Matplotlib, Seaborn等常用數(shù)據(jù)分析庫的用法,掌握常規(guī)的數(shù)據(jù)預(yù)處理的方法以及特征工程。掌握建立隨機森林模型,模型參數(shù)調(diào)整,構(gòu)建最好的模型,預(yù)測測試數(shù)據(jù),并保存測試數(shù)據(jù)的方法。

2.科比生涯簡介

不論你是否看NBA,都應(yīng)該聽說過科比布萊恩特這個名字,它是最接近籃球之神喬丹的運動員??票扔?996年以13順位的選秀身份進入聯(lián)盟,一生都效力于洛杉磯湖人隊。于2016年宣布退役,職業(yè)生涯獲獎無數(shù),5次NBA總冠軍,2次FMVP,1次MVP,4次AMVP,18次全明星,生涯總得分超33000分,未來的名人堂球員等。在今年的1月26日,科比乘坐的私人飛機不幸失事,科比和二女兒吉安娜永遠地離開了我們,這對無數(shù)球迷是一個莫大的打擊。雖然科比離開了我們,但曼巴精神將激勵著一代又一代的年輕人去追逐自己的夢想。


Kobe.jpg

3.該數(shù)據(jù)集簡介

該數(shù)據(jù)集收錄了自96賽季~2016賽季,科比整個職業(yè)生涯的比賽記錄,共有30697條數(shù)據(jù)。每一條數(shù)據(jù)都是一次出手記錄,其中包括動作類型,投籃類型,投射距離,投射位置,是否命中等25個特征。在該數(shù)據(jù)集中我們將以是否命中籃筐為標簽值來進行分析,帶有標簽值的數(shù)據(jù)共25697條。我們將以這25697條數(shù)據(jù)作為訓練數(shù)據(jù)進行建模,來對不帶標簽的5000條數(shù)據(jù)進行預(yù)測。

4.數(shù)據(jù)集中各列特征說明

列名稱 含義
action_type 動作類型,如跳投,扣籃,上籃
combined_shot_type 組合投籃類型,如跳投,扣籃,勾手,擦板,罰球
game_event_id 比賽的編號
lat 出手的緯度
loc_x 出手的x坐標
loc_y 出手的y坐標
lon 出手的經(jīng)度
minutes_remaining 距離比賽結(jié)束,還剩多少分鐘
period 交手的場次,取值為1~7
playoffs 是否是打季后賽
season 賽季,如13~14賽季
seconds_remaining 距離比賽結(jié)束,還剩多少秒
shot_distance 出手距離
shot_made_flag 是否命中
shot_type 投射類型,兩分球還是三分球
shot_zone_area 出手區(qū)域,左側(cè),右側(cè),中場,后場等
shot_zone_basic 另一種劃分出手區(qū)域的方式,中線,禁區(qū),油漆區(qū),左側(cè)底角,右側(cè)底角等
shot_zone_range 出手區(qū)域的距離,小于8英尺,816英尺,1624英尺,24英尺以上等
team_id 球隊編號
team_name 球隊名稱
game_date 比賽日期
matchup 對陣雙方
opponent 對手
game_id 比賽的編號
shot_id 出手的編號

5.流程簡介

  • 讀取數(shù)據(jù)并做簡單的描述性統(tǒng)計
  • 探索性分析,單變量分析,雙變量分析
  • 數(shù)據(jù)與處理和特征工程
  • 建立隨機森林模型并進行調(diào)參,選擇最優(yōu)參數(shù)
  • 對測試數(shù)據(jù)進行預(yù)測,并保存模型結(jié)果

數(shù)據(jù)集和代碼請參考:
科比職業(yè)生涯數(shù)據(jù)集分析

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

友情鏈接更多精彩內(nèi)容