Pandas數(shù)據(jù)分析練習(xí)4

練習(xí)4-Apply函數(shù)

探索1960 - 2014 美國犯罪數(shù)據(jù)


步驟1 導(dǎo)入必要的庫

運行以下代碼

import pandas as pd

import numpy as np

步驟2 從以下地址導(dǎo)入數(shù)據(jù)集

運行以下代碼

#?本地對應(yīng)的"US_Crime_Rates_1960_2014.csv"路徑

path4 = 'D:/hailong/hailong_download/pandas_exercise/exercise_data/US_Crime_Rates_1960_2014.csv'?

步驟3 將數(shù)據(jù)框命名為crime

運行以下代碼

crime=pd.read_csv(path4)

crime.head()

輸出結(jié)果

步驟4 每一列(column)的數(shù)據(jù)類型是什么樣的?

運行以下代碼

crime.info()

輸出結(jié)果

注意到了嗎,此時Year的數(shù)據(jù)類型為?int64,但是pandas有一個不同的數(shù)據(jù)類型去處理時間序列(time series),我們現(xiàn)在來看看。

步驟5 將Year的數(shù)據(jù)類型轉(zhuǎn)換為?datetime64

運行以下代碼

crime.Year = pd.to_datetime(crime.Year,format = '%Y')

crime.info()

輸出結(jié)果

步驟6 將列Year設(shè)置為數(shù)據(jù)框的索引

運行以下代碼

crime = crime.set_index('Year',drop = True)

crime.head()

輸出結(jié)果

步驟7 刪除名為Total的列

運行以下代碼

del crime['Total']

crime.head()

輸出結(jié)果

crime.resample('10AS').sum()

輸出結(jié)果

步驟8 按照Year對數(shù)據(jù)框進行分組并求和

*注意Population這一列,若直接對其求和,是不正確的**

運行以下代碼

# 更多關(guān)于 .resample 的介紹

# (https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.resample.html)

# 更多關(guān)于 Offset Aliases的介紹?

# (http://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases)

crimes = crime.resample('10AS').sum()

population = crime['Population'].resample('10AS').max()

crimes['Population'] = population

crimes

輸出結(jié)果

步驟9 何時是美國歷史上生存最危險的年代?

運行以下代碼

crime.idxmax(0)

輸出結(jié)果

代碼截圖


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容