python數(shù)據(jù)分析常見問題整理

問題一:python是下載32位還是64位?

個人建議是64位,原因是有些包并不支持32位的python,比如搞模型的同學會用到的lightgbm,就沒有32位的包發(fā)布,所以建議直接一步到位,下載64位的python安裝包

問題二:如何解決python導入導出中文文件的問題?

首先建議在腳本的第一行寫下如下內(nèi)容:

#-*- coding: utf-8 -*-  

上面的腳本是用來設(shè)置字符編碼,采用utf-8編碼支持中文
但是會有即便輸出了這一行腳本,仍然是亂碼的問題,下面的解決方法,親測有效

import pandas as pd
from_path = 'XXX'
data = pd.read_csv(from_path,engine ='python')
to_path = 'XXX'
data.to_csv(to_path,encoding = 'utf_8_sig')

問題三:有哪些一行代碼就能搞定的數(shù)據(jù)清洗問題?

數(shù)據(jù)清洗參考了Medium上以數(shù)據(jù)挖掘大牛Kim Lim Lee的總結(jié)

  1. 檢查缺失數(shù)據(jù)
def check_missing_data(df):
    return df.isnull().sum.sort_values(ascending = False)
  1. 刪除沒用的列
def drop_multiple_col(col_name_list,df):
    df.drop(col_name_list,axis=1,inplace = True)

inplace的設(shè)置是用刪除后的結(jié)果替換原來的數(shù)據(jù)集

  1. 轉(zhuǎn)換數(shù)據(jù)類型
    當數(shù)據(jù)集變大時,需要轉(zhuǎn)換數(shù)據(jù)類型來節(jié)省內(nèi)存
def change_dtypes(col_int,col_float,df):
    df[col_int]=df[col_int].astype('int32')
    df[col_float]=df[col_float].astype('float32')
  1. 將分類變量轉(zhuǎn)化為數(shù)值變量
def convert_cat2num(df):
    num_encode={'col1':{'YES':1,'NO':0},
                            'col2':{'male':0,'female':1}}                            
  1. 轉(zhuǎn)換時間戳
import pandas as pd
def convert_str_datetime(df):
    df.insert(loc=2,column='timestamp',value=pd.to_datetime(df.transdate,format='%Y-%m-%d %H:%M:%S.%f'))

問題四:如何解決seaborn熱力圖中文顯示亂碼?

plt.rcParams['font.sans-serif'] = ['SimHei']  # 中文字體設(shè)置-黑體
plt.rcParams['axes.unicode_minus'] = False  # 解決保存圖像是負號'-'顯示為方塊的問題
sns.set(font='SimHei')  # 解決Seaborn中文顯示問題

如果您覺得有幫助的話,可以給新人點個贊哈~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容