本文分享知識(shí):
- pandas讀取Excel數(shù)據(jù) read_excel()
- 使用Python的加密庫(kù) hashlib
- pandas中map方法使用
- pandas寫(xiě)入Excel數(shù)據(jù) to_excel()
公眾號(hào)《帥帥的Python》回復(fù)《數(shù)據(jù)加密》獲取源碼
項(xiàng)目背景:
我這里有一份客戶(hù)的Excel數(shù)據(jù),里面有客戶(hù)的手機(jī)號(hào)和身份證號(hào)信息,這些信息不能泄露,你加密一下發(fā)給我。
面對(duì)經(jīng)理緊急安排的任務(wù),小凡不敢懈怠,暫時(shí)放下手中正在處理的任務(wù),將精力集中到數(shù)據(jù)加密這件事情上。
小凡思考了一會(huì),數(shù)據(jù)加密,常用的加密算法有:md5和sha,既然沒(méi)有要求,那就選擇最簡(jiǎn)單的md5加密吧。
不一會(huì),小凡腦海中就構(gòu)思出了兩種解決辦法:
1、在Excel中調(diào)用md5加密函數(shù),但這個(gè)需要安裝加密文件,時(shí)間上可能來(lái)不及
2、用Python中的加密庫(kù),只需要讀取Excel中的數(shù)據(jù),再將加密好的數(shù)據(jù)導(dǎo)出為Excel即可
經(jīng)過(guò)慎重的考慮,小凡決定使用Python進(jìn)行數(shù)據(jù)加密。
一、用 pandas 讀取 Excel 數(shù)據(jù)
import pandas as pd
# Excel文件
excel_path = "./test.xlsx"
# pandas讀取Excel數(shù)據(jù),并保存到 df 變量中
df = pd.read_excel(excel_path)
# 隨機(jī)查看5條數(shù)據(jù)
df.sample(5)

read_excel() 常用參數(shù):
io:excel文件地址
sheet_name:默認(rèn)為第一個(gè)表格
header:頭部(列名)從第幾行開(kāi)始,默認(rèn)第一行
除了用pandas還可以用xlrd庫(kù)讀取Excel,xlwt將數(shù)據(jù)寫(xiě)入Excel,詳情請(qǐng)看:第三章內(nèi)容
二、加密庫(kù) hashlib
獲取到數(shù)據(jù)后,開(kāi)始加密。我們先學(xué)習(xí)一下如何使用加密庫(kù)hashlib,加密一個(gè)客戶(hù)的身份證號(hào)?
import hashlib
# 加密的字符串
string = "730763747019734357"
# 字符串進(jìn)行 utf-8 編碼
utf_8_str = str(string).encode("utf8")
# 調(diào)用 hashlib.md5() 方法進(jìn)行加密
encry_result = hashlib.md5(utf_8_str).hexdigest()
encry_result
# 'f29e8eb231261735b849ad248ff50573'
這樣就把一個(gè)字符串用 md5 的方法加密完成啦。讓我們稍微修飾一下,編寫(xiě)一個(gè)加密的函數(shù)。
def encryption_str(string, encry_model="md5_32", encry_style=True):
# 加密為 utf-8 編碼
utf_8_str = str(string).encode("utf8")
# 函數(shù)字典
param_dict = {
"md5_32": hashlib.md5(utf_8_str),
"md5_16": hashlib.md5(utf_8_str),
"sha1": hashlib.sha1(utf_8_str),
"sha224": hashlib.sha224(utf_8_str),
"sha256": hashlib.sha256(utf_8_str),
"sha512": hashlib.sha512(utf_8_str)
}
encry_result = param_dict[encry_model].hexdigest()
if encry_model == 'md5_16':
encry_result = encry_result[8:-8]
# 返回結(jié)果
return encry_result if encry_style == "小寫(xiě)" else encry_result.upper()
嗯,只是稍微修改一下。
三、 pandas中的 map() 方法
現(xiàn)在有1000多條數(shù)據(jù),怎樣才能將這么多的數(shù)據(jù)一次性加密完成呢?
這就需要用到 map() 方法:
pandas.series.map(arg,na_action=None),arg為一個(gè)函數(shù),將series中的每一個(gè)數(shù)據(jù)作為arg函數(shù)的參數(shù)
經(jīng)常與 lambda 函數(shù)連用,即:
df["列名"].map(lambda x:func(x))
表示將該列的每一個(gè)數(shù)據(jù) x,傳遞給 func(),并把函數(shù)的返回值組成新的列
df["手機(jī)號(hào)_md5"] = df["手機(jī)號(hào)"].map(lambda x:encryption_str(x))
df["身份證號(hào)_md5"] = df["身份證號(hào)"].map(lambda x:encryption_str(x))
df.sample(5)

數(shù)據(jù)已經(jīng)加密完成啦,接下來(lái)就把數(shù)據(jù)重新保存為 Excel 發(fā)給經(jīng)理。
pandas.DataFrame.to_excel() 常用參數(shù):
sheet_name:工作表名,默認(rèn)為 sheet1
index:是否輸入索引,默認(rèn)為 True
# 將數(shù)據(jù)保存到新的 excel 中
df.to_excel("./客戶(hù)數(shù)據(jù)_md5加密.xlsx")
整個(gè)過(guò)程耗時(shí)15分鐘,小凡檢查了一下加密后的數(shù)據(jù),確定沒(méi)有問(wèn)題,便將Excel發(fā)給經(jīng)理。
見(jiàn)經(jīng)理一直沒(méi)有回消息,小凡繼續(xù)做著先前的數(shù)據(jù)報(bào)告。
四、數(shù)據(jù)加密工具
過(guò)了一會(huì),經(jīng)理過(guò)來(lái)啦。
做的很好,能告訴我怎么做的嗎?經(jīng)理問(wèn)。
小凡將自己如何用Python加密數(shù)據(jù)的步驟講給經(jīng)理聽(tīng),但是經(jīng)理好像聽(tīng)不太懂。
有沒(méi)有什么工具,直接就將excel數(shù)據(jù)加密完成,不用寫(xiě)代碼?經(jīng)理期待的問(wèn)到。
沒(méi)有吧,網(wǎng)上的工具都只能加密一個(gè)字符串,沒(méi)有直接加密excel文件的工具。不過(guò),有什么是Python不能實(shí)現(xiàn)的呢?
于是,小凡決定用Python做個(gè)加密工具,這樣操作起來(lái)就很方便啦。