傳送門：

Python數(shù)據(jù)科學(xué)（一）- python與數(shù)據(jù)科學(xué)應(yīng)用(Ⅰ)

Python數(shù)據(jù)科學(xué)（二）- python與數(shù)據(jù)科學(xué)應(yīng)用(Ⅱ)

Python數(shù)據(jù)科學(xué)（三）- python與數(shù)據(jù)科學(xué)應(yīng)用(Ⅲ)

Python數(shù)據(jù)科學(xué)（四）- 數(shù)據(jù)收集系列

Python數(shù)據(jù)科學(xué)（五）- 數(shù)據(jù)處理和數(shù)據(jù)采集

Python數(shù)據(jù)科學(xué)（六）- 資料清理(Ⅰ)

Python數(shù)據(jù)科學(xué)（七）- 資料清理(Ⅱ)

Python數(shù)據(jù)科學(xué)（八）- 資料探索與資料視覺化

Python數(shù)據(jù)科學(xué)（九）- 使用Pandas繪制統(tǒng)計圖表

1.資料轉(zhuǎn)換

1.套用向量化計算（例子依然使用我們采集的房天下的數(shù)據(jù)）

計算新價格

df['總價'] * 1000

使用 Numpy計算新的價格

np.sqrt() 代表開根號

import numpy as np
np.sqrt(df['總價'])

合并兩字符串

df['朝向'] + df['戶型']

將新計算的均價存入DataFrame

df['均價'] = df['總價'] * 1000 / df['建筑面積']

2.定義函數(shù)進行套用

map：將函數(shù)套用到Series 上的每個元素

eg. 移除物業(yè)費中的元

def removeDollar(e):
      return e.split('元')[0]

df['物業(yè)費'].map(removeDollar)

eg. 使用匿名函式

df['物業(yè)費'].map(lambda  e: e.split('元')[0])

Apply：將函數(shù)套用到DataFrame 上的行與列

eg:

df = pandas.DataFrame([
                      [60,70,50],\
                      [80,79,68],\
                      [63,66,82]], columns = ['First', 'Second', 'Third']
)

# 以列進行計算
df.apply(lambda e: e.max() - e.min())

# 以行進行計算
df.apply(lambda e: e.max() - e.min(), axis = 1)

ApplyMap：將函式套用到DataFrame上的每個元素(elementwise)
將所有暫無資料的元素替代成缺失值(NaN)

import numpy as np
df.applymap(lambda e :np.nan  if e == '暫無資料' else e)

2.處理時間格式資料

打印出現(xiàn)在的時間

from datetime import datetime 
current_time = datetime.now()

將時間轉(zhuǎn)換成字符串

current_time.strftime('%Y-%m-%d')

將字符串轉(zhuǎn)化為時間

datetime.strptime('2017-04-21', '%Y-%m-%d')

時間回溯

from datetime import timedelta
current_time - timedelta(days = 1)

往前回溯10天(這里的適用場景是想取得過去10天的資訊)

for i in range(1, 10):
        dt = currnet_time - timedelta(days = i)
        print(dt.strftime('%Y-%m-%d'))

注意：這里的時間轉(zhuǎn)換后的格式可以根據(jù)需要設(shè)定，eg：dt.strftime('%Y/%m/%d')

3.轉(zhuǎn)換UNIX時間，即從1970年1月1日到現(xiàn)在過了多少秒

將datetime轉(zhuǎn)換為UNIX timestamp

from time import mktime
mktime(current_time.timetuple())

將UNIX timestamp 轉(zhuǎn)換為datetime

datetime.fromtimestamp(1492859823)

4.在pandas轉(zhuǎn)換時間

轉(zhuǎn)換前

import pandas
df = pandas.read_excel('data/house_sample.xlsx')
df['張貼日期'] = pandas.to_datetime(df['張貼日期'], format = '西元%Y年%m月%d日')

轉(zhuǎn)換后

3.重塑資料

1.虛擬變量(Dummy Variable)

百度百科：虛擬變量 ( Dummy Variables) 又稱虛設(shè)變量、名義變量或啞變量，用以反映質(zhì)的屬性的一個人工變量，是量化了的自變量，通常取值為0或1。引入啞變量可使線形回歸模型變得更復(fù)雜，但對問題描述更簡明，一個方程能達到兩個方程的作用，而且接近現(xiàn)實。
eg：如下表中的朝向就可以建立一個虛擬變量

建立虛擬變量

pandas.get_dummies(df['朝向'])

合并虛擬變量與原DataFrame

df = pandas.concat([df, pandas.get_dummies(df['朝向'])], axis = 1)

舍棄原有字段

df.drop('朝向', axis = 1)

2.建立透視表(pivot_table)

df2 = df.pivot_table(index = '張貼日期', columns = '產(chǎn)權(quán)性質(zhì)', values = '總價', aggfunc = sum, fill_value = 0) 
# fill_value = 0 指代的是把NaN替換成0
df2.head()

沒加fill_value = 0的結(jié)果

加過fill_value = 0的結(jié)果

df3 = df.pivot_table(index = '產(chǎn)權(quán)性質(zhì)', columns = '張貼日期', values = '總價', aggfunc = sum)
df3.head()

另外，兩者進行轉(zhuǎn)換的話也可以直接通過df2.T做轉(zhuǎn)換。

3.長寬表格的轉(zhuǎn)換(stack & unstack)

建立多索引的透視表

df_multi_idx = df.pivot_table(index=['樓層', '裝修'],columns='張貼日期', values='總價', aggfunc=sum)

轉(zhuǎn)換為寬表格

df_wide = df_multi_idx.unstack()
df_wide.head()

轉(zhuǎn)換為長表格

df_long = df_wide.stack()
df_long.head()

4.學(xué)習(xí)正則表達式

1.正則表達式概述

正則表達式，又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達式、規(guī)則表達式、常規(guī)表示法（英語：Regular Expression，在代碼中常簡寫為regex、regexp或RE），是計算機科學(xué)的一個概念。正則表達式使用單個字符串來描述、匹配一系列匹配某個句法規(guī)則的字符串。在很多文本編輯器里，正則表達式通常被用來檢索、替換那些匹配某個模式的文本。

Regular Expression的“Regular”一般被譯為“正則”、“正規(guī)”、“常規(guī)”。此處的“Regular”即是“規(guī)則”、“規(guī)律”的意思，Regular Expression即“描述某種規(guī)則的表達式”之意。

Python通過re模塊提供對正則表達式的支持。使用re的一般步驟是先使用re.compile()函數(shù)，將正則表達式的字符串形式編譯為Pattern實例，然后使用Pattern實例處理文本并獲得匹配結(jié)果（一個Match實例），最后使用Match實例獲得信息，進行其他的操作。

1.正則表達式（Regular Expression）：查詢和匹配字符串的規(guī)則

2.正則表達式表示數(shù)據(jù)
普通字符： 元數(shù)據(jù)，可以用于匹配指定的字符
r = “a”：用于在目標字符串中匹配小寫字母a元字符
r = “.”：用于匹配任意一個字符
r = “\”：轉(zhuǎn)移字符~用于將一個普通的字符，轉(zhuǎn)義成一個有意義的字符
r = “\d”：表示一個0~9之間的整數(shù)
r = “\D”：表示一個非數(shù)字字符
r = “\w”：表示任意一個0~9或者字母或者下劃線的字符
r = “\W”：表示任意一個特殊字符
r = “\s”：表示匹配一個空白字符
r = “\S”：表示匹配一個非空白字符
r = “^”：匹配字符串的開頭位置
r = “$”：匹配字符串的結(jié)束位置
r = “\d*”：表示前面匹配的字符出現(xiàn)了0次或者多次
r = “\d?”：表示前面匹配的字符出現(xiàn)了0次或者1次
r =”\d+”：表示前面匹配的字符出現(xiàn)了1次或者多次

#范圍匹配
分組匹配方式：將多個匹配字符當成一個完整的匹配公式
(abc)：用于在目標字符串中查詢abc同時出現(xiàn)的地方 
選擇匹配方式：將指定的多個字符，選擇其中一個進行匹配
[abc]：用于在目標字符串中，查詢a或者b或者c出現(xiàn)的地方
[0-9]：用于匹配一個0~9之間的數(shù)字->等價于\d
[a-z]：用于匹配一個a-z之間的字母
[A-Z]：用于匹配一個A-Z之間的字母
[a-zA-Z]：用于匹配一個字母【大小寫均可】
[a-zA-Z0-9_]：用于匹配一個非特殊字符，等價于\w

#范圍匹配
\d{m, n}：匹配到的字符出現(xiàn)了至少m次，最多n次
\d{,20}：匹配一個數(shù)字最多出現(xiàn)20次
\d{8,}：匹配一個數(shù)字，最少出現(xiàn)8次
\d{8,16}：匹配一個數(shù)字，最少出現(xiàn)8次，最多出現(xiàn)16次

#正則表達式在python中的使用
正則表達式，在python中，主要用到了一個re模塊
compile()：編譯正則表達式
pattern = re.compile(“^\d{2,}$”)
pattern = r‘^\d{2,}$’

pattern.match(str,begin,end)：從指定的字符串str第一個字符查詢匹配的字符

pattern.search(str, begin, end):從指定的字符串中直接進行查詢，查詢到的第一個結(jié)果作為匹配結(jié)果

pattern.findall(str)：從指定的字符串中，查詢符合匹配規(guī)則的字符，將所有符合的字符存放在一個列表中

pattern.finditer(str)：從指定的字符串中，查詢符合匹配規(guī)則的字符保存在一個可以迭代的對象中

pattern.sub():替換
pattern.split():拆分

eg：

import re
email = 'zhiji@github.com'
m = re.match('(\w+)@([a-z\.]+)', email)
or
m = re.match('(\w+)@(.+)', email)
>>>m.group(1)
zhiji
>>>m.group(2)
github.com
>>>m.groups()
('zhiji', 'github.com')

2.在DataFrame上使用正規(guī)表達式

從戶型用正規(guī)表達式抽取室、廳、廚、衛(wèi)欄位

未處理的數(shù)據(jù)

df[['室', '廳', '廚', '衛(wèi)']] = df['戶型'].str.extract('(\d+)室(\d+)廳(\d+)廚(\d+)衛(wèi)', expand=False)

使用正則處理過的數(shù)據(jù)

之前寫過詳細的正則表達式的文章，傳送門在這里正則表達式。

5.實例處理

我們通過對新浪微博新聞數(shù)據(jù)的采集和處理作為案例

import requests
import pandas
import re
from bs4 import BeautifulSoup

def get_article(url):
    res1 = requests.get(url)
    res1.encoding = 'utf-8'
    soup1 = BeautifulSoup(res1.text, 'html.parser')
    dic = {}
    dic['title'] = soup1.select('.page-header #artibodyTitle')[0].text
    dic['content'] = ''.join([ele.text for ele in soup1.select('.article_16 p')])
    dic['source'] = soup1.select('#navtimeSource')[0].text
    dic['keyword'] = soup1.select('.article-info .article-keywords')[0].text
    return dic

def get_all_news():
    res = requests.get('http://news.sina.com.cn/china/')
    res.encoding = 'utf-8'
    soup = BeautifulSoup(res.text, 'html.parser')
    newsary = []
    for link in soup.select('.news-item'):
        if len(link.select('h2 a')) > 0:
            newsary.append(get_article(link.select('h2 a')[0]['href']))
    df = pandas.DataFrame(newsary)
    # 進行數(shù)據(jù)清理
    df['keyword'] = df['keyword'].map(lambda e: e.split('：')[1].split())
    # df['source'] = df['source'].map(lambda e: e.split())
    df[['datetime', 'from']] = df['source'].str.extract('(\d+年\d+月\d+日\d+:\d+)[\t|\n]+?(\w+)', expand=False)
    print(df[['datetime', 'from']])
    # 因為df['datetime']是object格式,為了后期的取值,例：取年df['datetime'].map(lambda e : e.year) 我們需要把格式轉(zhuǎn)換為時間格式
    df['datetime'] = pandas.to_datetime(df['datetime'], format = '%Y年%m月%d日%H:%M')
    del df['source']
    # 對即將保存的格式進行調(diào)整
    df = df[['from', 'title', 'content', 'keyword', 'datetime']]
    # 將整理好的數(shù)據(jù)儲存Excel
    df.to_excel('news.xlsx')

if __name__ == '__main__':
    get_all_news()

經(jīng)過清理轉(zhuǎn)換后的數(shù)據(jù)

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python數(shù)據(jù)科學(xué)（七）- 資料清理(Ⅱ)

Python數(shù)據(jù)科學(xué)（七）- 資料清理(Ⅱ)

1.資料轉(zhuǎn)換

1.套用向量化計算（例子依然使用我們采集的房天下的數(shù)據(jù)）

2.定義函數(shù)進行套用

2.處理時間格式資料

3.轉(zhuǎn)換UNIX時間，即從1970年1月1日到現(xiàn)在過了多少秒

4.在pandas轉(zhuǎn)換時間

3.重塑資料

1.虛擬變量(Dummy Variable)

2.建立透視表(pivot_table)

3.長寬表格的轉(zhuǎn)換(stack & unstack)

4.學(xué)習(xí)正則表達式

1.正則表達式概述

2.在DataFrame上使用正規(guī)表達式

5.實例處理

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Python數(shù)據(jù)科學(xué)（七）- 資料清理(Ⅱ)

1.資料轉(zhuǎn)換

1.套用向量化計算（例子依然使用我們采集的房天下的數(shù)據(jù)）

2.定義函數(shù)進行套用

2.處理時間格式資料

3.轉(zhuǎn)換UNIX時間，即從1970年1月1日到現(xiàn)在過了多少秒

4.在pandas轉(zhuǎn)換時間

3.重塑資料

1.虛擬變量(Dummy Variable)

2.建立透視表(pivot_table)

3.長寬表格的轉(zhuǎn)換(stack & unstack)

4.學(xué)習(xí)正則表達式

1.正則表達式概述

2.在DataFrame上使用正規(guī)表達式

5.實例處理

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

3.轉(zhuǎn)換UNIX時間，即從1970年1月1日到現(xiàn)在過了多少秒