eeuss久久,蜜臀精品日韩,午夜成人91精品久久

圖解Pandas的排名rank機(jī)制

在我們的生活經(jīng)常會(huì)遇到各種排名問題：學(xué)生成績排名、銷售員業(yè)績排名、各種比賽排名等。在之前一篇關(guān)于SQL的文章-《面試必備：SQL排名和窗口函數(shù)》中有提到過如何使用SQL來實(shí)現(xiàn)3種主要的排名方式：順序排名、跳躍排名和密集排名。

Pandas這個(gè)強(qiáng)大的數(shù)據(jù)分析庫也可以快速實(shí)現(xiàn)多種排名方式，主要是通過rank函數(shù)來解決的，本文將通過多個(gè)例子來講解。

image

Rank參數(shù)

下面是rank函數(shù)的主要參數(shù)為：

DataFrame.rank(axis=0, 
               method='average', 
               numeric_only=None, 
               na_option='keep', 
               ascending=True, 
               pct=False)

參數(shù)的具體解釋為：

axis：表示排名是根據(jù)哪個(gè)軸，axis=0表示橫軸，axis=1表示縱軸
method：取值可以為'average'，'first'，'min'， 'max'，'dense'；后面重點(diǎn)介紹，默認(rèn)是average
numeric_only：是否僅僅計(jì)算數(shù)字型的columns
na_optiaon：NaN值是否參與排名以及如何排名，取值為keep、top、bottom
ascending：升序還是降序；默認(rèn)是升序
pct：是否以排名的百分比顯示排名；所有排名和最大排名的百分比

本文將會(huì)講解rank函數(shù)在Series和DataFrame兩種數(shù)據(jù)類型的使用。

Series排名

import pandas as pd
import numpy as np

首先我們模擬一份簡單的數(shù)據(jù)：

image

參數(shù)method

1、默認(rèn)情況的排名method="average"：

image

2、method="first"

根據(jù)值在原始數(shù)據(jù)中出現(xiàn)的順序進(jìn)行排名，相同數(shù)值的排名依次加1：

image

解釋上面兩個(gè)結(jié)果：

first：直接根據(jù)數(shù)值的大小順序進(jìn)行排名
average：表示的是，如果兩個(gè)數(shù)值相同，排名是它們的均值

image

我們看到first的使用就是數(shù)值的自然順序出現(xiàn)的排名；在使用average的情況解釋如下：

-5的排名是1.0，0的排名是2.0，3的排名是3.0，5（3號(hào)索引位置）的排名是4.0，5(6號(hào)索引位置)的排名是5.0，8(0號(hào)索引位置)的排名是6.0，8(2號(hào)索引)的排名是7.0

通過average的使用，相同數(shù)值的排名rank會(huì)取出均值，5的排名統(tǒng)一成4.5，8的排名統(tǒng)一成6.5

3、max和min的使用

[圖片上傳失敗...(image-d9f522-1625217642139)]

image

比如當(dāng)：method= "max"：如果數(shù)值相同，取該數(shù)值最大的那個(gè)排名。比如5最大的排名是5，所以原始數(shù)據(jù)中兩個(gè)5的排名都是5；兩個(gè)8的排名都是7（8的兩個(gè)排名是6和7，取大值7）

4、method="dense"

相同的數(shù)值排名相同，下個(gè)數(shù)值的排名不出現(xiàn)跳躍

image

這個(gè)時(shí)候排名的時(shí)候是不會(huì)出現(xiàn)跳躍的情況

參數(shù)ascending

默認(rèn)情況下是升序的情況，可以使用降序：值越大，排名越靠前：

image

數(shù)值中8的排名，如果是method=“first”，排名是1和2，如是使用average，排名則會(huì)變成1.5；其他的數(shù)值排名類似。再看看max的情況：

image

參數(shù)pct

是否以排名的百分比顯示排名；所有排名和最大排名的百分比

image

上面的排名是如何計(jì)算出來的呢？我們最大的排名是7：

image

再比如dense情況下的pct參數(shù)使用類似：

image

參數(shù)na_option

這個(gè)參數(shù)表示的是空值是否參與排名，取值為keep、top、bottom。我們?cè)倌M一份帶有空值的數(shù)據(jù)：

image

看看3種不同的情況：

image

DataFrame排名

模擬數(shù)據(jù)

還是先模擬一份數(shù)據(jù)：

df0 = pd.DataFrame({"科目":["語文","語文","語文","語文","語文","數(shù)學(xué)","數(shù)學(xué)","數(shù)學(xué)","數(shù)學(xué)","數(shù)學(xué)"],
                  "姓名":["小明","小蘇","小周","小孫","小王","小明","小蘇","小周","小孫","小王"],
                  "分?jǐn)?shù)":[137,125,125,115,115,80,111,130,130,140]})

df = df0.copy()   # 生成一個(gè)副本df
df

image

單個(gè)科目排名

比如我們想看語文這門科目的排名情況，取出同學(xué)們的語文成績：

image

分別使用順序排名、跳躍排名和密集排名來展示排名情況：

# 默認(rèn)排名方式

df1["均值排名_默認(rèn)"] = df1["分?jǐn)?shù)"].rank(ascending=False)
df1["跳躍排名_min"] = df1["分?jǐn)?shù)"].rank(method="min",ascending=False)
df1["跳躍_max"] = df1["分?jǐn)?shù)"].rank(method="max",ascending=False)
df1["密集排名_dense"] = df1["分?jǐn)?shù)"].rank(method="dense",ascending=False)

df1

image

同學(xué)總分排名

先通過transform生成每個(gè)同學(xué)的總分：

df["總分"] = df.groupby("姓名")["分?jǐn)?shù)"].transform("sum")
df

image

我們使用密集排名的方式對(duì)總分進(jìn)行排名：

image

分組取出指定排名

我們現(xiàn)在看到每個(gè)科目下的第二名的學(xué)生，如果成績相同，排名相同（不跳躍），我們使用密集排名：

# 定義一個(gè)排名第二的函數(shù)

def rank_second(x):
    return x[x["分?jǐn)?shù)"].rank(method="dense",ascending=False) == 2]

image

我們看看真實(shí)數(shù)據(jù)中每個(gè)科目的第二名同學(xué)：

image

上面自定義的排名第二的函數(shù)分為兩步；

1、先實(shí)現(xiàn)密集排名

image

2、指定排名等于2

image

當(dāng)我們使用這個(gè)自定義函數(shù)的時(shí)候，我們需要先根據(jù)科目進(jìn)行分組，然后再每個(gè)組中單獨(dú)使用這個(gè)自定義函數(shù)，就能獲得每個(gè)科目下的第二名。

總結(jié)

講解完rank函數(shù)的使用，可以和SQL中的窗口函數(shù)進(jìn)行類比：

row_number：順序排名，rank函數(shù)的中的method=first
rank：跳躍排名，rank函數(shù)的中的method=min
dense_rank：密集排名，rank函數(shù)的中的method=dense

image

最后附上rank函數(shù)的官網(wǎng)學(xué)習(xí)地址，還得多看官網(wǎng)：

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.rank.html

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

圖解Pandas的排名rank機(jī)制

圖解Pandas的排名rank機(jī)制

圖解Pandas的排名rank機(jī)制

Rank參數(shù)

Series排名

參數(shù)method

參數(shù)ascending

參數(shù)pct

參數(shù)na_option

DataFrame排名

模擬數(shù)據(jù)

單個(gè)科目排名

同學(xué)總分排名

分組取出指定排名

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

圖解Pandas的排名rank機(jī)制

圖解Pandas的排名rank機(jī)制

Rank參數(shù)

Series排名

參數(shù)method

參數(shù)ascending

參數(shù)pct

參數(shù)na_option

DataFrame排名

模擬數(shù)據(jù)

單個(gè)科目排名

同學(xué)總分排名

分組取出指定排名

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av