全球各地的程序員都是怎樣使用 Python?
我們從最常用的 Python 包入手,去解答上述這個(gè)問(wèn)題。最初,我列出過(guò)去一年在 PyPI 上下載次數(shù)最多的 Python 包。接下來(lái),深入研究其用途、它們之間的關(guān)系和它們備受歡迎的原因。
1、Urllib3
下載次數(shù):8.93 億
Urllib3是一個(gè) Python 的 HTTP 客戶(hù)端,它擁有 Python 標(biāo)準(zhǔn)庫(kù)中缺少的許多功能:
線(xiàn)程安全
連接池
客戶(hù)端 SSL/TLS 驗(yàn)證
使用分段編碼上傳文件
用來(lái)重試請(qǐng)求和處理 HTTP 重定向的助手
支持 gzip 和 deflate 編碼
HTTP 和 SOCKS 的代理支持
不要被名字所誤導(dǎo),Urllib3并不是urllib2的后繼者,而后者是 Python 核心的一部分。如果你想使用盡可能多的 Python 核心功能,或者你能安裝什么東西是受限,那么請(qǐng)查看 urlllib.request。
對(duì)最終用戶(hù)來(lái)說(shuō),我強(qiáng)烈建議使用 requests 包(參閱列表中的 #6)。這個(gè)包之所以會(huì)排名第一,是因?yàn)橛胁畈欢?1200 個(gè)包依賴(lài) urllib3,其中許多包在這個(gè)列表中的排名也很高。
2、Six
下載次數(shù):7.32 億
six 是一個(gè)是 Python 2 和 3 的兼容性庫(kù)。這個(gè)項(xiàng)目旨在支持可同時(shí)運(yùn)行在 Python 2 和 3 上的代碼庫(kù)。
它提供了許多可簡(jiǎn)化 Python 2 和 3 之間語(yǔ)法差異的函數(shù)。一個(gè)容易理解的例子是six.print_()。在 Python 3 中,打印是通過(guò)print()函數(shù)完成的,而在 Python 2 中,print后面沒(méi)有括號(hào)。因此,有了six.print_()后,你就可以使用一個(gè)語(yǔ)句來(lái)同時(shí)支持兩種語(yǔ)言。
一些事實(shí):
它的名字叫
six,是因?yàn)槎艘匀扔诹?/p>同類(lèi)庫(kù)還可以看看
future包。如果你要將代碼轉(zhuǎn)換為 Python3(并停止支持 2),請(qǐng)查看 2to3。
雖然我理解它為什么這么受歡迎,但我希望人們能完全放棄 Python 2,因?yàn)橐缽?2020 年 1 月 1 日起 Python 2 的官方支持就已停止。
在學(xué)習(xí)Python的過(guò)程中,往往因?yàn)闆](méi)有資料或者沒(méi)人指導(dǎo)從而導(dǎo)致自己不想學(xué)下去了,因此我特意準(zhǔn)備了個(gè)群 827513319 ,群里有大量的PDF書(shū)籍、教程都給大家免費(fèi)使用!不管是學(xué)習(xí)到哪個(gè)階段的小伙伴都可以獲取到自己相對(duì)應(yīng)的資料!
3、botocore、boto3、s3transfer、awscli
這里,我把相關(guān)的幾個(gè)項(xiàng)目列在一起:
botocore(#3,6.6 億次下載)
s3transfer(#7,5.84 億次下載)
awscli(#17,3.94 億次下載)
boto3(#22,3.29 億次下載)
Botocore是 AWS 的底層接口。Botocore是 Boto3 庫(kù)(#22)的基礎(chǔ),后者讓你可以使用 Amazon S3 和 Amazon EC2 一類(lèi)的服務(wù)。Botocore 還是 AWS-CLI 的基礎(chǔ),后者為 AWS 提供統(tǒng)一的命令行界面。
S3transfer(#7)是用于管理 Amazon S3 傳輸?shù)?Python 庫(kù)。它正在積極開(kāi)發(fā)中,其介紹頁(yè)面不推薦人們現(xiàn)在使用,或者至少等版本固定下來(lái)再用,因?yàn)槠?API 可能發(fā)生變化,在次要版本之間都可能更改。Boto3、AWS-CLI和其他許多項(xiàng)目都依賴(lài)s3transfer。
令人驚訝的是,這些針對(duì) AWS 庫(kù)的排名竟如此之高——這充分說(shuō)明了 AWS 有多厲害。
4、Pip
下載次數(shù):6.27 億
我想,你們大多數(shù)人都知道并且很喜歡 pip,它是 Python 的包安裝器。你可以用 pip 輕松地從 Python 包索引和其他索引(例如本地鏡像或帶有私有軟件的自定義索引)來(lái)安裝軟件包。
有關(guān) pip 的一些有趣事實(shí):
pip是“Pip Installs Packages”的首字母遞歸縮寫(xiě)。pip很容易使用。要安裝一個(gè)包只需pip install <package name>即可,而刪除包只需pip uninstall <package name>即可。最大優(yōu)點(diǎn)之一是它可以獲取包列表,通常以
requirements.txt文件的形式獲取。該文件能選擇包含所需版本的詳細(xì)規(guī)范。大多數(shù) Python 項(xiàng)目都包含這樣的文件。如果結(jié)合使用
pip與virtualenv(列表中的 #57),就可以創(chuàng)建可預(yù)測(cè)的隔離環(huán)境,同時(shí)不會(huì)干擾底層系統(tǒng),反之亦然。
5、Python-dateutil
下載次數(shù):6.17 億
python-dateutil模塊提供了對(duì)標(biāo)準(zhǔn)datetime模塊的強(qiáng)大擴(kuò)展。我的經(jīng)驗(yàn)是,常規(guī)的Python datetime缺少哪些功能,python-dateutil就能補(bǔ)足那一塊。
你可以用這個(gè)庫(kù)做很多很棒的事情。其中,我發(fā)現(xiàn)的一個(gè)特別有用的功能就是:模糊解析日志文件中的日期,例如:

6、Requests
下載次數(shù):6.11 億
Requests建立在我們的 #1 庫(kù)——urllib3基礎(chǔ)上。它讓 Web 請(qǐng)求變得非常簡(jiǎn)單。相比urllib3來(lái)說(shuō),很多人更喜歡這個(gè)包。而且使用它的最終用戶(hù)可能也比urllib3更多。后者更偏底層,并且考慮到它對(duì)內(nèi)部的控制級(jí)別,它一般是作為其他項(xiàng)目的依賴(lài)項(xiàng)。
下面這個(gè)例子說(shuō)明 requests 用起來(lái)有多簡(jiǎn)單:

7、S3transfer
這里把 #3、#7、#17 和 #22 放在一起介紹,因?yàn)樗鼈兊年P(guān)系非常密切。
8、Certifi
下載次數(shù):5.52 億
近年來(lái),幾乎所有網(wǎng)站都轉(zhuǎn)向 SSL,你可以通過(guò)地址欄中的小鎖符號(hào)來(lái)識(shí)別它。加了小鎖意味著與該站點(diǎn)的通信是安全和加密的,能防止竊聽(tīng)行為。

小鎖告訴我們此網(wǎng)站已使用 SSL 保護(hù)
加密過(guò)程是基于 SSL 證書(shū)的,并且這些 SSL 證書(shū)由受信任的公司或非營(yíng)利組織(如 LetsEncrypt)創(chuàng)建。這些組織使用他們的(中間)證書(shū)對(duì)這些證書(shū)進(jìn)行數(shù)字簽名。
你的瀏覽器使用這些證書(shū)的公開(kāi)可用部分來(lái)驗(yàn)證這些簽名,這樣就能確保你正查看的是真實(shí)內(nèi)容,并且沒(méi)有人能窺探到通信數(shù)據(jù)。Python 軟件也能做同樣事情。這就是 certifi 的用途所在。它與 Chrome、Firefox 和 Edge 等網(wǎng)絡(luò)瀏覽器隨附的根證書(shū)集合沒(méi)有太大區(qū)別。
Certifi是根證書(shū)的一個(gè)精選集合,有了它,你的 Python 代碼就能驗(yàn)證 SSL 證書(shū)的可信度。
如此處所示,許多項(xiàng)目信任并依賴(lài) certifi。這也是該項(xiàng)目排名如此之高的原因所在。
9、Idna
下載次數(shù):5.27 億
根據(jù)其 PyPI 頁(yè)面,idna提供了“對(duì) RFC5891 中指定的應(yīng)用程序中國(guó)際化域名(IDNA)協(xié)議的支持?!?/p>
可能你像我一樣也是一頭霧水,不知道Idna是什么,有什么用!據(jù)悉,應(yīng)用程序中的國(guó)際化域名(IDNA)是一種用來(lái)處理包含非 ASCII 字符的域名機(jī)制。但是,原始域名系統(tǒng)已經(jīng)提供對(duì)基于非 ASCII 字符的域名支持。所以,哪有問(wèn)題?
問(wèn)題在于應(yīng)用程序(例如電子郵件客戶(hù)端和 Web 瀏覽器)不支持非 ASCII 字符。更具體地說(shuō),電子郵件和 HTTP 用的協(xié)議不支持這些字符。對(duì)許多國(guó)家來(lái)說(shuō),這沒(méi)什么問(wèn)題,但是像中國(guó)、俄羅斯、德國(guó)、希臘和印度尼西亞等國(guó)家,這是個(gè)問(wèn)題。最后,來(lái)自這些地方的一群聰明人想到 IDNA。
IDNA的核心是兩個(gè)函數(shù):ToASCII和ToUnicode。ToASCII會(huì)將國(guó)際 Unicode 域轉(zhuǎn)換為 ASCII 字符串。ToUnicode則逆轉(zhuǎn)該過(guò)程。在IDNA包中,這些函數(shù)稱(chēng)為idna.encode()和idna.decode(),如以下代碼片段所示:

如果你是受虐狂,則可以閱讀 RFC-3490 了解這一編碼的詳細(xì)信息。
10、PyYAML
下載次數(shù):5.25 億
YAML是一種數(shù)據(jù)序列化格式。它的設(shè)計(jì)宗旨是讓人類(lèi)和計(jì)算機(jī)都能很容易地閱讀代碼——人類(lèi)很容易讀寫(xiě)它的內(nèi)容,計(jì)算機(jī)也可以解析它。
PyYAML是 Python 的YAML解析器和發(fā)射器,這意味著它可以讀寫(xiě)YAML。它會(huì)把任何 Python 對(duì)象寫(xiě)成YAML:列表、字典,甚至是類(lèi)實(shí)例都包括在內(nèi)。
Python 提供了自己的配置解析器,但是與 Python 的ConfigParser的基本.ini文件結(jié)構(gòu)相比,YAML 提供更多功能。
例如,YAML可以存儲(chǔ)任何數(shù)據(jù)類(lèi)型:布爾值、列表、浮點(diǎn)數(shù)等等。ConfigParser會(huì)將所有內(nèi)容存儲(chǔ)為內(nèi)部字符串。如果要使用ConfigParser加載整數(shù),則你需要指定自己要顯式獲取一個(gè)int:
config.getint(“section”, “my_int”)
pyyaml能自動(dòng)識(shí)別類(lèi)型,所以這將使用PyYAML返回你的int:
config[“section”][“my_int”]
YAML還允許任意的 deep trees,雖然不是每個(gè)項(xiàng)目都需要這種東西,但是需要時(shí),它就可以派上用場(chǎng)。你可能有自己的偏好,但是許多項(xiàng)目都使用YAML作為配置文件,所以這個(gè)項(xiàng)目是很受歡迎的。
11、Pyasn1
下載次數(shù):5.12 億
像上面的IDNA一樣,這個(gè)項(xiàng)目也非常有用:
ASN.1 類(lèi)型和 DER/BER/CER 編碼(X.208)的純 Python 實(shí)現(xiàn)
所幸這個(gè)已有數(shù)十年歷史的標(biāo)準(zhǔn)有很多信息可用。ASN.1是 Abstract Syntax Notation One 的縮寫(xiě),它就像是數(shù)據(jù)序列化的教父。它來(lái)自電信行業(yè)。也許你知道協(xié)議緩沖區(qū)或 Apache Thrift?這就是它們的 1984 年版本。
ASN.1 描述了系統(tǒng)之間的跨平臺(tái)接口,以及可以通過(guò)該接口發(fā)送的數(shù)據(jù)結(jié)構(gòu)。
還記得 Certifi(請(qǐng)參閱 #8)嗎?ASN.1 用于定義 HTTPS 協(xié)議和其他許多加密系統(tǒng)中使用的證書(shū)格式。它也用在了 SNMP、LDAP、Kerberos、UMTS、LTE 和 VOIP 協(xié)議中。
這是一個(gè)非常復(fù)雜的規(guī)范,并且某些實(shí)現(xiàn)已被證明滿(mǎn)是漏洞。
一個(gè)建議,除非你真的需要,否則還是敬而遠(yuǎn)之吧。但由于它用在很多地方,因此許多包都依賴(lài)這個(gè)包。
12、Docutils
下載次數(shù):5.08 億
Docutils是一個(gè)模塊化系統(tǒng),用來(lái)將純文本文檔處理為很多有用的格式,例如 HTML、XML 和 LaTeX 等。Docutils能讀取reStructuredText格式的純文本文檔,這種格式是類(lèi)似于 MarkDown 的易讀標(biāo)記語(yǔ)法。
你可能聽(tīng)說(shuō)過(guò),甚至讀過(guò) PEP 文檔。
那么什么是 PEP 文檔?最早的 PEP 文檔,PEP-1 為我們提供很好的解釋?zhuān)?/p>
PEP 的意思是 Python 增強(qiáng)提案。一個(gè) PEP 就是一個(gè)設(shè)計(jì)文檔,用來(lái)向 Python 社區(qū)提供信息,或描述 Python 或其過(guò)程或環(huán)境的新功能。PEP 應(yīng)該提供該功能的簡(jiǎn)明技術(shù)規(guī)范以及功能的原理。
PEP 文檔使用固定的reStructuredText模板編寫(xiě),并使用docutils轉(zhuǎn)換為格式正確的文檔。
Docutils 也是Sphinx的核心。Sphinx用于創(chuàng)建文檔項(xiàng)目。如果Docutils是一臺(tái)機(jī)器,則Sphinx就是工廠。它最初是為了構(gòu)建 Python 文檔而創(chuàng)建的,但其他許多項(xiàng)目也使用它為代碼提供文檔。你可能已經(jīng)讀過(guò) readthedocs.org 上的文檔,那里的大多數(shù)文檔都是由Sphinx和docutils創(chuàng)建的。
13、Chardet
下載次數(shù):5.01 億
你可以用chardet模塊來(lái)檢測(cè)文件或數(shù)據(jù)流的字符集。比如說(shuō),需要分析大量隨機(jī)文本時(shí),這會(huì)很有用。但你也可以在處理遠(yuǎn)程下載的數(shù)據(jù),但不知道用的是什么字符集時(shí)使用它。
安裝chardet后,你還有一個(gè)名為chardetect的命令行工具,用法如下:
chardetect somefile.txt
somefile.txt: ascii with confidence 1.0
你還能通過(guò)編程方式使用這個(gè)庫(kù),具體參閱文檔。Chardet是requests等許多包的需求。我覺(jué)得沒(méi)有多少人會(huì)單獨(dú)使用chardet,所以它這么流行肯定是因?yàn)檫@些依賴(lài)項(xiàng)。
14、RSA
下載次數(shù):4.92 億
rsa包是一個(gè)純 Python 的 RSA 實(shí)現(xiàn)。它支持:
加密和解密
簽名和驗(yàn)證簽名
根據(jù) PKCS#1 1.5 版生成密鑰
它既可以用作 Python 庫(kù),也能在命令行中使用。
一些事實(shí):
RSA 是 RonRivest、Adi Shamir 和 Leonard Adleman 三人姓的首字母。他們?cè)?1977 年發(fā)明該算法。
RSA 是最早的公鑰密碼系統(tǒng)之一,被廣泛用于安全數(shù)據(jù)傳輸。在這樣的密碼系統(tǒng)中,有兩個(gè)密鑰:公共部分和私有部分。你用公鑰加密數(shù)據(jù),只能用私鑰解密數(shù)據(jù)。
RSA 是一種 slow algorithm。它很少用于直接加密用戶(hù)數(shù)據(jù)。通常,RSA 用于安全傳遞對(duì)稱(chēng)密鑰加密的共享密鑰,這樣加密和解密大量數(shù)據(jù)時(shí)會(huì)快得多。
以下代碼段展示了如何在一個(gè)非常簡(jiǎn)單的用例中使用 RSA:

假設(shè) Bob 保留自己的私鑰 private,那么 Alice 可以確定他是唯一可以閱讀該消息的人。但是,Bob 不能確定是 Alice 發(fā)送了該消息,因?yàn)槿魏稳硕伎梢垣@取并使用他的公鑰。為證明是她,Alice 可以用她的私鑰在郵件上簽名。Bob 可以用她的公鑰驗(yàn)證此簽名,確保消息的確是她發(fā)送的。
諸如google-auth(#37)、oauthlib(#54)、awscli(#17)之類(lèi)的包都依賴(lài)rsa包。很少有人會(huì)將這個(gè)工具獨(dú)立使用,因?yàn)橛懈?、更原生的替代方法?/p>
15、Jmespath
下載次數(shù):4.73 億
在 Python 中用 JSON 非常容易,因?yàn)樗?Python 字典上的映射非常好。對(duì)我來(lái)說(shuō),這是它最好的特性之一。
實(shí)話(huà)實(shí)說(shuō)——盡管我已經(jīng)用 JSON 做過(guò)很多工作,但我從未聽(tīng)說(shuō)過(guò)這個(gè)包。我只是用 json.loads() 并從字典中手動(dòng)獲取數(shù)據(jù),也許再搞個(gè)循環(huán)什么的。
JMESPath,發(fā)音為“James path”,使 Python 中的 JSON 更容易使用。它允許你聲明性地指定如何從 JSON 文檔中提取元素。以下是一些基本示例:

16、Setuptools
下載次數(shù):4.01 億
它是用于創(chuàng)建 Python 包的工具。不過(guò),其文檔很糟糕。它沒(méi)有清晰描述它的用途,并且文檔中包含無(wú)效鏈接。最好的信息源是這個(gè)站點(diǎn),特別是這個(gè)創(chuàng)建 Python 包的指南。
17、Awscli
這里把 #3、#7、#17 和 #22 放在一起介紹,因?yàn)樗鼈兊年P(guān)系非常密切。
18、Pytz
下載次數(shù):3.94 億次
像dateutils(#5)一樣,這個(gè)庫(kù)可幫助你處理日期和時(shí)間。有時(shí)候,時(shí)區(qū)處理起來(lái)可能很麻煩。幸好有這樣的包,可以讓事情變得簡(jiǎn)單些。
我自己關(guān)于計(jì)算機(jī)上處理時(shí)間的經(jīng)驗(yàn)總結(jié)來(lái)說(shuō)是:始終在內(nèi)部使用 UTC。僅當(dāng)生成供人類(lèi)讀取的輸出時(shí),才轉(zhuǎn)換為本地時(shí)間。
這是pytz用法的示例:

19、Futures
下載次數(shù):3.89 億
從 Python 3.2 開(kāi)始,python 提供current.futures模塊,可幫助你實(shí)現(xiàn)異步執(zhí)行。futures 包是該庫(kù)適用于 Python 2 的 backport。它不適用于 Python3 用戶(hù),因?yàn)?Python 3 原生提供了該模塊。
正如我之前提到的,從 2020 年 1 月 1 日起,Python 2 的官方支持停止。希望我明年重新再來(lái)看的時(shí)候,這個(gè)包不會(huì)再出現(xiàn)在前 22 名中吧。
下面是 futures 的基本示例:

如你所見(jiàn),你可以創(chuàng)建一個(gè)線(xiàn)程池并提交一個(gè)要由這些線(xiàn)程之一執(zhí)行的函數(shù)。同時(shí),你的程序?qū)⒗^續(xù)在主線(xiàn)程中運(yùn)行。這是并行執(zhí)行程序的簡(jiǎn)便方法。
20、Colorama
下載次數(shù):3.7 億
使用 Colorama,你可以為終端添加一些顏色:
這樣做起來(lái)非常容易,具體請(qǐng)查看以下示例代碼:

21、Simplejson
下載次數(shù):3.41 億
原生的json模塊有什么問(wèn)題,才需要這種高級(jí)替代方案呢?并沒(méi)有!實(shí)際上,Python 的json就是simplejson。但是simplejson也有一些優(yōu)點(diǎn):
它適用于更多的 Python 版本。
它比 Python 更新的頻率更頻繁。
它有用 C 編寫(xiě)的(可選)部分,因此速度非???。
你經(jīng)常會(huì)在支持 JSON 的腳本中看到以下內(nèi)容:

除非你需要標(biāo)準(zhǔn)庫(kù)中所沒(méi)有的內(nèi)容,否則我只會(huì)使用json。Simplejson可以比json快很多,因?yàn)樗幸恍┯?C 實(shí)現(xiàn)的部分。除非你正在處理成千上萬(wàn)個(gè) JSON 文件,否則這種優(yōu)勢(shì)對(duì)你來(lái)說(shuō)不是什么大事。還可以看看 UltraJSON,它應(yīng)該更快一些,因?yàn)樗鼛缀跛械拇a都是用 C 編寫(xiě)的。
22、Boto3
這里把 #3、#7、#17 和 #22 放在一起介紹,因?yàn)樗鼈兊年P(guān)系非常密切。
23、小結(jié)
僅僅介紹這 22 個(gè)包恐怕不夠,因?yàn)榕旁诤竺娴脑S多包都是像我們這樣最終用戶(hù)感興趣的。
通過(guò)制作這份列表,我了解到一些新東西:
許多排名靠前的 package(包)都提供某種核心功能,例如處理時(shí)間、配置文件、加密和標(biāo)準(zhǔn)化等。它們往往是其他項(xiàng)目的依賴(lài)項(xiàng)。
一個(gè)常見(jiàn)的主題是連接性。這些包大多允許你連接到服務(wù)器和服務(wù),或支持其他包這樣做。
剩下的那些是對(duì) Python 的擴(kuò)展。創(chuàng)建 Python 包的工具、幫助創(chuàng)建文檔的工具、創(chuàng)建版本之間兼容性的庫(kù)等。