python標(biāo)準(zhǔn)庫(kù)+內(nèi)置函數(shù)+第三方庫(kù): 2.網(wǎng)絡(luò)抓取和解析

python標(biāo)準(zhǔn)庫(kù)+內(nèi)置函數(shù)+第三方庫(kù)

欲善其事,必先利其器

這其器必是python的標(biāo)準(zhǔn)庫(kù)+內(nèi)置函數(shù),話說(shuō)許多第三方庫(kù), 也是對(duì)標(biāo)準(zhǔn)庫(kù)的使用,進(jìn)行封裝,使得使用起來(lái)更方便。

這些庫(kù)以使用場(chǎng)景來(lái)分類(lèi):

一. 文件讀寫(xiě)
二. 網(wǎng)絡(luò)抓取和解析
三. 數(shù)據(jù)連接
四. 數(shù)清洗轉(zhuǎn)換
五. 數(shù)據(jù)計(jì)算和統(tǒng)計(jì)分析
六. 圖像和視頻處理
七. 音頻處理
八. 數(shù)據(jù)挖掘/機(jī)器學(xué)習(xí)/深度學(xué)習(xí)
九. 數(shù)據(jù)可視化
十. 交互學(xué)習(xí)
十一. 集成開(kāi)發(fā)

二、網(wǎng)絡(luò)抓取和解析

網(wǎng)絡(luò)抓取和解析用于從互聯(lián)網(wǎng)中抓取信息,并對(duì)HTML對(duì)象進(jìn)行處理,有關(guān)xml對(duì)象的解析和處理的庫(kù)在“01 文件讀寫(xiě)”中找到。

# 2.1 requests
# 類(lèi)型:第三方庫(kù)
# 描述:網(wǎng)絡(luò)請(qǐng)求庫(kù),提供多種網(wǎng)絡(luò)請(qǐng)求方法并可定義復(fù)雜的發(fā)送信息

# 2.2 urllib
# 類(lèi)型:Python標(biāo)準(zhǔn)庫(kù)
# 描述:Python自帶的庫(kù),簡(jiǎn)單的讀取特定URL并獲得返回的信息

# 2.3 urllib2
# 類(lèi)型:Python標(biāo)準(zhǔn)庫(kù)
# 描述:Python自帶的庫(kù),讀取特定URL并獲得返回的信息,相    對(duì)于urllib可處理更多HTTP信息,例如cookie、身份驗(yàn)證、重定向等

# 2.4 urlparse
# 類(lèi)型:Python標(biāo)準(zhǔn)庫(kù)
# 描述:Python自帶的URL解析庫(kù),可自動(dòng)解析URL不同的域、參數(shù)、路徑等

# 2.5 HTMLParser
# 類(lèi)型:Python標(biāo)準(zhǔn)庫(kù)
# 描述:Python自帶的HTML解析模塊,能夠很容易的實(shí)現(xiàn)HTML文件的分析

# 2.6 Scapy
# 類(lèi)型:第三方庫(kù)
# 描述:分布式爬蟲(chóng)框架,可用于模擬用戶發(fā)送、偵聽(tīng)和解析并偽裝網(wǎng)絡(luò)報(bào)文,常用于大型網(wǎng)絡(luò)數(shù)據(jù)爬取

# 2.7 Beautiful Soup
# 類(lèi)型:第三方庫(kù)
# 描述:Beautiful Soup是網(wǎng)頁(yè)數(shù)據(jù)解析和格式化處理工具,通常配合Python的urllib、urllib2等庫(kù)一起使用
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容