天堂vs二区三区四区,最新久久99视频,九九爱播放视频

介紹

??本篇博客將會介紹一個(gè)Python爬蟲，用來爬取各個(gè)國家的國旗，主要的目標(biāo)是為了展示如何在Python的requests模塊中使用POST方法來爬取網(wǎng)頁內(nèi)容。
??為了知道POST方法所需要傳遞的HTTP請求頭部和請求體，我們可以使用Fiddler來進(jìn)行抓包，抓取上網(wǎng)過程中HTTP請求中的POST方法。為了驗(yàn)證Fiddler抓取到的POST請求，可以使用Postman進(jìn)行測試驗(yàn)證。在Postman中完成測試后，我們就可以用Python的request.POST()方法來寫我們的爬蟲了。

流程

??作為上述過程的一個(gè)演示，我們使用的網(wǎng)址為： http://country.911cha.com/ , 頁面如下：

在表單中輸入德國，跳轉(zhuǎn)后的頁面如下：

我們可以發(fā)現(xiàn)，在搜索的結(jié)果中，會出現(xiàn)德國這個(gè)搜索結(jié)果。點(diǎn)擊該搜索結(jié)果，跳轉(zhuǎn)后的頁面如下：

在這個(gè)頁面中有我們需要的德國的國旗。但是，怎么知道該網(wǎng)頁的具體網(wǎng)址呢？換句話說，就是怎樣得到http://country.911cha.com/GER.html ？別擔(dān)心，在剛才出來的德國這個(gè)搜索結(jié)果中，我們查看其源代碼，不難發(fā)現(xiàn)，在HTML源代碼中，有我們想要的東西：

在源代碼中我們能看到“GER.html”，這就意味著，只要得到搜索的結(jié)果，我們可以分析HTML源碼來得到這個(gè)搜索結(jié)果的連接網(wǎng)址，然后在該連接網(wǎng)址中獲取該國的國旗。所以，在這個(gè)爬蟲中，最困難的地方在于，如何獲取搜索結(jié)果？即，得到提交表單后的結(jié)果，也就是POST方法提交后的響應(yīng)結(jié)果。我們利用Fiddler來抓取該P(yáng)OST方法。
??我們打開Fiddler, 同時(shí)重復(fù)上面的操作，可以得到該過程的HTTP請求，如下圖：

Fiddler幫助我們找到了剛才提交表單過程中的一個(gè)POST請求，具體分析該P(yáng)OST請求，其請求頭部如下：

其請求體如下：

??為了驗(yàn)證Fiddler抓取的POST請求，我們需要要Postman來進(jìn)行測試。在用Postman進(jìn)行測試前，我們需要問：是否所有請求頭部中的數(shù)據(jù)都需要呢？答案是否定的，實(shí)際上，我們只需要User-Agent和Content-Type即可。在Postman中，先輸入請求頭部，如下：

再輸入請求體，如下：

點(diǎn)擊"SEND"按鈕，得到響應(yīng)后的結(jié)果，如下：

OK，這樣我們就完成了Postman的測試。

爬蟲

??于是，借助這些信息來完成request.post()的提交，同時(shí)，借助BeautifulSoup來解析網(wǎng)頁，得到國家的國旗下載地址并完成下載。具體的Python代碼如下：

# -*- coding: utf-8 -*-

import urllib.request
import requests
from bs4 import BeautifulSoup

# 函數(shù)：下載指定國家的國旗
# 參數(shù)： country: 國家
def download_flag(country):

    # 請求頭部
    headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36',
                'Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8',
              }
    # POST數(shù)據(jù)
    data = {'q': country}
    # 網(wǎng)址
    url = 'http://country.911cha.com/'

    # 提交POST請求
    r = requests.post(url=url, data=data, headers=headers)

    # 利用BeautifulSoup解析網(wǎng)頁
    content = BeautifulSoup(r.text, 'lxml')

    # 得到搜索結(jié)果（國家）所在網(wǎng)頁地址
    country = content.find_all('div', class_='mcon')[1]('ul')[0]('li')[0]('a')[0]
    link = country['href']

    #利用GET方法得到搜索國家的網(wǎng)頁
    r2 = requests.get(url='%s/%s'%(url, link))
    # 利用BeautifulSoup解析網(wǎng)頁
    content = BeautifulSoup(r2.text, 'lxml')
    # 獲取網(wǎng)頁中的圖片
    images = content.find_all('img')

    # 獲取指定國家的國旗名稱及下載地址
    for image in images:
        if 'alt' in image.attrs:
            if '國旗' in image['alt']:
                name = image['alt'].replace('國旗', '')
                link = image['src']

    # 下載國旗圖片
    urllib.request.urlretrieve('%s/%s'%(url, link), 'E://flag/%s.gif'%name)


def main():

    # countries.txt儲存各個(gè)國家的名稱
    file = 'E://flag/countries.txt'
    with open(file, 'r') as f:
        counties = [_.strip() for _ in f.readlines()]

    # 遍歷各個(gè)國家，下載國旗
    for country in counties:
        try:
            download_flag(country)
            print('%s國旗下載成功！'%country)
        except:
            print('%s國旗下載失敗~'%country)

main()

其中countries.txt的部分內(nèi)容如下：

運(yùn)行上述Python代碼，我們發(fā)現(xiàn)在E盤的flag文件夾下，已經(jīng)下載了各個(gè)國家的國旗，如下：

這樣我們就完成了本次爬蟲的任務(wù)！

總結(jié)

??本次爬蟲利用Python的requests模塊的POST方法，來模擬網(wǎng)頁中的表單提交。為了得到表單提交過程中的HTTP請求，即請求頭部和請求體，我們利用了抓包工具Fiddler，而Postman的作用是為了幫助我們驗(yàn)證Fiddler抓取的POST請求是否正是我們需要的POST請求，同時(shí)也能驗(yàn)證請求頭部及請求體。
??雖然整個(gè)爬蟲的過程寫的不免麻煩，但是操作的思路應(yīng)該是清晰的，再說，熟能生巧，多用幾次，也就能熟悉整個(gè)流程了。本次爬蟲只是作為整個(gè)流程的一個(gè)簡單展示，讀者可以在此基礎(chǔ)上，去實(shí)現(xiàn)更為復(fù)雜的爬蟲，希望本次的分享能夠幫助到讀者。謝謝大家能讀到這兒，也歡迎大家交流~~

注意：本人現(xiàn)已開通兩個(gè)微信公眾號：因?yàn)镻ython（微信號為：python_math）以及輕松學(xué)會Python爬蟲（微信號為：easy_web_scrape），歡迎大家關(guān)注哦~~

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗

Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗

介紹

流程

爬蟲

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗

介紹

流程

爬蟲

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av