實(shí)戰(zhàn):異步爬取之異步的簡(jiǎn)單使用

一、使用異步的注意事項(xiàng)

  1. 異步代碼中不能有耗時(shí)的 I/O操作,像文件讀寫、網(wǎng)絡(luò)請(qǐng)求、數(shù)據(jù)庫(kù)讀寫等操作都需要使用對(duì)應(yīng)的異步庫(kù)來代替。
  2. 異步代碼要盡可能短小,短小的意思就是功能要盡可能細(xì)分,前面講過異步在任務(wù)量較少的時(shí)候性能并不能達(dá)到最優(yōu),我們可以通過合理地拆分代碼來增加任務(wù)量,從而達(dá)到提高性能的目的。

二、使用異步需要了解的兩個(gè)重要的類

  1. AbstractEventLoop,我們可以把它簡(jiǎn)稱為 EventLoop類或者事件循環(huán)。事件循環(huán)是整個(gè)異步的基礎(chǔ),所有的異步操作都在事件循環(huán)里完成。

    這里我們需要了解并學(xué)會(huì)使用它的如下幾個(gè)方法:

    • run_until_complete(Future) 該方法接受一個(gè)或多個(gè) Future對(duì)象作為參數(shù),然后運(yùn)行這些對(duì)象直到全部完成并返回它們的結(jié)果
    • run_forever() 讓事件循環(huán)一直運(yùn)行下去,直到 stop() 方法被調(diào)用,當(dāng) stop() 方法被調(diào)用時(shí),會(huì)繼續(xù)執(zhí)行完正在執(zhí)行的任務(wù),但是這些任務(wù)的回調(diào)和未被執(zhí)行的任務(wù)將不再執(zhí)行。
    • create_task()、create_future() 光看名字可能大家會(huì)誤以為這兩個(gè)方法的功能是創(chuàng)建一個(gè) Task類或者 Future類并將其返回,事實(shí)上這兩個(gè)方法的功能確實(shí)包括這個(gè),但是除此之外它們還會(huì)將創(chuàng)建的對(duì)象添加到事件循環(huán)中去。
  2. Future,F(xiàn)uture對(duì)象類似于 JavaScript里的 Promise對(duì)象,簡(jiǎn)單來說就是該對(duì)象承諾未來的某個(gè)時(shí)候會(huì)返回一個(gè)結(jié)果,但是具體的時(shí)間是不確定的。

    所以我們一般在回調(diào)函數(shù)里使用 Feture對(duì)象,因?yàn)檫@時(shí)候 Feture對(duì)象一定有返回結(jié)果。

    • add_done_callback(func) 這個(gè)方法為 Future對(duì)象添加一個(gè)回調(diào)函數(shù),該函數(shù)接收一個(gè) Future對(duì)象作為第一個(gè)參數(shù),在函數(shù)里我們可以通過這個(gè)對(duì)象來取得其執(zhí)行結(jié)果。
  3. 使用過 asyncio庫(kù)的朋友可能會(huì)疑惑為什么沒有 Task類,這是因?yàn)?Task 類是 Future 類的子類,我們可以將它們視作具有相同功能的兩個(gè)類

三、使用異步的基本方法

首先,對(duì)于少量的請(qǐng)求(幾百)我們不推薦使用異步,一般是成千上萬(wàn)的請(qǐng)求我們才使用異步,比如說爬取全站。

在同步代碼中我們爬取的一般步驟是:請(qǐng)求頁(yè)面---->解析頁(yè)面---->獲取結(jié)果---->保存結(jié)果

異步中也是類似的順序,不過我們需要使用回調(diào)來確保它們按順序執(zhí)行,像下面這樣:

請(qǐng)求頁(yè)面---->回調(diào):解析頁(yè)面---->獲取結(jié)果---->保存頁(yè)面(異步)

比如我們要獲取簡(jiǎn)書用戶的關(guān)注列表,我們的代碼順序應(yīng)該是:

請(qǐng)求頁(yè)面---->回調(diào):處理頁(yè)面---->獲取結(jié)果并打印,代碼如下:

#-*- coding: utf-8 -*
import asyncio
import aiohttp
import random

from lxml import etree


PER_NUM = 9

async def get_response(url, **kwargs):
    if 'headers' not in kwargs:
        kwargs['headers'] = {
            'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
        }

    async with session.get(url, **kwargs) as response:
        print(response.status)
        return await response.read()

def process_response(future):
    dom = etree.HTML(future.result())

    items = dom.xpath('//ul/li//div[@class="info"]')

    for item in items:
        user = {}

        user['uid'] = item.xpath('./a/@href')[0].split('/')[2]
        user['follow_num'] = int(item.xpath('./div/span[1]/text()')[0].replace('關(guān)注', '').strip())
        user['fans_num'] = int(item.xpath('./div/span[2]/text()')[0].replace('粉絲', '').strip())
        user['article_num'] = int(item.xpath('./div/span[3]/text()')[0].replace('文章', '').strip())

def entry_point(param):
    if isinstance(param, asyncio.Future):
        users = param.result()
    else:
        users = param

    for user in users:
        uid = user['uid']
        follow_num = user['follow_num']
        max_page = int(follow_num / PER_NUM) if (follow_num % PER_NUM) == 0 else int(follow_num / PER_NUM)+1
        following_urls = ['http://www.itdecent.cn/users/{}/following?page={}'.format(uid, i) for i in
                          range(1, max_page+1)]

        for following_url in following_urls:
            task = loop.create_task(get_response(following_url))
            task.add_done_callback(process_response)


loop = asyncio.get_event_loop()
session = aiohttp.ClientSession(loop=loop)

users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]

entry_point(users)

loop.run_forever()

在段代碼中我們通過 entry_point 函數(shù)來將所有的請(qǐng)求添加到事件循環(huán)中,并且為每個(gè)請(qǐng)求添加了一個(gè)回調(diào)函數(shù)來獲取關(guān)注者的信息,示意圖如下:

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1、通過CocoaPods安裝項(xiàng)目名稱項(xiàng)目信息 AFNetworking網(wǎng)絡(luò)請(qǐng)求組件 FMDB本地?cái)?shù)據(jù)庫(kù)組件 SD...
    陽(yáng)明AI閱讀 16,168評(píng)論 3 119
  • 1.ios高性能編程 (1).內(nèi)層 最小的內(nèi)層平均值和峰值(2).耗電量 高效的算法和數(shù)據(jù)結(jié)構(gòu)(3).初始化時(shí)...
    歐辰_OSR閱讀 30,173評(píng)論 8 265
  • 第370章 除非,慕少凌出手! 張行安望著阮白憤怒得不能自己的小臉,忽而就笑了。 可是,他的眼中,卻沒有半...
    84ed38744287閱讀 1,457評(píng)論 0 0
  • 最近一直刷《財(cái)富自由之路》,看到多維發(fā)展這篇;寫到這里,突然想寫個(gè)前序,這個(gè)專欄已經(jīng)開始兩年了,而且一年半之前自己...
    凈明林閱讀 208評(píng)論 0 0
  • 2018年7月24日,福州,天還沒有大亮,前段時(shí)間病了,每當(dāng)聽著吸引力法則《愛自己心法》的時(shí)候,感觸頗深:當(dāng)你真的...
    5d9b0618a9c1閱讀 853評(píng)論 2 5

友情鏈接更多精彩內(nèi)容