實戰(zhàn):異步爬取之異步的簡單使用

一、使用異步的注意事項

  1. 異步代碼中不能有耗時的 I/O操作,像文件讀寫、網絡請求、數(shù)據庫讀寫等操作都需要使用對應的異步庫來代替。
  2. 異步代碼要盡可能短小,短小的意思就是功能要盡可能細分,前面講過異步在任務量較少的時候性能并不能達到最優(yōu),我們可以通過合理地拆分代碼來增加任務量,從而達到提高性能的目的。

二、使用異步需要了解的兩個重要的類

  1. AbstractEventLoop,我們可以把它簡稱為 EventLoop類或者事件循環(huán)。事件循環(huán)是整個異步的基礎,所有的異步操作都在事件循環(huán)里完成。

    這里我們需要了解并學會使用它的如下幾個方法:

    • run_until_complete(Future) 該方法接受一個或多個 Future對象作為參數(shù),然后運行這些對象直到全部完成并返回它們的結果
    • run_forever() 讓事件循環(huán)一直運行下去,直到 stop() 方法被調用,當 stop() 方法被調用時,會繼續(xù)執(zhí)行完正在執(zhí)行的任務,但是這些任務的回調和未被執(zhí)行的任務將不再執(zhí)行。
    • create_task()、create_future() 光看名字可能大家會誤以為這兩個方法的功能是創(chuàng)建一個 Task類或者 Future類并將其返回,事實上這兩個方法的功能確實包括這個,但是除此之外它們還會將創(chuàng)建的對象添加到事件循環(huán)中去。
  2. Future,F(xiàn)uture對象類似于 JavaScript里的 Promise對象,簡單來說就是該對象承諾未來的某個時候會返回一個結果,但是具體的時間是不確定的。

    所以我們一般在回調函數(shù)里使用 Feture對象,因為這時候 Feture對象一定有返回結果。

    • add_done_callback(func) 這個方法為 Future對象添加一個回調函數(shù),該函數(shù)接收一個 Future對象作為第一個參數(shù),在函數(shù)里我們可以通過這個對象來取得其執(zhí)行結果。
  3. 使用過 asyncio庫的朋友可能會疑惑為什么沒有 Task類,這是因為 Task 類是 Future 類的子類,我們可以將它們視作具有相同功能的兩個類

三、使用異步的基本方法

首先,對于少量的請求(幾百)我們不推薦使用異步,一般是成千上萬的請求我們才使用異步,比如說爬取全站。

在同步代碼中我們爬取的一般步驟是:請求頁面---->解析頁面---->獲取結果---->保存結果

異步中也是類似的順序,不過我們需要使用回調來確保它們按順序執(zhí)行,像下面這樣:

請求頁面---->回調:解析頁面---->獲取結果---->保存頁面(異步)

比如我們要獲取簡書用戶的關注列表,我們的代碼順序應該是:

請求頁面---->回調:處理頁面---->獲取結果并打印,代碼如下:

#-*- coding: utf-8 -*
import asyncio
import aiohttp
import random

from lxml import etree


PER_NUM = 9

async def get_response(url, **kwargs):
    if 'headers' not in kwargs:
        kwargs['headers'] = {
            'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
        }

    async with session.get(url, **kwargs) as response:
        print(response.status)
        return await response.read()

def process_response(future):
    dom = etree.HTML(future.result())

    items = dom.xpath('//ul/li//div[@class="info"]')

    for item in items:
        user = {}

        user['uid'] = item.xpath('./a/@href')[0].split('/')[2]
        user['follow_num'] = int(item.xpath('./div/span[1]/text()')[0].replace('關注', '').strip())
        user['fans_num'] = int(item.xpath('./div/span[2]/text()')[0].replace('粉絲', '').strip())
        user['article_num'] = int(item.xpath('./div/span[3]/text()')[0].replace('文章', '').strip())

def entry_point(param):
    if isinstance(param, asyncio.Future):
        users = param.result()
    else:
        users = param

    for user in users:
        uid = user['uid']
        follow_num = user['follow_num']
        max_page = int(follow_num / PER_NUM) if (follow_num % PER_NUM) == 0 else int(follow_num / PER_NUM)+1
        following_urls = ['http://www.itdecent.cn/users/{}/following?page={}'.format(uid, i) for i in
                          range(1, max_page+1)]

        for following_url in following_urls:
            task = loop.create_task(get_response(following_url))
            task.add_done_callback(process_response)


loop = asyncio.get_event_loop()
session = aiohttp.ClientSession(loop=loop)

users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]

entry_point(users)

loop.run_forever()

在段代碼中我們通過 entry_point 函數(shù)來將所有的請求添加到事件循環(huán)中,并且為每個請求添加了一個回調函數(shù)來獲取關注者的信息,示意圖如下:

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • 1、通過CocoaPods安裝項目名稱項目信息 AFNetworking網絡請求組件 FMDB本地數(shù)據庫組件 SD...
    陽明AI閱讀 16,229評論 3 119
  • 1.ios高性能編程 (1).內層 最小的內層平均值和峰值(2).耗電量 高效的算法和數(shù)據結構(3).初始化時...
    歐辰_OSR閱讀 30,282評論 8 265
  • 第370章 除非,慕少凌出手! 張行安望著阮白憤怒得不能自己的小臉,忽而就笑了。 可是,他的眼中,卻沒有半...
    84ed38744287閱讀 1,469評論 0 0
  • 最近一直刷《財富自由之路》,看到多維發(fā)展這篇;寫到這里,突然想寫個前序,這個專欄已經開始兩年了,而且一年半之前自己...
    凈明林閱讀 209評論 0 0
  • 2018年7月24日,福州,天還沒有大亮,前段時間病了,每當聽著吸引力法則《愛自己心法》的時候,感觸頗深:當你真的...
    5d9b0618a9c1閱讀 862評論 2 5

友情鏈接更多精彩內容