一、使用異步的注意事項
- 異步代碼中不能有耗時的 I/O操作,像文件讀寫、網絡請求、數(shù)據庫讀寫等操作都需要使用對應的異步庫來代替。
- 異步代碼要盡可能短小,短小的意思就是功能要盡可能細分,前面講過異步在任務量較少的時候性能并不能達到最優(yōu),我們可以通過合理地拆分代碼來增加任務量,從而達到提高性能的目的。
二、使用異步需要了解的兩個重要的類
-
AbstractEventLoop,我們可以把它簡稱為 EventLoop類或者事件循環(huán)。事件循環(huán)是整個異步的基礎,所有的異步操作都在事件循環(huán)里完成。這里我們需要了解并學會使用它的如下幾個方法:
-
run_until_complete(Future)該方法接受一個或多個 Future對象作為參數(shù),然后運行這些對象直到全部完成并返回它們的結果 -
run_forever()讓事件循環(huán)一直運行下去,直到stop()方法被調用,當stop()方法被調用時,會繼續(xù)執(zhí)行完正在執(zhí)行的任務,但是這些任務的回調和未被執(zhí)行的任務將不再執(zhí)行。 -
create_task()、create_future()光看名字可能大家會誤以為這兩個方法的功能是創(chuàng)建一個 Task類或者 Future類并將其返回,事實上這兩個方法的功能確實包括這個,但是除此之外它們還會將創(chuàng)建的對象添加到事件循環(huán)中去。
-
-
Future,F(xiàn)uture對象類似于 JavaScript里的 Promise對象,簡單來說就是該對象承諾未來的某個時候會返回一個結果,但是具體的時間是不確定的。所以我們一般在回調函數(shù)里使用 Feture對象,因為這時候 Feture對象一定有返回結果。
-
add_done_callback(func)這個方法為 Future對象添加一個回調函數(shù),該函數(shù)接收一個 Future對象作為第一個參數(shù),在函數(shù)里我們可以通過這個對象來取得其執(zhí)行結果。
-
使用過
asyncio庫的朋友可能會疑惑為什么沒有Task類,這是因為Task類是Future類的子類,我們可以將它們視作具有相同功能的兩個類
三、使用異步的基本方法
首先,對于少量的請求(幾百)我們不推薦使用異步,一般是成千上萬的請求我們才使用異步,比如說爬取全站。
在同步代碼中我們爬取的一般步驟是:請求頁面---->解析頁面---->獲取結果---->保存結果
異步中也是類似的順序,不過我們需要使用回調來確保它們按順序執(zhí)行,像下面這樣:
請求頁面---->回調:解析頁面---->獲取結果---->保存頁面(異步)
比如我們要獲取簡書用戶的關注列表,我們的代碼順序應該是:
請求頁面---->回調:處理頁面---->獲取結果并打印,代碼如下:
#-*- coding: utf-8 -*
import asyncio
import aiohttp
import random
from lxml import etree
PER_NUM = 9
async def get_response(url, **kwargs):
if 'headers' not in kwargs:
kwargs['headers'] = {
'User-Agent': "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
}
async with session.get(url, **kwargs) as response:
print(response.status)
return await response.read()
def process_response(future):
dom = etree.HTML(future.result())
items = dom.xpath('//ul/li//div[@class="info"]')
for item in items:
user = {}
user['uid'] = item.xpath('./a/@href')[0].split('/')[2]
user['follow_num'] = int(item.xpath('./div/span[1]/text()')[0].replace('關注', '').strip())
user['fans_num'] = int(item.xpath('./div/span[2]/text()')[0].replace('粉絲', '').strip())
user['article_num'] = int(item.xpath('./div/span[3]/text()')[0].replace('文章', '').strip())
def entry_point(param):
if isinstance(param, asyncio.Future):
users = param.result()
else:
users = param
for user in users:
uid = user['uid']
follow_num = user['follow_num']
max_page = int(follow_num / PER_NUM) if (follow_num % PER_NUM) == 0 else int(follow_num / PER_NUM)+1
following_urls = ['http://www.itdecent.cn/users/{}/following?page={}'.format(uid, i) for i in
range(1, max_page+1)]
for following_url in following_urls:
task = loop.create_task(get_response(following_url))
task.add_done_callback(process_response)
loop = asyncio.get_event_loop()
session = aiohttp.ClientSession(loop=loop)
users = [{'uid': 'a3ea268aeb60', 'follow_num': 525, 'fans_num': 2521, 'article_num': 118}]
entry_point(users)
loop.run_forever()
在段代碼中我們通過 entry_point 函數(shù)來將所有的請求添加到事件循環(huán)中,并且為每個請求添加了一個回調函數(shù)來獲取關注者的信息,示意圖如下:
