1、創(chuàng)建 scrapy 項(xiàng)目 scrapy startproject filedName

-w753

-w523
明確目標(biāo)

-w793
2、scrapy genspider filedName itcase.cn(爬取域范圍)

-w758
3、爬取 scrapy crawl [crawl name] -o file
爬蟲命令導(dǎo)出文件,支持四種導(dǎo)出文件方式, Json,csv,xml,json lines

-w751

WX20180828-215138

-w822
爬蟲出現(xiàn)亂碼可以使用代碼解決

-w803
yield 作用: 返回?cái)?shù)據(jù),函數(shù)變?yōu)樯善?,一直獲取值,值不會(huì)重新執(zhí)行,有 Return 一樣的作用。在上次執(zhí)行的地方繼續(xù)執(zhí)行。返回給管道,返回給管道后,繼續(xù)進(jìn)行到 for 循環(huán)里面。避免存放到空列表中占用較大內(nèi)存。
錯(cuò)誤提示處理:
TypeError: write() argument must be str, not bytes
之前文件打開的語句是:
filehandle = open(WAV_FILE, 'w')
然后使用二進(jìn)制方式打開就沒有這個(gè)問題:
filehandle = open(WAV_FILE, 'wb+')
產(chǎn)生問題的原因是因?yàn)榇鎯?chǔ)方式默認(rèn)是二進(jìn)制方式。
爬蟲的一般步驟

-w604
469.jpg)