scrapy 的使用思路

1、創(chuàng)建 scrapy 項(xiàng)目 scrapy startproject filedName
-w753
-w523

明確目標(biāo)

-w793
2、scrapy genspider filedName itcase.cn(爬取域范圍)
-w758
3、爬取 scrapy crawl [crawl name] -o file

爬蟲命令導(dǎo)出文件,支持四種導(dǎo)出文件方式, Json,csv,xml,json lines

-w751
WX20180828-215138
-w822

爬蟲出現(xiàn)亂碼可以使用代碼解決

-w803

yield 作用: 返回?cái)?shù)據(jù),函數(shù)變?yōu)樯善?,一直獲取值,值不會(huì)重新執(zhí)行,有 Return 一樣的作用。在上次執(zhí)行的地方繼續(xù)執(zhí)行。返回給管道,返回給管道后,繼續(xù)進(jìn)行到 for 循環(huán)里面。避免存放到空列表中占用較大內(nèi)存。

錯(cuò)誤提示處理:

TypeError: write() argument must be str, not bytes

之前文件打開的語句是:

filehandle = open(WAV_FILE, 'w')
然后使用二進(jìn)制方式打開就沒有這個(gè)問題:

filehandle = open(WAV_FILE, 'wb+')
產(chǎn)生問題的原因是因?yàn)榇鎯?chǔ)方式默認(rèn)是二進(jìn)制方式。


爬蟲的一般步驟

-w604

469.jpg)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容