色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

登錄注冊寫文章

2018-07-12

2018-07-12

一、scrapy 創(chuàng)建項目

scrapy startproject first 創(chuàng)建項目
cd first
scrapy genspider chouti dig.chouti.com 創(chuàng)建爬蟲文件

scrapy crawl chouti --nolog 執(zhí)行爬蟲,忽略日志

windows打印中文出錯解決方式（開頭加上）：
sys.stdout=io.TextIOWrapper(sys.stdout.buffer, encoding='gb18030')

代替bs4的內(nèi)部解析器：

response.xpath
from scrapy.selector import HtmlXPathSelector
xph = HtmlXPathSelector()

spider爬取數(shù)據(jù),parse返回 yield items
items相當(dāng)于model,定義字段
pipline 做持久化，需要在配置文件注冊

pipline

from_crawler(cls, crawler) 優(yōu)先執(zhí)行，可用來取配置信息

path = crawler.settings.get("PATH") # 配置文件必須大寫
return cls(path)

init(self, path) 初始化
self.path = path
open_spider(self, spider) pipline開始前執(zhí)行
close_spider(self, spider) pipline結(jié)束后執(zhí)行

二級下載

from scrapy.http import Request
yield Request(url=page_url, callback=self.parse, meta={'cookiejar': True})

丟棄item,不傳遞給下一個pipline的process_item

from scrapy.exceptions import DropItem
raise DropItem()

拿cookies的方式

response.headers.getlist("Set-cookie")
from scrapy.http.cookies import cookie_jar
cookie_jar = CookieJar()
cookie_jar.extract_cookies(response, response.request)
cookie_jar._cookies.items()
scrapy 自動操作
meta={'cookiejar': True}

去重

配置文件：DUPEFILTER_CLASS = 'scrapy.dumpfilter.MyDupeFilter'

取url唯一值：
from scrapy.util.request import request_fingerprint
unique = request_fingerprint(url)

USER_AGENT：配置文件可配置

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成，瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點，簡書系信息發(fā)布平臺，僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

scrapy學(xué)習(xí)筆記(有示例版）
scrapy學(xué)習(xí)筆記(有示例版）我的博客 scrapy學(xué)習(xí)筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
陳思煜閱讀 13,079評論 4贊 46
下載器中間件
下載器中間件(Downloader middlewares) https://cloud.tencent.com/...
點點漁火閱讀 1,165評論 0贊 1

知識付費的痛點——如何讓用戶持續(xù)學(xué)習(xí)
距離2016知識付費元年已經(jīng)過去了兩年，在這個風(fēng)口中，知乎、得到、分答、喜馬拉雅、混沌大學(xué)、樊登讀書會等知識服務(wù)商...
落筆小馨閱讀 1,623評論 1贊 7
2018-07-12 Oracle for update和for update nowait的區(qū)別
Oracle for update和for update nowait的區(qū)別原版排版太難看了看著鬧眼睛。http...
Albert陳凱閱讀 606評論 0贊 0
深夜一點
今天發(fā)生了太多事。去辦了張銀行卡，中間各種繁瑣的下軟件，收驗證碼，花費近一個小時，心情很急躁。去喝了場喜酒，婚...
花落華妃化肥閱讀 99評論 0贊 0

友情鏈接更多精彩內(nèi)容

贊1贊

贊賞

手機看全文

新泰市| 巴中市| 嵊泗县| 沈丘县| 资源县| 邢台县| 盐边县| 福安市| 衡山县| 祁阳县| 苏尼特左旗| 昌宁县| 福贡县| 遵化市| 土默特左旗| 饶河县| 衡阳县| 桃江县| 固安县| 新沂市| 新河县| 盈江县| 互助| 绥中县| 东平县| 青田县| 赤壁市| 湟源县| 麻江县| 霍山县| 神池县| 厦门市| 苍南县| 元氏县| 崇信县| 西贡区| 大英县| 海阳市| 孝昌县| 南汇区| 迁安市|