国产情四射啊综合夜,亚洲日韩精品探花

通過(guò)閱讀《learning scrapy》這本書(shū)提高自己的爬蟲(chóng)知識(shí)水平，記錄些覺(jué)得比較有意思的地方吧

1 xpath

xpath是查找元素節(jié)點(diǎn)的重要工具。入門(mén)的話(huà)自行百度，下面是幾個(gè)有意思的例子

任意div下面的a "http://div//a"
任意a的文本 "http://a/text()"
任意a的href "http://a/@href"
任意div下的子節(jié)點(diǎn) "http://div/*"
任意含有href屬性的a "http://a[@href]"
任意含有href屬性并且href含有qq的a "http://a[contains(@href,"qq")]
任意含有href屬性并且href以https開(kāi)頭的a "http://a[starts-with(@href,"https)]"
任意含有href屬性并且href不以https開(kāi)頭的a "http://a[not(starts-with(@href,"https))]"
獲得id為firstHeading的h1節(jié)點(diǎn)的子節(jié)點(diǎn)的span的文案 //h1[@id="firstHeading"]/span/text()
獲得任意class含有l(wèi)tr和skin-vector的節(jié)點(diǎn)下的任意子孫節(jié)點(diǎn)h1的文案 //*[contains(@class,"ltr") and contains(@class,"skin-vector")]//
h1//text()
獲得文案為References 的節(jié)點(diǎn)的父節(jié)點(diǎn)之后的所有兄弟節(jié)點(diǎn)下的a標(biāo)簽 //*[text()="References"]/../following-sibling::div//a

xpath查找小提示：

避免用 @class=“xxx”的方式查找，因?yàn)閡i改版css class 變動(dòng)的概率很大，而用contains會(huì)好很多
用有特定意義的class定位比通用的好用，例如用 “miaosha” 好過(guò) 用“green”
3.id通常不會(huì)變，而且通常有唯一性，所以能用id定位盡量使用id

2. settings

scrapy 的setting配置是非常重要的一部分，按照功能模塊劃分一下主要的設(shè)置項(xiàng)

2.1 Analysis 分析用

Analysis 的參數(shù)

2.1.1 Logging

Scrapy 有不同等級(jí)的log： DEBUG (lowest level), INFO,
WARNING, ERROR, CRITICAL (highest level), SILENT(no logging). 可以設(shè)置log 文件只接受基本大于等于目標(biāo)level.通過(guò)LOG_LEVEL設(shè)置
LOG_STDOUT 是是否所有輸出含print 寫(xiě)入日志文件
其他的可自己去查文檔

2.1.2 Stats

STATS_DUMP ：默認(rèn)為T(mén)rue ,是否在結(jié)束時(shí)將統(tǒng)計(jì)數(shù)據(jù)寫(xiě)入log文件，關(guān)于統(tǒng)計(jì)數(shù)據(jù)后面會(huì)寫(xiě)
DOWNLOADER_STATS ：默認(rèn) True，是否啟用下載統(tǒng)計(jì)收集
DEPTH_STATS : 默認(rèn)True，是否收集爬取深度統(tǒng)計(jì)信息
DEPTH_STATS_VERBOSE：默認(rèn)False，收集爬取深度的完整信息
STATSMAILER_RCPTS ：爬取完成后發(fā)生統(tǒng)計(jì)信息的通知郵箱列表如 ['my@mail.com']

2.1.3 telnet 是在爬取過(guò)程中能夠訪(fǎng)問(wèn)爬取狀態(tài)的方式

scrapy 運(yùn)行過(guò)程中能夠通過(guò) telnet 控制 pause continue 和 stop
TELNETCONSOLE_ENABLED 控制是否啟用telnet ，默認(rèn)為T(mén)rue
TELNETCONSOLE_PORT 是端口號(hào)，不用設(shè)置程序會(huì)自己分配好
shell啟動(dòng)scrapy后輸出

[scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023:6023

這樣的控制臺(tái)信息
然后可以通過(guò)

telnet localhost 6023

連接

通過(guò)

>>> engine.pause()
>>> engine.unpause()
>>> engine.stop()

控制

2.2 Performance性能相關(guān)

性能這塊后面會(huì)細(xì)講，這里只是描述下設(shè)置項(xiàng)

Performance性能相關(guān)

CONCURRENT_REQUESTS ：并發(fā)數(shù)
CONCURRENT_REQUESTS_PER_DOMAIN 和CONCURRENT_REQUESTS_PER_IP 顧名思義是控制每個(gè)域名和ip的爬取并發(fā)數(shù)，
如果 CONCURRENT_REQUESTS_PER_IP不為0那么CONCURRENT_REQUESTS_PER_DOMAIN的配置會(huì)忽略
DOWNLOAD_TIMEOUT 是request發(fā)起后downloader的等待時(shí)間，超時(shí)取消request，默認(rèn)180s
DOWNLOAD_DELAY 請(qǐng)求完成到下一次發(fā)起的間隔
RANDOMIZE_DOWNLOAD_DELAY Ture 表示對(duì)DOWNLOAD_DELAY進(jìn)行+-%50區(qū)間的隨機(jī)處理
DNSCACHE_ENABLED ：默認(rèn)Ture 使用內(nèi)存中的dns緩存

2.3 中斷和使用緩存

中斷和使用緩存

滿(mǎn)足設(shè)置好的條件后spider可以自己停止爬取如
CLOSESPIDER_ITEMCOUNT：itempipeline處理了超過(guò)xx個(gè)item后 spider處理完未處理的任務(wù)后停止
CLOSESPIDER_TIMEOUT ：爬取超時(shí) xx秒后停止，0的話(huà)為不會(huì)因?yàn)槌瑫r(shí)停止
CLOSESPIDER_PAGECOUNT：處理了xx個(gè)response后停止
CLOSESPIDER_ERRORCOUNT：發(fā)生錯(cuò)誤xx次停止如http錯(cuò)誤 404 500....，默認(rèn)不會(huì)因?yàn)殄e(cuò)誤停止
如果使用了 HttpCacheMiddleware 的話(huà) 可以使用緩存設(shè)置
HTTPCACHE_ENABLED ：是否使用緩存，默認(rèn)False
HTTPCACHE_DIR ：緩存路徑
HTTPCACHE_POLICY ：Cache策略的實(shí)現(xiàn)類(lèi)，默認(rèn)是scrapy.extensions.httpcache.DummyPolicy
HTTPCACHE_STORAGE ：緩存的存儲(chǔ)方式，默認(rèn)是 scrapy.extensions.httpcache.FilesystemCacheStorage
HTTPCACHE_DBM_MODULE ：數(shù)據(jù)庫(kù)模塊默認(rèn)是anydbm
這一塊如果用處大可以獨(dú)立搞一套

3 Twisted

Scrapy是基于Twisted開(kāi)發(fā)的，了解Scrapy之前學(xué)習(xí)一下Twisted對(duì)于理解也會(huì)加強(qiáng)吧
需要記得Twisted是基于事件驅(qū)動(dòng)的網(wǎng)絡(luò)框架，細(xì)節(jié)可以自行百度
deferred 是基礎(chǔ)單位，可以用來(lái)構(gòu)成事件驅(qū)動(dòng)
簡(jiǎn)單的用法如下

from twisted.internet import defer
d=defer.Deferred()
print(d.called) #False
d.callback(3)
print(d.called) #True
print(d.result) #3
def addval(v):
    print("inputval is"+str(v))
    return v+1;
d=defer.Deferred()
d.addCallback(addval)

d.callback(3) # 驅(qū)動(dòng) addval(3)
print(d.result) #4

通過(guò)addCallback的方式可以改變回調(diào)事件鏈

from twisted.internet import defer
a=defer.Deferred()
b=defer.Deferred()


def a_callback(v):
    print(v)
    return {"value":v}
def b_callback(v):
    print(v)
    #返回deferred讓事件鏈改變
    return b

def c_callback(v):
    print("ccallback",end=" ")
    print(v)
a.addCallback(a_callback).addCallback(b_callback).addCallback(c_callback)
a.callback(3)
#print 3 然后print {'value': 3}
b.callback(99)
# ccallback 99

DeferredList用來(lái)構(gòu)建事件鏈，只有參與構(gòu)建的Deferred 全部有了callback 才會(huì)回調(diào)callback 事件，

import time
from twisted.internet import defer
from concurrent import futures
def done(v):
    print("done with ",end="")
    print(v)
deferreds=[defer.Deferred() for  x in range(5)]
times=[1,2,2,1]
join=defer.DeferredList(deferreds)
join.addCallback(done)
def timesleep(sleepsecond,x):
    print("sleep %s"%(sleepsecond))
    time.sleep(sleepsecond)
    deferreds[x].callback(x)
    print("%s callbak %s"%(sleepsecond,x))
with futures.ThreadPoolExecutor(8) as pool:
    for x in range(4):
        append=pool.submit(timesleep,times[x],x)
deferreds[4].callback(99)
#全部完成后會(huì)打印
#done with [(True, 0), (True, 1), (True, 2), (True, 3), (True, 99)]
#如果使用了 errback ，True會(huì)變?yōu)镕alse

通過(guò)inlineCallbacks 可以進(jìn)行事件調(diào)度，下面的流程就是
d1 callback完，調(diào) next 代碼繼續(xù)走執(zhí)行 d2 callback next 然后執(zhí)行return 調(diào)用最外層的callback

from twisted.internet import reactor, defer


def loadRemoteData(callback):
    import time
    time.sleep(1)
    callback(1)


def loadRemoteData2(callback):
    import time
    time.sleep(1)
    callback(2)


@defer.inlineCallbacks
def getRemoteData():
    d1 = defer.Deferred()
    reactor.callInThread(loadRemoteData, d1.callback)
    r1 = yield d1

    d2 = defer.Deferred()
    reactor.callInThread(loadRemoteData2, d2.callback)
    r2 = yield d2

    return r1 + r2


def getResult(v):
    print("result=", v)


if __name__ == '__main__':
    d = getRemoteData()
    d.addCallback(getResult)

    reactor.callLater(4, reactor.stop);
    reactor.run()

4 scrapy 程序框架簡(jiǎn)述

可以先看下scrapy的工作框架圖

scrapy的工作框架

我們寫(xiě)的spiders是工作架構(gòu)的核心，它們用于創(chuàng)建request 、解析response 并且產(chǎn)出items和更多的requests

itemPipeline 是我們用來(lái)處理的item的管道
process_item() 可以用來(lái)處理item，我們處理完了item 可以return item，讓下一個(gè)pipeline處理，也可以 raising DropItem exception 以結(jié)束這個(gè)item的后續(xù)處理流程
open_spider() 方法會(huì)在初始化spider的回調(diào)
close_spider() 方法會(huì)在spider結(jié)束的時(shí)候回調(diào)

downloader middlewares 是下載和請(qǐng)求的中間件，默認(rèn)的下載中間件的源碼可以在github上查看 SPIDER_MIDDLEWARES_BASE setting in settings/default_settings.py

4.1 itemPipeline 示例

from datetime import datetime
class TidyUp(object):
def process_item(self, item, spider):
item['date'] = map(datetime.isoformat, item['date'])
return item

然后修改setting.py的內(nèi)容，滿(mǎn)足

TEM_PIPELINES = {'properties.pipelines.tidyup.TidyUp': 100 }

properties.pipelines.tidyup.TidyUp為自定義的pipeline的完整類(lèi)名

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

learning scrapy 讀書(shū)筆記

learning scrapy 讀書(shū)筆記

1 xpath

2. settings

2.1 Analysis 分析用

2.1.1 Logging

2.1.2 Stats

2.1.3 telnet 是在爬取過(guò)程中能夠訪(fǎng)問(wèn)爬取狀態(tài)的方式

2.2 Performance性能相關(guān)

2.3 中斷和使用緩存

3 Twisted

4 scrapy 程序框架簡(jiǎn)述

4.1 itemPipeline 示例

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

learning scrapy 讀書(shū)筆記

1 xpath

2. settings

2.1 Analysis 分析用

2.1.1 Logging

2.1.2 Stats

2.1.3 telnet 是在爬取過(guò)程中能夠訪(fǎng)問(wèn)爬取狀態(tài)的方式

2.2 Performance性能相關(guān)

2.3 中斷和使用緩存

3 Twisted

4 scrapy 程序框架簡(jiǎn)述

4.1 itemPipeline 示例

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av