加勒比加勒比熟女人妻,人人妻日韩,AV这里只有精品

首先來看一下一個爬蟲平臺的設(shè)計，作為一個爬蟲平臺，需要支撐多種不同的爬蟲方式，所以一般爬蟲平臺需要包括

1、?爬蟲規(guī)則的維護，平臺在接收到爬蟲請求時，需要能按照匹配一定的規(guī)則去進行自動爬蟲

2、?爬蟲的job調(diào)度器，平臺需要能負(fù)責(zé)爬蟲任務(wù)的調(diào)度，比如定時調(diào)度，輪訓(xùn)調(diào)度等。

3、?爬蟲可以包括異步的海量爬蟲，也可以包括實時爬蟲，異步爬蟲指的是爬蟲的數(shù)據(jù)不會實時返回，可能一個爬蟲任務(wù)會執(zhí)行很久。實時爬蟲指爬的數(shù)據(jù)要實時返回，這個就要求時間很短，一般適合少量數(shù)據(jù)的爬蟲。

4、?爬蟲好的數(shù)據(jù)可以生成指定的文件，比如csv文件，json文件等，然后通過數(shù)據(jù)處理引擎做統(tǒng)一處理，比如csv文件可以通過數(shù)據(jù)交換落入大數(shù)據(jù)平臺，或者爬蟲好的數(shù)據(jù)也可以丟入kafka中，然后再通過流式處理任務(wù)（spark或者storm，flink）做爬蟲數(shù)據(jù)的清洗和處理，處理完的數(shù)據(jù)，可以入到數(shù)據(jù)庫中。

下圖就是在平臺設(shè)計時，爬蟲處理的一個流程，這個里面包含了實時爬蟲，異步爬蟲。

我們這里先介紹異步爬蟲，爬蟲的框架很多，異步爬蟲一般用的比較多就是scrapy。

首先安裝scrapy

pip?install?scrapy

安裝完成后，就可以通過命令行創(chuàng)建一個基于scrapy的爬蟲項目，我們以爬取應(yīng)用寶中理財類APP的名稱為示例

?創(chuàng)建爬蟲項目的命令行命令：

scrapy startproject zj_scrapy

然后在命令行中，進入到創(chuàng)建的zj_scrapy目錄下

cd zj_scrapy

執(zhí)行

scrapy genspider sjqq “sj.qq.com”

創(chuàng)建一個爬蟲

爬蟲創(chuàng)建好了后，可以使用IDE打開創(chuàng)建好的python項目，比如用idea（需要安裝python插件，默認(rèn)沒有安裝）打開我們創(chuàng)建好的項目

項目創(chuàng)建好了后，會默認(rèn)生成一些模板代碼文件

1、 items.py

items用于存儲字段的定義。即爬取的內(nèi)容存與item類中，在這里我們定義了一個name字段。

2、 spider文件編寫

這個文件一般在spiders 這個package下面，默認(rèn)會繼承scrapy.Spider

　　關(guān)于這段代碼的解釋如下：

3、 pipeline文件編寫

pipeline文件一般用于對處理好的爬蟲結(jié)果數(shù)據(jù)做處理，可以入到數(shù)據(jù)庫中，也可以生成到指定的文件中，process_item 方法就是對數(shù)據(jù)做處理的。

另外pipeline 還包含了__init__和close_spider 兩個方法。__init__ 用于做初始化處理。close_spider 用于執(zhí)行結(jié)束時的操作處理。比如數(shù)據(jù)寫入數(shù)據(jù)庫或者文件后，對數(shù)據(jù)庫做鏈接關(guān)閉或者文件流做關(guān)閉操作等。

4、 setting文件修改

setting文件中存放的是爬蟲的配置，常用的配置一般可以包括

1）、ITEM_PIPELINES的配置，比如

ITEM_PIPELINES= {

'zj_scrapy.pipelines.ZjScrapyPipeline':300,

}

這里的300代表了一個優(yōu)先級，數(shù)值范圍一般在0-1000，這個數(shù)值確定了運行的順序，數(shù)字越小，優(yōu)先級越高。

2）、字符集配置，可以通過FEED_EXPORT_ENCODING指定字符集

FEED_EXPORT_ENCODING='utf-8'

3）、CONCURRENT_REQUESTS配置Scrapy執(zhí)行的最大并發(fā)請求數(shù)

# Configure maximum concurrent requests performed by Scrapy (default: 16)

CONCURRENT_REQUESTS = 32

4）配置請求的header，可以通過DEFAULT_REQUEST_HEADERS來進行配置

DEFAULT_REQUEST_HEADERS = {

'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

'Accept-Language': 'en',

}

5、 本地執(zhí)行爬蟲

在上面的都做完后，可以通過執(zhí)行命令行scrapy crawl sjqq -o items.csv 來在本地運行爬蟲，sjqq 就是前面指定的爬蟲名，-o items.csv 表示生成一個csv文件。

運行完成后，可以看到爬取的內(nèi)容已經(jīng)寫到了指定的文件中。

在運行時，可以通過-a 指定自定義的參數(shù)，比如scrapy crawl sjqq -o items.csv -a cc=scrapttest

在這條執(zhí)行命令中，我們指定了一個cc參數(shù)等于scrapttest，在Pipeline

中，我們可以通過代碼獲取這個參數(shù)

在代碼中，我們通過spider.cc 就可以獲取到這個參數(shù)的值，然后在運行日志可以看到，我們打印出來了這個參數(shù)值。

通過這種方式，我們就解決了爬蟲運行時，參數(shù)的的動態(tài)傳遞問題。

6、 爬蟲部署到服務(wù)端

安裝scrapyd?

pipinstallscrapyd

安裝scrapyd-deploy

pipinstallscrapyd-client

scrapyd?是scrapy的爬蟲服務(wù)端，安裝完成后，執(zhí)行scrapyd可以啟動服務(wù)端。

啟動時默認(rèn)端口為6800

啟動后，通過瀏覽器可以訪問http://localhost:6800/

服務(wù)端啟動后，就可以通過scrapyd-deploy 來提交部署開發(fā)好的爬蟲了。

scrapyd-deploy <target>?-p <project>??--version <version>

部署成功后，就可以看到自己的爬蟲項目了

7、 創(chuàng)建服務(wù)端的爬蟲任務(wù)

如果是在linux命令下，可以通過

1curl http://localhost:6800/schedule.json -d project= zj_scrapy -d spider=sjqq

來提交一個爬蟲任務(wù)，提交完成后，會返回提交的任務(wù)狀態(tài)，這個其實就是提交了一個http請求

{

?? "node_name": "ZJPH-0321",

?? "status": "ok",

?? "jobid": "dd7f10aca76e11e99b656c4b90156b7e"

}

提交成功后，可以在瀏覽器的job下面看到任務(wù)的執(zhí)行情況

如果需要攜帶自定義的參數(shù)，那么可以通過-d來指定，比如-d cc=scrapttest，和前面在本地執(zhí)行時，增加自定義參數(shù)是一樣的。

也可以通過http請求工具（比如soapui）提交一個http請求來觸發(fā)一個爬蟲任務(wù)

schedule.json請求中還可以包含如下參數(shù)

setting?(string, optional) –自定義爬蟲settings

jobid?(string, optional) –jobid，之前啟動過的spider，會有一個id，這個是可選參數(shù)

_version?(string, optional) –版本號，之前部署的時候的version，只能使用int數(shù)據(jù)類型，沒指定，默認(rèn)啟動最新版本

8、 scrapyd?其他的API

1）、curlhttp://localhost:6800/daemonstatus.json檢查爬蟲服務(wù)的狀態(tài)

2）、addversion.json增加項目到服務(wù)端 ?如果項目已經(jīng)存在，則增加一個新的版本

POST請求：

project?(string, required) –項目名

version?(string, required) –項目版本，不填寫則是當(dāng)前時間戳

egg?(file, required) –當(dāng)前項目的egg文件

curl http://localhost:6800/addversion.json -F project=myproject -F version=r23 -Fegg=@myproject.egg

3）、? cancel.json

取消一個 spdier的運行

如果 spider是運行狀態(tài)，則停止其運行

如果spider是掛起狀態(tài)，則刪除spider

POST請求：

project?(string, required) –項目名

job?(string, required) -jobid

curl http://localhost:6800/cancel.json -d project=myproject -d job=6487ec79947edab326d6db28a2d86511e8247444

4）、listprojects.json

獲取當(dāng)前已上傳的項目的列表

GET請求：

curl http://localhost:6800/listprojects.json

5）、listversions.json

獲取指定項目的可用版本

GET請求：

project?(string, required) –項目名

curl http://localhost:6800/listversions.json?project=myproject

6）、listspiders.json

獲取指定版本的項目中的爬蟲列表，如果沒有指定版本，則是最新版本

GET請求：

project?(string, required) –項目名

_version?(string, optional) –版本號

$ curl http://localhost:6800/listspiders.json?project=myproject

7）、?listjobs.json

獲取指定項目中所有掛起、運行和運行結(jié)束的job

GET請求

project?(string, option) - restrict results to project name

curl http://localhost:6800/listjobs.json?project=myproject | python -m json.tool

8）、delversion.json

刪除指定項目的指定版本

POST請求

project?(string, required) - the project name

version?(string, required) - the project version

curl http://localhost:6800/delversion.json -d project=myproject -d version=r99

9）、delproject.json

刪除指定項目，并且包括所有的版本

POST請求

project?(string, required) - the project name

curl http://localhost:6800/delproject.json -d project=myproject

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

教你實現(xiàn)python爬蟲平臺的架構(gòu)和框架的選型一一

教你實現(xiàn)python爬蟲平臺的架構(gòu)和框架的選型一一

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

教你實現(xiàn)python爬蟲平臺的架構(gòu)和框架的選型一一

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av