久操视频在线色臀,黄色片,日韩

QUANTAXIS 爬蟲部分

目前的QUANTAXIS爬蟲是用python的scrapy框架寫的,為了運(yùn)行JavaScript,還使用了selenium+phantomjs作為瀏覽器內(nèi)核.爬完的數(shù)據(jù)都存放在mongodb里面.

原始的quantaxis_spider架構(gòu)

之后可能會(huì)向純JavaScript爬蟲去轉(zhuǎn)變,但目前先把python下的爬蟲框架梳理一下.

python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium

安裝scrapy,selenium

安裝完在命令行輸入scrapy

scrapy startproject projectName(你的爬蟲名)
cd projectName

安裝項(xiàng)目

安裝完了會(huì)有幾個(gè)項(xiàng)目

-項(xiàng)目名稱
  --scrapy.cfg(配置文件)
  --爬蟲名命名的文件夾
      --items.py
      --middleware.py
      --pipelines.py
      --settings.py
      --_init.py
      --spider(文件夾)
          --_init_.py
          --爬的網(wǎng)站名命名的python文件.py

第一層目錄

第二層目錄

第三層目錄

運(yùn)行爬蟲在第一層

scrapy crawl 爬蟲名

組件都在第二層目錄里
items.py 主要是保存的管道
middleware.py 中間件,一般而言,只用他的下載中間件
pipelines.py 和數(shù)據(jù)庫交互的管道
settings.py 設(shè)置文件

第三層目錄下
主要是核心邏輯,從哪里爬(start_url)
爬到以后的響應(yīng)處理(從response里面取出,selector去選擇你需要的內(nèi)容),一般是正則化或者是xpath取出
處理后的存儲(chǔ)(items的引入)

具體的案例
QUANTAXIS_SPIDER

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

QUANTAXIS.SPIDER 爬蟲部分

QUANTAXIS.SPIDER 爬蟲部分

QUANTAXIS 爬蟲部分

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

QUANTAXIS.SPIDER 爬蟲部分

QUANTAXIS 爬蟲部分

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av