婷婷精一区二区三,97在线偷拍视频,亚洲人视频

說(shuō)明：此文檔主要聚焦在Docker的使用上，必須配和爬蟲(chóng)教程 · 網(wǎng)絡(luò)爬蟲(chóng)教程一起使用。

注意：一定要配合入門(mén)教程 · 網(wǎng)絡(luò)爬蟲(chóng)教程

總結(jié)

先放干貨，使用docker來(lái)運(yùn)行scrapy其實(shí)只需要做到以下兩點(diǎn)即可：

1. 在項(xiàng)目的當(dāng)前目錄中

2. 在scrapy命令前加上docker run --name scrapy --rm -v $(pwd):/runtime/app aciobanu/scrapy

如果你已經(jīng)會(huì)使用scrapy了，看到這里就可以了。

下載鏡像

從Docker hub下載aciobanu/scrapy - Docker Hub并創(chuàng)建教程項(xiàng)目


$ mkdir ~/scrapy

$ cd ~/scrapy

$ docker run --rm -v $(pwd):/runtime/app aciobanu/scrapy startproject tutorial

以上命令中

-v是把當(dāng)前目錄映射到容器中的/runtime/app目錄

--rm是在停止容器后自動(dòng)刪除容器

執(zhí)行以上命令后會(huì)生成tutorial目錄，這些文件分別是：


scrapy.cfg: 項(xiàng)目的配置文件；（用于發(fā)布到服務(wù)器）
tutorial/: 該項(xiàng)目文件夾。之后將在此編寫(xiě)Python代碼。
tutorial/items.py: 項(xiàng)目中的item文件;（定義結(jié)構(gòu)化數(shù)據(jù)字段field）.
tutorial/pipelines.py: 項(xiàng)目中的pipelines文件;（用于存放執(zhí)行后期數(shù)據(jù)處理的功能，定義如何存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù))
tutorial/settings.py: 項(xiàng)目的設(shè)置文件；(如何修改User-Agent，設(shè)置爬取時(shí)間間隔，設(shè)置代理，配置中間件等等)
tutorial/spiders/: 放置spider代碼的目錄;（編寫(xiě)爬取網(wǎng)站規(guī)則）

編寫(xiě)爬蟲(chóng)

編寫(xiě)第一個(gè)爬蟲(chóng)

接下來(lái)按入門(mén)教程 · 網(wǎng)絡(luò)爬蟲(chóng)教程編寫(xiě)第一個(gè)爬蟲(chóng)。（請(qǐng)先去看完教程再回來(lái)繼續(xù)）

爬取

然后運(yùn)行以下命令執(zhí)行爬蟲(chóng)


docker run --rm -v $(pwd):/runtime/app aciobanu/scrapy scrapy crawl tencent

以上命令中最后的scrapy crawl tencent就是我們要執(zhí)行的命令

可以看到已經(jīng)生成了tengxun.txt

提取Item

接下來(lái)運(yùn)行命令


docker run -it  --rm -v $(pwd):/runtime/app aciobanu/scrapy scrapy shell "[http://hr.tencent.com/position.php?&start=0#a"](http://hr.tencent.com/position.php?&start=0#a")

以上命令中的-it意思是啟用交互式命令行

嘗試Selector選擇器

之后可以嘗試以下命令


response.xpath('//title')

response.xpath('//title').extract()

print response.xpath('//title').extract()[0]

response.xpath('//title/text()')

response.xpath('//title/text()')[0].extract()

print response.xpath('//title/text()')[0].extract()

response.xpath('//title/text()').re('(\w+):')

還可以嘗試更多的提取參數(shù)，查看輸出內(nèi)容的變化。

最后輸入quit()關(guān)閉容器。

提取數(shù)據(jù)

按爬蟲(chóng)教程中修改tencent_spider.py文件內(nèi)容如下：


import scrapy
from tutorial.items import RecruitItem

class RecruitSpider(scrapy.spiders.Spider):
  name = "tencent"
  allowed_domains = ["hr.tencent.com"]
  start_urls = [
    "https://hr.tencent.com/position.php?&start=0#a"
  ]
  def parse(self, response):
    for sel in response.xpath('//*[@class="even"]'):
      name = sel.xpath('./td[1]/a/text()').extract()[0]
      detailLink = sel.xpath('./td[1]/a/@href').extract()[0]
      catalog = sel.xpath('./td[2]/text()').extract()[0]
      recruitNumber = sel.xpath('./td[3]/text()').extract()[0]
      workLocation = sel.xpath('./td[4]/text()').extract()[0]
      publishTime = sel.xpath('./td[5]/text()').extract()[0]
      print(name, detailLink, catalog,recruitNumber,workLocation,publishTime)
      item = RecruitItem()
      item['name']=name.encode('utf-8')
      item['detailLink']=detailLink.encode('utf-8')
      item['catalog']=catalog.encode('utf-8')
      item['recruitNumber']=recruitNumber.encode('utf-8')
      item['workLocation']=workLocation.encode('utf-8')
      item['publishTime']=publishTime.encode('utf-8')
      yield item

注意最后的print要加括號(hào)。我運(yùn)行時(shí)不加括號(hào)會(huì)出錯(cuò)。

執(zhí)行以下命令：


docker run --name scrapy --rm -v $(pwd):/runtime/app aciobanu/scrapy scrapy crawl tencent -o items.json

查看生成的items.json文件的內(nèi)容，可以看到爬取的結(jié)果。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

scrapy docker教程

scrapy docker教程

總結(jié)

下載鏡像

編寫(xiě)爬蟲(chóng)

編寫(xiě)第一個(gè)爬蟲(chóng)

爬取

提取Item

嘗試Selector選擇器

提取數(shù)據(jù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

scrapy docker教程

總結(jié)

下載鏡像

編寫(xiě)爬蟲(chóng)

編寫(xiě)第一個(gè)爬蟲(chóng)

爬取

提取Item

嘗試Selector選擇器

提取數(shù)據(jù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av