精品一二三四,av玖玖爱久久,青青草久久久

1.scrapy開始start_url為post請求：

以前的做法：在spider里面定義好start_urls，會調(diào)用父類scrapy.Spider的start_requests，這樣只適用get請求，當(dāng)遇到post請求的時候該怎么辦呢？
現(xiàn)在的做法：重寫父類的start_requests方法

# 當(dāng)請求參數(shù)是json格式
def start_requests(self):

        data = {"request": {"body": {"page": 1, "row": 10}}}

        # FormRequest 是Scrapy發(fā)送POST請求的方法
        yield scrapy.Request(self.start_url, method="POST",
                             body=json.dumps(data),
                             headers={'Content-Type': 'application/json'})

# 當(dāng)請求參數(shù)是form表單
def start_requests(self):
    form_data = {'account':'jack123@gmail.com', 'password':'123456'}  # 表單數(shù)據(jù)，字典格式，注意數(shù)字也要用引號引起來，否則報錯。
    yield scrapy.FormRequest(url, formdata=form_data)

??form請求時必須是字符串格式的對象，否則會出現(xiàn)以下問題：

對象中含有int類型

整數(shù)類型.png

??form請求時遇到多個相同的參數(shù)時，會出現(xiàn)覆蓋，scrapy.FormRequest傳入的參數(shù)必須是鍵值對,這個時候要把相同key的數(shù)據(jù)保存在列表中，源碼中是這樣的：

FormRequest類

對參數(shù)進(jìn)行編碼

這里顯示是遍歷鍵值對，所以修改為：

修改傳遞參數(shù)

2.scrapy爬取時，parse必須返回的是scrapy.request或者dict：

def parse(self, response):
        # 解析具體的產(chǎn)品
        selector = Selector(response)
        for product_item in selector.xpath("http://tbody/tr"):
            item = BankproductItem()
            item['bankCode'] = 'cib'
            item['channel'] = 'web'
            item['proCode'] = re.search('lccp(.*?).png', product_item.xpath('td[9]/img/@src').extract()[0]).group(1)

            # 判斷屬否有超鏈接
            proName = re.search('<a[\S\s]*>(.*?)</a>', product_item.xpath('td[1]').extract()[0])
            item['proName'] = proName.group(1) if (proName != None) else product_item.xpath('td[1]/text()').extract()[0]

            item['incomeRate'] = product_item.xpath('td[7]/text()').extract()[0]
            item['currency'] = product_item.xpath('td[4]/text()').extract()[0]
            item['startDate'] = product_item.xpath('td[2]/text()').extract()[0]
            item['endDate'] = product_item.xpath('td[3]/text()').extract()[0]
            # 大額客戶參考凈收益率(客戶要求放在next_income_rate）
            item['nextIncomeRate'] = product_item.xpath('td[8]/text()').extract()[0]

            # 判斷是否含有超鏈接
            href_num = len(product_item.xpath('td[1]/a/@href').extract())
            if href_num > 0:
                next_page_url = "{}{}".format(self.base_url, product_item.xpath('td[1]/a/@href').extract()[0])
                yield scrapy.Request(next_page_url, meta={'item': item}, callback=self.parse_product_detail,
                                     dont_filter=True)
            else:
                yield item
        pass

3.獲取response對象的中的request屬性中的參數(shù)：

#獲取body屬性，字節(jié)轉(zhuǎn)化為字符
str(response.request.body,encoding="utf-8")

4.解析table表格中遇到多行合并的情況(遇到：xpath helper插件和python xpath有區(qū)別）：

 # 判斷是否是購買渠道
        title = title_item.xpath("td[13]/text()").extract()[0]
        if title == '購買渠道':
            # 兼容有的情況下多行合并的情況
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[13]/text()").extract()[0]
            else:
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    #  依次向上尋找兄弟節(jié)點
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[13]/text()").extract()[0]
                        break
        else:
            if title_num == child_num:
                item['sellChannel'] = product_item.xpath("td[15]/text()").extract()[0]
            else:
                # 兄弟節(jié)點的個數(shù)
                siblings = len(product_item.xpath("preceding-sibling::tr"))
                for i in range(1, siblings):
                    # 依次向上尋找兄弟節(jié)點
                    sibling = product_item.xpath("preceding-sibling::tr["+str(i)+"]")
                    if len(sibling.css("td")) == title_num:
                        item['sellChannel'] = sibling.xpath("td[15]/text()").extract()[0]
                        break

5.python中定義靜態(tài)的方法：

@staticmethod,可以通過類名直接調(diào)用

6.遍歷一個list集合，怎么可以得到索引下標(biāo)

# enumerate將一個可遍歷的數(shù)據(jù)對象(如列表、元組或字符串)組合為一個索引序列
for index, product_item in enumerate(table_selector.xpath("tr[not(contains(td,'產(chǎn)品名稱'))]")):

7.python使用pymongo操作mongodb，設(shè)置不返回_id

字段的狀態(tài)設(shè)置為0

8.字符串分割

使用python內(nèi)部字符串的split方法，只能支持單個分隔str.split('/'),要使用多個分隔符，可以使用re庫,re.split('/|='),不同的分割符號之間必須使用|分割開來。

9.多個xpath可以一起使用，中間用|分割

# 多個xpath路徑可以一起使用
item['incomeRate'] = self.__get_xpath_value(product_item,"td[9]/strong/text()|td[9]/text()").strip()

8.scrapy自動限速擴展

在settings.py配置文件中設(shè)置：
啟用AutoThrottle擴展(默認(rèn)是False)：AUTOTHROTTLE_ENABLED=True
起用AutoThrottle調(diào)試(debug)模式(默認(rèn)是False):AUTOTHROTTLE_DEBUG=True

9.scrapy爬取的頁數(shù)過多，漏掉了很多數(shù)據(jù)

scrapy中默認(rèn)的頁面請求速度與數(shù)據(jù)下載速度過快，造成服務(wù)器返回的數(shù)據(jù)為空，所以，只要修改配置文件settings.py,將其中的訪問速度與下載速度調(diào)整一下:

#遵守robots協(xié)議
ROBOTSTXT_OBEY = True
#并發(fā)請求個數(shù)（越小越慢）
CONCURRENT_REQUESTS = 1
#下載延遲時間（越大請求越慢）
DOWNLOAD_DELAY = 5
#默認(rèn)False;為True表示啟用AUTOTHROTTLE擴展
AUTOTHROTTLE_ENABLED = True
#默認(rèn)3秒;初始下載延遲時間
AUTOTHROTTLE_START_DELAY = 1
#默認(rèn)60秒；在高延遲情況下最大的下載延遲
AUTOTHROTTLE_MAX_DELAY = 3
#使用httpscatch緩存
HTTPCACHE_ENABLED = True
HTTPCACHE_EXPIRATION_SECS = 1
HTTPCACHE_DIR = 'httpcache'
HTTPCACHE_IGNORE_HTTP_CODES = []
HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

python+scrapy爬蟲總結(jié)

python+scrapy爬蟲總結(jié)

1.scrapy開始start_url為post請求：

2.scrapy爬取時，parse必須返回的是scrapy.request或者dict：

3.獲取response對象的中的request屬性中的參數(shù)：

4.解析table表格中遇到多行合并的情況(遇到：xpath helper插件和python xpath有區(qū)別）：

5.python中定義靜態(tài)的方法：

6.遍歷一個list集合，怎么可以得到索引下標(biāo)

7.python使用pymongo操作mongodb，設(shè)置不返回_id

8.字符串分割

9.多個xpath可以一起使用，中間用|分割

8.scrapy自動限速擴展

9.scrapy爬取的頁數(shù)過多，漏掉了很多數(shù)據(jù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

python+scrapy爬蟲總結(jié)

1.scrapy開始start_url為post請求：

2.scrapy爬取時，parse必須返回的是scrapy.request或者dict：

3.獲取response對象的中的request屬性中的參數(shù)：

4.解析table表格中遇到多行合并的情況(遇到：xpath helper插件和python xpath有區(qū)別）：

5.python中定義靜態(tài)的方法：

6.遍歷一個list集合，怎么可以得到索引下標(biāo)

7.python使用pymongo操作mongodb，設(shè)置不返回_id

8.字符串分割

9.多個xpath可以一起使用，中間用|分割

8.scrapy自動限速擴展

9.scrapy爬取的頁數(shù)過多，漏掉了很多數(shù)據(jù)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

2.scrapy爬取時，parse必須返回的是scrapy.request或者dict：

6.遍歷一個list集合，怎么可以得到索引下標(biāo)

9.多個xpath可以一起使用，中間用|分割

9.scrapy爬取的頁數(shù)過多，漏掉了很多數(shù)據(jù)