Python

  1. 運(yùn)行scrapy程序

scrapy crawl kaili_spider

  1. 編程最好都用空格
  2. scrapy方法傳參默認(rèn)第一個(gè)傳self
  3. scrapy輸出抓取內(nèi)容到文件

yield item
scrapy crawl kaili_spider -o kaili_spider.json

  1. scrapy中parse不能返回item列表,但作為callback的parse_item卻可以參照
  2. scrapy輸出log

scrapy crawl tencent_crawl --logfile 'ten.log' -L INFO

  1. scrapy調(diào)度器對(duì)請(qǐng)求隊(duì)列的處理方式是請(qǐng)求在隊(duì)列中是按后進(jìn)先出的順序到調(diào)度器的(知乎真是一個(gè)好網(wǎng)站)
  2. scrapy xpath返回對(duì)象還想繼續(xù)調(diào)用xpath則不要調(diào)用extract
  3. Python疑點(diǎn)解答
  4. Scrapy設(shè)置定時(shí)任務(wù)
  5. scrapy spider配置pipeline
  6. deploy spider to scrapyd

python c:\Python27\Scripts\scrapyd-deploy <target> -p <project>
<target>:scrapy.cfg中[deploy:后的名字
<project>:項(xiàng)目名稱

  1. 命令scrapyd要到項(xiàng)目根目錄運(yùn)行才能啟動(dòng)(不足:不能定時(shí)執(zhí)行)
  2. apscheduler可以使用RotatingFileHandler按文件大小分割log
  3. logger.exception可以打印錯(cuò)誤堆棧
    logger = logging.getLogger(name)
    try:
    ...
    except:
    logger.exception('error')
    16.scrapy.Request的dont_filter=True用來(lái)重復(fù)訪問(wèn)url(對(duì)登錄失敗后重試特別有用),scrapy默認(rèn)只對(duì)一個(gè)url訪問(wèn)一次(碰到特別具體的問(wèn)題還是得看官方文檔呀!哪怕是英文的!)

17.電話號(hào)碼歸屬地查詢庫(kù)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

友情鏈接更多精彩內(nèi)容