概要:之前寫了scrapy的基礎(chǔ),準(zhǔn)備嘗試模擬知乎登錄,并爬取問答。但是發(fā)現(xiàn)知乎已經(jīng)做了更新,對參數(shù)做了加密處理,身為小白的我只好試試selenium,本篇文章我們來了解scrapy框架如何對接selenium。
1、新建項目
新建項目,以及基本的操作在上一篇文章應(yīng)該都有了解,如果現(xiàn)在還不了解,
這里獻(xiàn)上鏈接:爬蟲框架Scrapy的安裝與基本使用
2、模擬知乎登錄
首先需要在seetings.py中將ROBOTSTXT_OBEY = True修改為ROBOTSTXT_OBEY = False,ROBOTSTXT_OBEY 可以說是君子協(xié)議吧,我們修改成False,否則不能爬取。
然后再spider寫下如下代碼:
對于selenium不了解的可以查看:selenium的使用(有點意思)
3、運行
這里教大家一個小技巧
我們在項目下創(chuàng)建一個main文件寫下如下代碼:
即可。
這樣我們就不用每次在黑窗口下運行,很麻煩。
總結(jié):
這次只是簡單的寫了下selenium在scrapy框架中運用,沒有用到什么新知識。
希望不懂的可以看下基礎(chǔ)。
完。