QUANTAXIS.SPIDER 爬蟲部分

QUANTAXIS 爬蟲部分

目前的QUANTAXIS爬蟲是用python的scrapy框架寫的,為了運(yùn)行JavaScript,還使用了selenium+phantomjs作為瀏覽器內(nèi)核.爬完的數(shù)據(jù)都存放在mongodb里面.


原始的quantaxis_spider架構(gòu)

之后可能會(huì)向純JavaScript爬蟲去轉(zhuǎn)變,但目前先把python下的爬蟲框架梳理一下.

python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium

安裝scrapy,selenium


安裝完在命令行輸入scrapy
scrapy startproject projectName(你的爬蟲名)
cd projectName

安裝項(xiàng)目

安裝完了會(huì)有幾個(gè)項(xiàng)目

-項(xiàng)目名稱
  --scrapy.cfg(配置文件)
  --爬蟲名命名的文件夾
      --items.py
      --middleware.py
      --pipelines.py
      --settings.py
      --_init.py
      --spider(文件夾)
          --_init_.py
          --爬的網(wǎng)站名命名的python文件.py
第一層目錄
第二層目錄

第三層目錄

運(yùn)行爬蟲在第一層

scrapy crawl 爬蟲名

組件都在第二層目錄里
items.py 主要是保存的管道
middleware.py 中間件,一般而言,只用他的下載中間件
pipelines.py 和數(shù)據(jù)庫交互的管道
settings.py 設(shè)置文件

第三層目錄下
主要是核心邏輯,從哪里爬(start_url)
爬到以后的響應(yīng)處理(從response里面取出,selector去選擇你需要的內(nèi)容),一般是正則化或者是xpath取出
處理后的存儲(chǔ)(items的引入)

具體的案例
QUANTAXIS_SPIDER

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容