QUANTAXIS 爬蟲部分
目前的QUANTAXIS爬蟲是用python的scrapy框架寫的,為了運(yùn)行JavaScript,還使用了selenium+phantomjs作為瀏覽器內(nèi)核.爬完的數(shù)據(jù)都存放在mongodb里面.

原始的quantaxis_spider架構(gòu)
之后可能會(huì)向純JavaScript爬蟲去轉(zhuǎn)變,但目前先把python下的爬蟲框架梳理一下.
python -m pip install -i https://pypi.doubanio.com/simple scrapy
python -m pip install -i https://pypi.doubanio.com/simple selenium
安裝scrapy,selenium

安裝完在命令行輸入scrapy
scrapy startproject projectName(你的爬蟲名)
cd projectName

安裝項(xiàng)目
安裝完了會(huì)有幾個(gè)項(xiàng)目
-項(xiàng)目名稱
--scrapy.cfg(配置文件)
--爬蟲名命名的文件夾
--items.py
--middleware.py
--pipelines.py
--settings.py
--_init.py
--spider(文件夾)
--_init_.py
--爬的網(wǎng)站名命名的python文件.py

第一層目錄

第二層目錄

第三層目錄
運(yùn)行爬蟲在第一層
scrapy crawl 爬蟲名
組件都在第二層目錄里
items.py 主要是保存的管道
middleware.py 中間件,一般而言,只用他的下載中間件
pipelines.py 和數(shù)據(jù)庫交互的管道
settings.py 設(shè)置文件
第三層目錄下
主要是核心邏輯,從哪里爬(start_url)
爬到以后的響應(yīng)處理(從response里面取出,selector去選擇你需要的內(nèi)容),一般是正則化或者是xpath取出
處理后的存儲(chǔ)(items的引入)
具體的案例
QUANTAXIS_SPIDER