? ? ? 在對大數(shù)據(jù)抓取時,使用scrapy來對數(shù)據(jù)進行抓取無疑是十分方便的,而scrapy抓取的數(shù)據(jù)一般比較大,結合MongoDB數(shù)據(jù)庫的高并發(fā)和高響應,把數(shù)據(jù)存儲到MongoDB中。本次講詳細介紹scrapy的安裝、運行及工程文件的講解,還有MongoDB的安裝和在python下的操作。
一.Scrapy
1.Scrapy安裝
? ?window下直接在cmd終端pip install scrapy,這樣在卸載時就可以直接pip uninstall scrapy。
2.建立Scrapy工程
? ? 打開自己的文件夾按下shift+鼠標右鍵---在此處打開命令窗口,打開cmd。或者直接win+R鍵運行cmd,然后在cd到文件夾目錄下。
? ? 在cmd中輸入scrapy startproject my_test ? ? ?這樣就建立了scrapy工程,里面包含item.py 、pipelines.py、settings.py、init.py 和spider文件夾,spider.py需要自己建立。
3.運行Scrapy工程
一般是在cmd下輸入命令:scrapy crawl my_test ? ? ? ? 在執(zhí)行該命令前先cd到my_test這個文件夾下。
二、MongoDB
1.下載MongoDB
? ??官網(wǎng)MongoDB各個版本(這個是外國網(wǎng)站,下載比較慢,但它設置了防盜鏈,所以不要用迅雷下載)里面有很多版本,推薦下載3.0.0版本64bit msi的,因為在結合mongoVUE使用是兼容較好,而3.2版本有些值無法顯示。
2.安裝MongoDB
? ?按照提示安裝,建議自定義安裝到自己設定的目錄文件夾下,方便使用。
安裝完成后在bin文件下新建data文件夾,并新建一個名為start.txt的文本文檔,里面內容為:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? mongod --dbpath ./data
注意空格,--和./之前都有空格?。?!。寫完后重命名為start.bat文件,這樣每次就不用再cmd中鍵入命令了。
3.安裝MongoDB可視化工具MongoVUE 1.69
? ? 官網(wǎng)的鏈接比較慢,這里給一個csdn上的破解版,其實破不破解都差不多,只是每次打開都有一個彈窗mongoVue 破解。 下載后建議安裝在monggodb同一個目錄文件夾下。
4.打開mongoDB
首先先打開bin文件夾下之前建立的start.bat文件(打開cmd后不要關閉,放著就好了),然后在mongoVue安裝目錄下找到MongoVUE.exe并打開,

? ? ?如圖,建立自己的一個數(shù)據(jù)庫名,Server填寫localhost或者127.0.0.1(本機的意思),其他的可以不填,然后選擇connect,雙擊,如果沒有報錯提示就是正常打開,報錯則是start.bat文件沒有打開,沒有連接到本機。
5.python連接MongoDB
首先先安裝第三方庫pymongo(cmd 下pip install ?pymongo)。
?其次,運行如圖的代碼,把jul和haha存放到MongoDB中

這里,通過pymongo.MongoClient實現(xiàn)連接,其括號后的值可以不寫。connection['Sbya2']表示建立一個數(shù)據(jù)庫名為Sbya2,tdb[‘Test’]表示在Sbya2下建立一個名為Test的變量,其類型為字典。運行后在mongoVue中顯示:先選擇sirius,點擊refresh,這時在其目錄下就出現(xiàn)Sbya2文件,點擊其connections下,可以看到hahf這個值

如圖,這里我多運行了幾次,所以保存了幾次。在MongoDB中,字典是隨機排列的,因為python中字典也沒對序號有要求。