爬蟲框架scrapy和數(shù)據(jù)庫MongoDB的結合使用(一)

? ? ? 在對大數(shù)據(jù)抓取時,使用scrapy來對數(shù)據(jù)進行抓取無疑是十分方便的,而scrapy抓取的數(shù)據(jù)一般比較大,結合MongoDB數(shù)據(jù)庫的高并發(fā)和高響應,把數(shù)據(jù)存儲到MongoDB中。本次講詳細介紹scrapy的安裝、運行及工程文件的講解,還有MongoDB的安裝和在python下的操作。

一.Scrapy


1.Scrapy安裝

? ?window下直接在cmd終端pip install scrapy,這樣在卸載時就可以直接pip uninstall scrapy。

2.建立Scrapy工程

? ? 打開自己的文件夾按下shift+鼠標右鍵---在此處打開命令窗口,打開cmd。或者直接win+R鍵運行cmd,然后在cd到文件夾目錄下。

? ? 在cmd中輸入scrapy startproject my_test ? ? ?這樣就建立了scrapy工程,里面包含item.py 、pipelines.py、settings.py、init.py 和spider文件夾,spider.py需要自己建立。

3.運行Scrapy工程

一般是在cmd下輸入命令:scrapy crawl my_test ? ? ? ? 在執(zhí)行該命令前先cd到my_test這個文件夾下。


二、MongoDB


1.下載MongoDB

? ??官網(wǎng)MongoDB各個版本(這個是外國網(wǎng)站,下載比較慢,但它設置了防盜鏈,所以不要用迅雷下載)里面有很多版本,推薦下載3.0.0版本64bit msi的,因為在結合mongoVUE使用是兼容較好,而3.2版本有些值無法顯示。

2.安裝MongoDB

? ?按照提示安裝,建議自定義安裝到自己設定的目錄文件夾下,方便使用。

安裝完成后在bin文件下新建data文件夾,并新建一個名為start.txt的文本文檔,里面內容為:?

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? mongod --dbpath ./data

注意空格,--和./之前都有空格?。?!。寫完后重命名為start.bat文件,這樣每次就不用再cmd中鍵入命令了。

3.安裝MongoDB可視化工具MongoVUE 1.69

? ? 官網(wǎng)的鏈接比較慢,這里給一個csdn上的破解版,其實破不破解都差不多,只是每次打開都有一個彈窗mongoVue 破解。 下載后建議安裝在monggodb同一個目錄文件夾下。

4.打開mongoDB

首先先打開bin文件夾下之前建立的start.bat文件(打開cmd后不要關閉,放著就好了),然后在mongoVue安裝目錄下找到MongoVUE.exe并打開,

? ? ?如圖,建立自己的一個數(shù)據(jù)庫名,Server填寫localhost或者127.0.0.1(本機的意思),其他的可以不填,然后選擇connect,雙擊,如果沒有報錯提示就是正常打開,報錯則是start.bat文件沒有打開,沒有連接到本機。

5.python連接MongoDB

首先先安裝第三方庫pymongo(cmd 下pip install ?pymongo)。

?其次,運行如圖的代碼,把jul和haha存放到MongoDB中

這里,通過pymongo.MongoClient實現(xiàn)連接,其括號后的值可以不寫。connection['Sbya2']表示建立一個數(shù)據(jù)庫名為Sbya2,tdb[‘Test’]表示在Sbya2下建立一個名為Test的變量,其類型為字典。運行后在mongoVue中顯示:先選擇sirius,點擊refresh,這時在其目錄下就出現(xiàn)Sbya2文件,點擊其connections下,可以看到hahf這個值

如圖,這里我多運行了幾次,所以保存了幾次。在MongoDB中,字典是隨機排列的,因為python中字典也沒對序號有要求。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

友情鏈接更多精彩內容