[學(xué)習(xí)Scrapy 1]如何新建一個(gè)Scrapy項(xiàng)目?

本文講解如何新建一個(gè)Scrapy項(xiàng)目,并且簡(jiǎn)要介紹Scrapy項(xiàng)目的文件結(jié)構(gòu)。

1.新建虛擬環(huán)境

安裝好virtualenv包。打開(kāi)命令行進(jìn)入要保存虛擬環(huán)境的文件夾下,比方:D:\Python,進(jìn)入路徑,輸入virtualenv Text_Spider創(chuàng)建虛擬環(huán)境。然后進(jìn)入虛擬環(huán)境下的Scripts文件夾,輸入activate命令,此時(shí)如果出現(xiàn)以你命名的虛擬環(huán)境名為首的提示串則說(shuō)明成功進(jìn)入了虛擬環(huán)境,如果要退出虛擬環(huán)境,則輸入:deactivate。如下圖展示了進(jìn)入虛擬環(huán)境后的交互界面。

2.新建Scrapy項(xiàng)目

保證虛擬環(huán)境中安裝好Scrapy包后我們開(kāi)始新建Scrapy項(xiàng)目,在cmd中進(jìn)入你想要保存scrapy項(xiàng)目的文件夾,我這里選擇的是(自定義):(Text_Spider) D:\Python\Test,需要注意的是,此時(shí)你仍然在虛擬環(huán)境下。然后繼續(xù)輸入以下命令:(Text_Spider) D:\Python\Test>scrapy startproject Test,其中,前兩個(gè)字符串是不能改的,最后一個(gè)字符串是項(xiàng)目名(可以自定義),這串命令表示我在Test文件夾下新建了一個(gè)以個(gè)Test項(xiàng)目,這個(gè)項(xiàng)目是運(yùn)行在虛擬環(huán)境(Text_Spider)中的。

上圖是新建項(xiàng)目后的交互界面。

接下來(lái)通過(guò)Pycharm打開(kāi)項(xiàng)目文件,此時(shí)可以看到Scrapy項(xiàng)目的文件結(jié)構(gòu)了。

新建好Scrapy項(xiàng)目還沒(méi)有完,此時(shí)項(xiàng)目中還沒(méi)有爬蟲文件,下面我以爬取伯樂(lè)在線網(wǎng)站為例展示如何新建爬蟲(Spider)文件。

回到命令行,進(jìn)入到項(xiàng)目文件夾下(注意這里必須是進(jìn)入到項(xiàng)目文件夾中),然后輸入:scrapy genspider article_spider http://blog.jobbole.com/,其中前兩個(gè)字符串表示新建spider文件,第三個(gè)字符串是自定義的spider文件名,最后一個(gè)字符串是你想爬取的網(wǎng)站?;剀囍螅霈F(xiàn)下面的提示信息說(shuō)明成功。(請(qǐng)自動(dòng)忽略尷尬的路徑名...)

此時(shí)再查看Pycharm,看到新建的文件出現(xiàn)在Scrapy文件目錄下,終于搞定了~

  • 不要把虛擬環(huán)境和項(xiàng)目文件混淆,虛擬環(huán)境和項(xiàng)目文件是獨(dú)立存放的。

  • scrapy startproject file_name命令創(chuàng)建一個(gè)Scrapy項(xiàng)目文件

  • scrapy scrapy genspider spider_name you_need_to_crawl_url命令的作用是在一個(gè)Scrapy項(xiàng)目中創(chuàng)建爬蟲文件

3.Scrapy項(xiàng)目的文件結(jié)構(gòu)

上圖中就是一個(gè)完整的Scrapy項(xiàng)目的文件結(jié)構(gòu),紅線標(biāo)識(shí)的就是爬蟲文件,這里寫爬取網(wǎng)站的邏輯。items文件中定義數(shù)據(jù)保存的格式。middlewares文件使得Scrapy能夠更可控。settings文件包含了很多Scrapy的配置。pipline用于編寫一些和數(shù)據(jù)存儲(chǔ)相關(guān)的代碼。

這里僅簡(jiǎn)單介紹Scrapy項(xiàng)目的文件結(jié)構(gòu),后面的文章中還會(huì)具體介紹。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容