scrapy爬蟲框架(一):scrapy框架簡介

一、安裝scrapy框架

#打開命令行輸入如下命令:
pip install scrapy

二、創(chuàng)建一個scrapy項目

安裝完成后,python會自動將 scrapy命令添加到環(huán)境變量中去,這時我們就可以使用 scrapy命令來創(chuàng)建我們的第一個 scrapy項目了。

打開命令行,輸入如下命令

scrapy startproject yourproject

這里的 startproject 命令將會在當(dāng)前目錄下創(chuàng)建一個 scrapy項目,后面跟著的參數(shù)是需要創(chuàng)建的項目的名稱。

比如這里我們會創(chuàng)建一個名為 yourproject 的項目,項目結(jié)構(gòu)如下:

yourproject/
    scrapy.cfg
    yourproject/
        __init__.py
        items.py
        pipelines.py
        settings.py
        spiders/
            __init__.py
            ...

這些文件分別是:

  • scrapy.cfg: 項目的配置文件
  • yourproject/: 該項目的python模塊。該項目的所有代碼都在這個目錄下
  • yourproject/items.py: 項目中的item文件,我們在這個文件里定義要爬取的數(shù)據(jù),有點類似于 Django的 model。
  • yourproject/pipelines.py:項目中的pipelines文件(我把這個稱為通道文件,意思就是數(shù)據(jù)處理的通道),對爬取到的數(shù)據(jù)進(jìn)行處理(如:儲存)
  • yourproject/settings.py: 項目的設(shè)置文件,設(shè)置全局變量的值、通道的開啟和關(guān)閉以及多個通道和爬蟲的執(zhí)行優(yōu)先級
  • yourproject/spiders/: 爬蟲的主要邏輯都在這個文件夾里,包括頁面請求、數(shù)據(jù)提取、反爬措施等。

.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 序言第1章 Scrapy介紹第2章 理解HTML和XPath第3章 爬蟲基礎(chǔ)第4章 從Scrapy到移動應(yīng)用第5章...
    SeanCheney閱讀 15,254評論 13 61
  • 設(shè)置 Scrapy設(shè)置允許您自定義所有Scrapy組件的行為,包括核心,擴(kuò)展,管道和爬蟲本身。 設(shè)置的基礎(chǔ)結(jié)構(gòu)提供...
    俊采星馳_87e0閱讀 2,415評論 0 1
  • 老于的世界(一) 老于的世界(二) 老于坐在對面,瞪大著眼睛,死盯著面前的鐵欄桿,有點惡狠狠的樣子。這目光讓我有些...
    福豆莢閱讀 401評論 0 5
  • 頭發(fā)已經(jīng)很多天沒洗了,此刻正像方便面一樣油膩地搭在臉上,幽幽散發(fā)出讓人難過的味道…… 要出門去會春光,一大早起來就...
    又新閱讀 474評論 0 0
  • 曾經(jīng),我也是你血肉之軀的一部分 為什么 一旦脫離你的懷抱 你就把我視為——污垢
    樵砥閱讀 262評論 0 1

友情鏈接更多精彩內(nèi)容