Scrapy指令筆記

fetch 可以直接獲取一個網頁
genspider 創(chuàng)建爬蟲文件
runspider 運行一個爬蟲
settings 爬蟲配置相關
shell 進入交互頁面
startproject 創(chuàng)建一個爬蟲項目

創(chuàng)建一個爬蟲項目
scrapy startproject cw(文件名)
cw 核心目錄 scrapy.cfg 整個爬蟲項目的配置
spiders 所有的爬蟲文件都會放在spiders文件夾里面
init.py初始化文件 不用管
iterms.py 定義一些爬去目標 (比如爬當當網 上的書內容還是價格還是圖片 爬什么就是目標 全部寫在items.py里)
middlewares.py 中間鍵。 在爬去中間 中間都經歷了什么。 (代理IP池 )
pipelines.py 爬去后數(shù)據(jù)你要做什么是寫入什么東西 還是干什么

settings.py全局的
item(爬蟲目標)->spiders(爬蟲文件)->pipelines(數(shù)據(jù)處理)

sprapy指令
全局指令 項目指令

crawl 運行一個爬蟲文件
edit 編輯一個爬蟲文件
list 看一下當前爬蟲項目下的爬蟲文件

scrapy fetch http://www.baidu.com 獲取百度

不創(chuàng)建爬蟲項目單獨 運行爬蟲文件

scrapy shell http://www.baidu.com 進入python》〉》模式
exit() 退出

scrapy view http://news.163.com 將數(shù)據(jù)下載到本地并且在瀏覽器中打開

scrapy check +文件名 檢查爬蟲是否可行

scrapy crawl 文件 —nolog 運行爬蟲并不打印日志

scrapy list 當前有可運行的爬蟲

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
【社區(qū)內容提示】社區(qū)部分內容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發(fā)布,文章內容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內容

  • https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下載即可。 安裝...
    慫恿的大腦閱讀 1,405評論 0 7
  • scrapy學習筆記(有示例版) 我的博客 scrapy學習筆記1.使用scrapy1.1創(chuàng)建工程1.2創(chuàng)建爬蟲模...
    陳思煜閱讀 13,075評論 4 46
  • 序言第1章 Scrapy介紹第2章 理解HTML和XPath第3章 爬蟲基礎第4章 從Scrapy到移動應用第5章...
    SeanCheney閱讀 15,255評論 13 61
  • 跟著徐雯老師后面跑,雖然很吃力,但還是收獲滿滿。老師的簡單幾筆,我得花上十幾二十分鐘,甚至更多。但我經過一百多副圖...
    gsx閱讀 393評論 0 0
  • 冬天到了。下雪了,雪天風景非常美麗,晶瑩潔白的雪花漫天飛舞,就像給大樹穿上白白的婚紗,給大地蓋上厚厚的棉...
    趙天軼閱讀 275評論 0 1

友情鏈接更多精彩內容