練習(四)
目標抓取
- 抓取用戶頭像圖片
圖像處理支持
官方推薦使用Pillow替代PIL
#安裝pillow
pip install Pillow
新建一個spider用于爬取用戶頭像
scrapy genspider head segmentfault.com
修改保存圖像配置
ITEM_PIPELINES = {
'scrapy.pipelines.images.ImagesPipeline': 300 #圖片處理Pipeline
}
#圖片保存位置
IMAGES_STORE = 'E:\\coding\\segmentfault\\head image'
#下面是可選設置
# 30天圖像過期時間
IMAGES_EXPIRES = 30
#縮率圖設置
IMAGES_THUMBS = {
'small': (50, 50),
'big': (270, 270),
}
#過濾圖片最小寬(高)度
IMAGES_MIN_HEIGHT = 110
IMAGES_MIN_WIDTH = 110
修改parse方法
def parse(self, response):
images = response.css('img.program-avatar64') #提取所有圖片元素
for img in images:
#image_urls屬性為默認屬性用于收集圖片地址集合,可以是item的字段也可以是dict的關鍵字
yield {"image_urls" : img.css("::attr(src)").extract()}
執(zhí)行后我們可以在我們配置的圖像保存目錄(E:\coding\segmentfault\head image)中看到爬取的圖片