Python爬蟲之爬取煎蛋網(wǎng)妹子圖

寫在前面

感謝@Cstances學長的幫助。

貼代碼:

import re
import os
import requests
from bs4 import BeautifulSoup

'''
第一步:獲取單頁圖片的鏈接
第二步:獲取頁數(shù)的數(shù)字
第三步:獲取所有圖片的鏈接
第四步:保存圖片
'''

def get_images(url):
    """獲取單頁圖片鏈接"""
    headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36'}
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, 'lxml')

    single_page_imgurls = [] # 用于保存當前頁的圖片鏈接
    div_a = soup.find('ol' ,{'class':'commentlist'}).find_all('a', href=re.compile(r'//(.*?\.jpg)')) #獲取a標簽
    for url in div_a:
        single_page_imgurls.append('http:' + url['href'])
    return single_page_imgurls

def get_pages(url):
    """獲取首頁 page number"""
    headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.90 Mobile Safari/537.36'}
    html = requests.get(url, headers=headers)
    html.encoding = 'utf-8'
    soup = BeautifulSoup(html.text, 'lxml')

    pattern = re.compile(r'<span class="current-comment-page">\[(.*)\]</span>')
    pagesNow = pattern.search(str(soup)).groups()[0]
    return pagesNow

def get_all_images(max_pages):
    """獲取所有的圖片鏈接"""
    all_images_url = [] #保存所有圖片的鏈接
    page_num = int(get_pages('http://jandan.net/ooxx'))
    for page in range(page_num, page_num-max_pages, -1): #圖片是倒著來取的
        url = 'http://jandan.net/ooxx/page-' + str(page) + '#comments'
        all_images_url.extend(get_images(url))#把單頁的圖片鏈接加到all_images_url里
    return all_images_url

def save_images(url, dir_name='ooxx'):
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    with open(dir_name+os.sep+url.split('/')[-1], 'wb') as fp:
        fp.write(requests.get(url).content)



def main():
    endpage = int(input('請輸入要下載的頁數(shù):'))
    all_images_url = get_all_images(endpage)
    for img_url in all_images_url:
        save_images(img_url)

if __name__ == '__main__':
    main()
效果圖
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 178,917評論 25 709
  • “梅英疏淡,冰澌溶泄,東風暗換年華”。日子悄沒聲息地變換,轉(zhuǎn)眼間已是春來。 是誰揮灑筆墨,半夢半醒中,沿著文字的路...
    BoYun_閱讀 442評論 0 1
  • 我的夢想:做一個優(yōu)秀的人。 做自己喜歡的事; 愛自己所愛的人; 買自己想要的東西。
    花開花落花滿天09閱讀 179評論 0 0
  • 16年隨著李世石輸給阿法狗,不可避免的柯潔終將迎戰(zhàn)阿法狗。與其說柯潔對戰(zhàn)阿法狗是捍衛(wèi)人類尊嚴,不如說更像是...
    741b3a9d9a72閱讀 771評論 3 3

友情鏈接更多精彩內(nèi)容