【注意】妹子圖python爬蟲

下方有太過...不含蓄的畫面 快閃開


9150e4e5ly1fs3g0aqj8nj20a705c0tm.jpg

事情的起因是這樣的

emmmmm向來慷慨大度的我 怎么能破壞了群友的性質(zhì),于是乎~拿起鍵盤 摔起鼠標(biāo) 來干
9150e4e5gy1fs3fyxur15j205i03naa3.jpg

同時(shí) 本人剛簡書剛開通兩天,來的大哥大姐們(小姐姐誒)覺得不錯(cuò)~可以點(diǎn)個(gè)關(guān)注后面的內(nèi)容敬請期待

成果圖

QQ圖片20180608131951.jpg

[圖片上傳中...(QQ截圖20180608132309.png-ec0f3b-1528435524958-0)]

我們要爬取的網(wǎng)站為

進(jìn)行翻頁

QQ截圖20180608132504.png

hahah.png

這樣我們找到了 每翻一頁 url的變化
現(xiàn)在我們分析一下單頁圖片爬取

chrome 瀏覽器 按f12 打開開發(fā)者工具

點(diǎn)擊

點(diǎn)擊圖片進(jìn)去
chatu2.png

那么我們采用兩個(gè)函數(shù)來解決這個(gè)問題

第一步獲得主頁上的所有的合集的url

header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',  }
first = 'http://www.meizitu.com/a/more_1.html'
def scrawl(url):

    zy_url = url
    print(url)
    zy_rs = requests.get(url,headers = header)
    zy_rs.encoding='gb2312' 1
    print(zy_rs.status_code)
    print(zy_rs.text)

    p = re.compile(r'http://www.meizitu.com/a/(\d+).html')
for x in p.finditer(zy_rs.text):
         img_url =x.group(1)
         zhuye='http://www.meizitu.com/a/'+str(img_url)+'.html'
        #下方函為合集中圖片的保存下載
         img_scrawl(zhuye)


    print('正在進(jìn)行下一頁的下載')

第二步 點(diǎn)擊合集中所有圖片url的構(gòu)造方式,并用正則表達(dá)式提取出來后進(jìn)行保存下載

def img_scrawl(url):

     img_url_rs =requests.get(url)

     img_url_rs.encoding='gb2312'
     p = re.compile(r'<img alt="(.*?)" src="(.*?)" />')
     for x in p.finditer(img_url_rs.text):
        name = x.group(1)#獲得圖片的url
        load_url = x.group(2)#獲得圖片的名稱


        img = requests.get(load_url,stream=True,headers=header)
        if  img.status_code==200: #請求為200時(shí)返回正常
            global n #記錄圖片的下載數(shù)量
            n=n+1
            print(n)
            with open(name+'.jpg','wb') as f:
                for chunk in img:
                    f.write(chunk)

第三步第一個(gè)主頁下載完之后需要翻頁

那么


chatu4.png
    p = re.compile(r"<li><a href='(.*?)'>下一頁</a></li>")

    for x in p.finditer(zy_rs.text):
        print('開始下載')
        pipei_ =x.group(1)
        print(pipei +'開始下載')
        uuu =  'http://www.meizitu.com/a/'+pipei_

        scrawl(uuu)

把這段代碼放到第一步代碼的后面 于是形成了遞歸

完整代碼如下表所示

import re
import requests
#"http://www.meizitu.com/a/5578.html"
header ={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36',
        
            }
proxies = { "http": "http://171.37.141.89:9797"} 

def scrawl(url):

    zy_url = url
    print(url)
    zy_rs = requests.get(url,headers = header)
    zy_rs.encoding='gb2312'
    print(zy_rs.status_code)
    print(zy_rs.text)
    print('123')
    p = re.compile(r'http://www.meizitu.com/a/(\d+).html')
    #l = p.findall(zyrs.text)
    for x in p.finditer(zy_rs.text):
         img_url =x.group(1)
         zhuye='http://www.meizitu.com/a/'+str(img_url)+'.html'
         img_scrawl(zhuye)
         #<a href="/a/more_1.html">下一頁</a>
    print('正在進(jìn)行下一頁的下載')
    p = re.compile(r"<li><a href='(.*?)'>下一頁</a></li>")

    for x in p.finditer(zy_rs.text):
        print('開始下載')
        pipei_ =x.group(1)
        print(pipei +'開始下載')
        uuu =  'http://www.meizitu.com/a/'+pipei_
        scrawl(uuu)
def img_scrawl(url):
     img_url_rs =requests.get(url)

     img_url_rs.encoding='gb2312'
     p = re.compile(r'<img alt="(.*?)" src="(.*?)" />')
     for x in p.finditer(img_url_rs.text):
        name = x.group(1)
        load_url = x.group(2)
        print(name)
        print(load_url)

        img = requests.get(load_url,stream=True,headers=header)
        if  img.status_code==200:
            global n
            n=n+1
            print(n)

            with open(name+'.jpg','wb') as f:
                for chunk in img:
                    f.write(chunk)
aa = 'http://www.meizitu.com/a/more_1.html'
n=0
continue_ =True
scrawl(aa)

有任何問題下方評論,會(huì)回復(fù)的~感謝

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 1、通過CocoaPods安裝項(xiàng)目名稱項(xiàng)目信息 AFNetworking網(wǎng)絡(luò)請求組件 FMDB本地?cái)?shù)據(jù)庫組件 SD...
    陽明AI閱讀 16,235評論 3 119
  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 179,347評論 25 708
  • 每周六是我最期待的日子,因?yàn)檫@個(gè)人人都想著怎么浪漫怎么放松的時(shí)候,我跟一群女人相約在一起跳舞。 那是我跳舞有一段時(shí)...
    金聶子閱讀 257評論 4 2
  • 1、類型和頻率 2、日常使用 購買:推薦 8G 2400理由:很多主板默認(rèn)支持的就是2400,買3000需要超頻來...
    LuCh1Monster閱讀 995評論 0 0
  • 首先還是感謝snakeninny 用Clutch也行 , Clutch -i ,然后Clutch -d 數(shù)字 退...
    西博爾閱讀 2,109評論 0 2

友情鏈接更多精彩內(nèi)容