下載美麗的沙灘(1_4)

一、總結(jié):需要老師了,
0,我通過簡書提交作業(yè),如何看您的點評,我給您發(fā)微博了
1,代理這個地方,需要老師指導(dǎo),window 和ubuntu 下,藍(lán)燈的安裝和使用。
2,urllib.request.urlretrieve(url, path + url.split('/')[-2] + url.split('/')[-1]) #這個地方如何改寫為支持代理,需要老師指點
如何能支持代理,特別是藍(lán)燈代理,以及藍(lán)燈應(yīng)該如何設(shè)置。我現(xiàn)在是firefox 能上國外網(wǎng)站的。
3,wb_data = requests.get(full_url,proxies=proxies) 使用代理馬上soup 中什么也沒有了,我用的代理是藍(lán)燈,window環(huán)境,需要老師指點。

二、成果展示

week1-4-2.jpg
week1-4.jpg

三代碼

#!C:\Python35\python.exe
# coding=utf-8
import requests
from bs4 import BeautifulSoup
import urllib.request
# 此網(wǎng)站會有針對 ip 的反爬取,可以采用代理的方式
proxies = {"http":"127.0.0.1:61070"}
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'
}


# 'http://weheartit.com/inspirations/beach?page=8' full url

base_url = 'http://weheartit.com/search/entries?utf8=%E2%9C%93&ac=0&query=beach&page='
#http://weheartit.com/search/entries?utf8=%E2%9C%93&ac=0&query=beach&page=
path = './aaa/'  # the last / can not lost

def get_image_url(num):
    img_urls = []
    for page_num in range(1,num+1):
        full_url = base_url + str(page_num)
        #wb_data  = requests.get(full_url,proxies=proxies)  使用代理馬上soup 中什么也沒有了,我用的代理是藍(lán)燈,window環(huán)境,需要老師指點
        wb_data = requests.get(full_url)
        soup = BeautifulSoup(wb_data.text,'lxml')
        print(soup)
        #imgs = soup.select('img.entry_thumbnail')
        #entry-thumbnail
        imgs = soup.select('#content > div.grid-thumb.grid-responsive > div > div > div > a > img')
        #content > div.grid-thumb.grid-responsive > div > div > div > a > img
        print("55555")
        for i in imgs :
            img_urls.append(i.get('src'))

    print((len(img_urls)),'images shall be downloaded!')
    return img_urls

# get_image_url(1)

# 'http://data.whicdn.com/images/268835689/superthumb.jpg'
def dl_image(url):
    urllib.request.urlretrieve(url, path + url.split('/')[-2] + url.split('/')[-1])  #這個地方如何改寫為支持代理,需要老師指點
    print('Done')

#
for url in get_image_url(3):
    dl_image(url)



最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 一、JS前言 (1)認(rèn)識JS 也許你已經(jīng)了解HTML標(biāo)記(也稱為結(jié)構(gòu)),知道了CSS樣式(也稱為表示),會使用HT...
    凜0_0閱讀 2,932評論 0 8
  • python模塊(包)之urllib urllib:官方文檔是最好的模塊表達(dá)說明。 urllib is a pac...
    道無虛閱讀 1,708評論 0 1
  • 第一篇 與人相處的基本技巧 一.如欲采蜜,勿蹴蜂房 1.只有不夠聰明的人才批評、指責(zé)和抱怨別人。我們想指責(zé)或糾正...
    小雛菊lay閱讀 15,926評論 0 7
  • TED信息 Marco Tempest: A magical tale (with augmented reali...
    林中有男閱讀 281評論 0 1
  • 每日私信抽取高質(zhì)量問題答疑,為您的英語學(xué)習(xí)助力。微博TeacherGwen發(fā)送私信即可。
    TeacherGwen閱讀 201評論 0 0

友情鏈接更多精彩內(nèi)容