免费不卡日逼96视频,日韩潮喷久久精品

運行結(jié)果

運行結(jié)果.png

代碼部分

from bs4 import BeautifulSoup
import requests,urllib.request
import time

headers = {
    'User-Agent' : 'Mozilla / 5.0(Windows NT 10.0;Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 51.0.2704.103 Safari / 537.36'
}

urls = ['http://bj.58.com/pbdn/1/pn{}/?PGTID=0d305a36-0000-1b3b-1598-57f0dc305892&ClickID=1'.format(i) for i in range(1,2)]

def get_link(url):
    wb_page = requests.get(url, headers=headers)
    sou = BeautifulSoup(wb_page.text, 'lxml')
    links = sou.select('tr > td.t > a.t')

    wholelinks = []
    for link in links:
        wholelinks.append(link.get('href'))

    for slink in wholelinks:
        analy(slink)

def get_clicks(url):
    id = url.split('/')[-1].split('x')[0]
    address = 'http://jst1.58.com/counter?infoid={}'.format(id)
    js = requests.get(address)
    clicks = js.text.split('=')[-1]
    return clicks

def analy(wblink):
    wb_data = requests.get(wblink, headers=headers)
    soup = BeautifulSoup(wb_data.text, 'lxml')
    cat = soup.select('#header > div.breadCrumb.f12 > span > a')
    cates = [cat[-1]]
    titles = soup.select('#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.mainTitle > h1')
    times = soup.select('#index_show > ul.mtit_con_left.fl > li.time')
    prices = soup.select(
        '#content > div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li > div.su_con > span.price.c_f50')
    cond = soup.select(
        'div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li > div.su_con > span')
    conditions = [cond[1]]
    places = soup.select(
        'div.person_add_top.no_ident_top > div.per_ad_left > div.col_sub.sumary > ul > li > div.su_con > span > a')

    wholeplace = []
    for place in places:
        wholeplace.append(place.get_text())

    for condition in conditions:
        tet = condition.get_text()
        realcod = tet.split('\t')[1].split('\r')[0]

    for cate, title, tim, price, condition in zip(cates, titles, times, prices, conditions):
        dat = {
            'cate': cate.get_text(),
            'title': title.get_text(),
            'times': tim.get_text(),
            'price': price.get_text(),
            'condition': realcod,
            'place': wholeplace,
            'click':get_clicks(wblink)
        }
        print(dat)

for single_url in urls:
    get_link(single_url)

總結(jié)

關(guān)于點擊量的爬取還是不行，不知道為什么，用視頻中的JS還是不能爬取。
有關(guān)爬取的路徑還可以簡化
有關(guān)地址，有些沒有，有些有一個，有些有兩個，似乎我的處理辦法還可以變簡單一些

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

第一周大作業(yè)-爬取58同城商品信息

第一周大作業(yè)-爬取58同城商品信息

運行結(jié)果

代碼部分

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

第一周大作業(yè)-爬取58同城商品信息

運行結(jié)果

代碼部分

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av