日本污网站,电影一区二区三区麻豆,久久最新视频国产9

1 基礎(chǔ)版本

1.1 預(yù)備 && 思路

進(jìn)入遷木網(wǎng)排名頁面

遷木網(wǎng)排名頁面
獲取每個(gè)學(xué)校的具體信息
依次點(diǎn)擊學(xué)校名稱下的鏈接，進(jìn)入詳情頁。以麻省理工大學(xué)為例：

麻省理工大學(xué)
爬蟲爬取頁面中表格信息

1.2 代碼實(shí)現(xiàn)

思路不難，和昨天的爬蟲類似，主要還是xpath的使用。實(shí)現(xiàn)過程中遇到了兩個(gè)小問題。

部分表格的左側(cè)或右側(cè)有多行文字。直接用‘......//text()’會(huì)導(dǎo)致報(bào)錯(cuò)：out of range。解決辦法是以行、列查找，再按照行列復(fù)制給key, value。

    rows = selector.xpath('//*[@id="wikiContent"]/div[1]//td[1]')
    cols = selector.xpath('//*[@id="wikiContent"]/div[1]//td[2]')

    keys = []
    values = []
    print(data['name'])
    for row in rows:
        keys.append(' '.join(row.xpath('.//text()')))

    for col in cols:
        values.append(' '.join(col.xpath('.//text()')))

解決第一個(gè)問題之后，出現(xiàn)了第二個(gè)問題，即部分學(xué)校左邊多個(gè)但云哥對應(yīng)右邊一個(gè)合并單元格。在不破壞1中邏輯的前提下，我只能選擇丟棄這一小部分學(xué)校。

麥吉爾大學(xué)

 if len(keys) != len(values):
        continue

貼出完整代碼：

import requests
from lxml import etree

ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
     'AppleWebKit/537.36 (KHTML, like Gecko) ' \
     'Chrome/80.0.3987.116 Safari/537.36'
headers = {'User-Agent': ua}
r = requests.get("http://www.qianmu.org/ranking/1528.htm", headers=headers)

# 訪問遷木網(wǎng)首頁，提取出排名首頁的大學(xué)鏈接
et = etree.HTML(r.text)
links = et.xpath('//*[@id="page-wrapper"]/div/div[2]/div/div/div/div[2]/div/div[5]/table//td[2]//@href')

university = []
# 依次從大學(xué)鏈接中獲取大學(xué)的具體信息
for link in links:
    resp = requests.get(link, headers=headers)
    selector = etree.HTML(resp.text)
    data = {}
    data['name'] = selector.xpath('//*[@id="wikiContent"]/h1/text()')[0]

    rows = selector.xpath('//*[@id="wikiContent"]/div[1]//td[1]')
    cols = selector.xpath('//*[@id="wikiContent"]/div[1]//td[2]')

    keys = []
    values = []
    print(data['name'])
    for row in rows:
        keys.append(' '.join(row.xpath('.//text()')))

    for col in cols:
        values.append(' '.join(col.xpath('.//text()')))

    if len(keys) != len(values):
        continue
    for i in range(len(keys)):
        data[keys[i]] = values[i]
    university.append(data)

print(university)

基礎(chǔ)版本結(jié)束~

2 多線程版本

基礎(chǔ)版本雖然能夠?qū)崿F(xiàn)基本的功能，但是還是存在一個(gè)很嚴(yán)重的問題：太慢了。這對一只小爬蟲來說無疑是致命的。所以來升級一下這只小爬蟲。

2.1 重構(gòu)代碼

基礎(chǔ)班的代碼有點(diǎn)丑，而且不符合模塊化編程的思想。在引入多線程之前，先對丑代碼進(jìn)行一下重構(gòu)。

簡化代碼：

cols rows的處理

#   處理之前
    for row in rows:
        keys.append(' '.join(row.xpath('.//text()')))

    for col in cols:
        values.append(' '.join(col.xpath('.//text()')))

#   處理之后
    keys = [' '.join(row.xpath('.//text()')) for row in rows]
    values = [' '.join(col.xpath('.//text()')) for col in cols]

2.2 多線程處理

這一塊理解不深刻，多寫幾個(gè)例子

import time
import threading
from queue import Queue
import requests
from lxml import etree

start_url = 'http://www.qianmu.org/ranking/1528.html'
links_queue = Queue()
threads = []
thread_num = 100
page_num = 0


# 網(wǎng)絡(luò)連接，返回response
def step_net(url):
    ua = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) ' \
         'AppleWebKit/537.36 (KHTML, like Gecko) ' \
         'Chrome/80.0.3987.116 Safari/537.36'
    headers = {'User-Agent': ua}
    resp = requests.get(url, headers=headers)
    return resp.text.replace('\t', '')


def link_handle():
    et = etree.HTML(step_net(start_url))
    links = et.xpath('//*[@id="page-wrapper"]/div/div[2]/div/div/div/div[2]/div/div[5]/table//td[2]//@href')
    for link in links:
        # 將所有鏈接存入隊(duì)列
        links_queue.put(link)


def parse_university(link):
    # link = links_queue.get()
    resp = step_net(link)
    selector = etree.HTML(resp)
    data['name'] = selector.xpath('//*[@id="wikiContent"]/h1/text()')[0]
    rows = selector.xpath('//*[@id="wikiContent"]/div[1]//td[1]')
    cols = selector.xpath('//*[@id="wikiContent"]/div[1]//td[2]')
    keys = [' '.join(row.xpath('.//text()')) for row in rows]
    values = [' '.join(col.xpath('.//text()')) for col in cols]
    data.update(zip(keys, values))
    return data


def process_data(data):
    if data:
        print(data['name'])
        print(data)


def download():
    while True:
        link = links_queue.get()
        if link is None:
            break
        data = parse_university(link)
        process_data(data)
        global page_num
        page_num += 1
        links_queue.task_done()
        print("剩余未下載內(nèi)容：%s,當(dāng)前線程數(shù)：%s, threads線程池長度：%s" % (links_queue.qsize(),
                                                        len(threading.enumerate()),
                                                        len(threads)))

    pass


if __name__ == '__main__':
    data = {}
    start_time = time.time()
    link_handle()
    for i in range(thread_num):
        t = threading.Thread(target=download)
        t.start()
        threads.append(t)

    # 阻塞隊(duì)列直到所有隊(duì)列被清空
    links_queue.join()
    # 向隊(duì)列發(fā)送N個(gè)none以通知線程退出。
    for i in range(thread_num):
        links_queue.put(None)
    # 退出線程
    for t in threads:
        t.join()
    lasted = time.time() - start_time
    print("下載了%s個(gè)頁面，花費(fèi)%s秒鐘" % (page_num, lasted))

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

初級python爬蟲實(shí)戰(zhàn)二——爬取遷木網(wǎng)大學(xué)信息

初級python爬蟲實(shí)戰(zhàn)二——爬取遷木網(wǎng)大學(xué)信息

1 基礎(chǔ)版本

1.1 預(yù)備 && 思路

1.2 代碼實(shí)現(xiàn)

2 多線程版本

2.1 重構(gòu)代碼

2.2 多線程處理

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

初級python爬蟲實(shí)戰(zhàn)二——爬取遷木網(wǎng)大學(xué)信息

1 基礎(chǔ)版本

1.1 預(yù)備 && 思路

1.2 代碼實(shí)現(xiàn)

2 多線程版本

2.1 重構(gòu)代碼

2.2 多線程處理

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av