我爬取豆瓣影評(píng),告訴你《復(fù)仇者聯(lián)盟3》在講什么?

題圖:by thefolkpr0ject from Instagram

《復(fù)仇者聯(lián)盟3:無限戰(zhàn)爭》于 2018 年 5 月 11 日在中國大陸上映。截止 5 月 16 日,它累計(jì)票房達(dá)到 15.25 億。這票房紀(jì)錄已經(jīng)超過了漫威系列單部電影的票房紀(jì)錄。不得不說,漫威電影已經(jīng)成為一種文化潮流。


圖片來自時(shí)光網(wǎng)

復(fù)聯(lián) 3 作為漫威 10 年一劍的收官之作。漫威確認(rèn)下了很多功夫, 給我們奉獻(xiàn)一部精彩絕倫的電影。自己也利用周末時(shí)間去電影院觀看??赐曛螅瑐€(gè)人覺得無論在打斗特效方面還是故事情節(jié),都是給人愉悅的享受。同時(shí),電影還保持以往幽默搞笑的風(fēng)格,經(jīng)常能把觀眾逗得捧腹大笑。

如果還沒有去觀看的朋友,可以去電影院看看,確實(shí)值得一看。

本文通過 Python 制作網(wǎng)絡(luò)爬蟲,爬取豆瓣電影評(píng)論,并分析然后制作豆瓣影評(píng)的云圖。

1 分析

先通過影評(píng)網(wǎng)頁確定爬取的內(nèi)容。我要爬取的是用戶名,是否看過,五星評(píng)論值,評(píng)論時(shí)間,有用數(shù)以及評(píng)論內(nèi)容。


點(diǎn)擊查看大圖

然后確定每頁評(píng)論的 url 結(jié)構(gòu)。
第二頁 url 地址:


點(diǎn)擊查看大圖

第三頁 url 地址:


點(diǎn)擊查看大圖

最后發(fā)現(xiàn)其中的規(guī)律:除了首頁,后面的每頁 url 地址中只有 start= 的值逐頁遞增,其他都是不變的。

2 數(shù)據(jù)爬取

本文爬取數(shù)據(jù),采用的主要是 requests 庫和 lxml 庫中 Xpath。豆瓣網(wǎng)站雖然對(duì)網(wǎng)絡(luò)爬蟲算是很友好,但是還是有反爬蟲機(jī)制。如果你沒有設(shè)置延遲,一下子發(fā)起大量請(qǐng)求,會(huì)被封 IP 的。另外,如果沒有登錄豆瓣,只能訪問前 10 頁的影片。因此,發(fā)起爬取數(shù)據(jù)的 HTTP 請(qǐng)求要帶上自己賬號(hào)的 cookie。搞到 cookie 也不是難事,可以通過瀏覽器登錄豆瓣,然后在開發(fā)者模式中獲取。

我想從影評(píng)首頁開始爬取,爬取入口是:https://movie.douban.com/subject/24773958/comments?status=P,然后依次獲取頁面中下一頁的 url 地址以及需要爬取的內(nèi)容,接著繼續(xù)訪問下一個(gè)頁面的地址。

import jieba
import requests
import pandas as pd
import time
import random
from lxml import etree

def start_spider():
    base_url = 'https://movie.douban.com/subject/24773958/comments'
    start_url = base_url + '?start=0' 

    number = 1
    html = request_get(start_url) 

    while html.status_code == 200:
        # 獲取下一頁的 url
        selector = etree.HTML(html.text)
        nextpage = selector.xpath("http://div[@id='paginator']/a[@class='next']/@href")
        nextpage = nextpage[0]
        next_url = base_url + nextpage
        # 獲取評(píng)論
        comments = selector.xpath("http://div[@class='comment']")
        marvelthree = []
        for each in comments:
            marvelthree.append(get_comments(each))

        data = pd.DataFrame(marvelthree)
        # 寫入csv文件,'a+'是追加模式
        try:
            if number == 1:
                csv_headers = ['用戶', '是否看過', '五星評(píng)分', '評(píng)論時(shí)間', '有用數(shù)', '評(píng)論內(nèi)容']
                data.to_csv('./Marvel3_yingpping.csv', header=csv_headers, index=False, mode='a+', encoding='utf-8')
            else:
                data.to_csv('./Marvel3_yingpping.csv', header=False, index=False, mode='a+', encoding='utf-8')
        except UnicodeEncodeError:
            print("編碼錯(cuò)誤, 該數(shù)據(jù)無法寫到文件中, 直接忽略該數(shù)據(jù)")

        data = []

        html = request_get(next_url)

我在請(qǐng)求頭中增加隨機(jī)變化的 User-agent, 增加 cookie。最后增加請(qǐng)求的隨機(jī)等待時(shí)間,防止請(qǐng)求過猛被封 IP。

def request_get(url):
    '''
    使用 Session 能夠跨請(qǐng)求保持某些參數(shù)。
    它也會(huì)在同一個(gè) Session 實(shí)例發(fā)出的所有請(qǐng)求之間保持 cookie
    '''
    timeout = 3

    UserAgent_List = [
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2228.0 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.1 Safari/537.36",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2227.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2226.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.4; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2225.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2224.3 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.93 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 4.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2049.0 Safari/537.36",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.67 Safari/537.36",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.3319.102 Safari/537.36",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2309.372 Safari/537.36",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.2117.157 Safari/537.36",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.47 Safari/537.36",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1866.237 Safari/537.36",
    ]

    header = {
        'User-agent': random.choice(UserAgent_List),
        'Host': 'movie.douban.com',
        'Referer': 'https://movie.douban.com/subject/24773958/?from=showing',
    }

    session = requests.Session()

    cookie = {
        'cookie': "你的 cookie 值",
    }

    time.sleep(random.randint(5, 15))  
    response = requests.get(url, headers=header, cookies=cookie_nologin, timeout = 3)
    if response.status_code != 200:
        print(response.status_code)
    return response

最后一步就是數(shù)據(jù)獲?。?/p>

def get_comments(eachComment):
    commentlist = []
    user = eachComment.xpath("./h3/span[@class='comment-info']/a/text()")[0]  # 用戶
    watched = eachComment.xpath("./h3/span[@class='comment-info']/span[1]/text()")[0]  # 是否看過
    rating = eachComment.xpath("./h3/span[@class='comment-info']/span[2]/@title")  # 五星評(píng)分
    if len(rating) > 0:
        rating = rating[0]

    comment_time = eachComment.xpath("./h3/span[@class='comment-info']/span[3]/@title")  # 評(píng)論時(shí)間
    if len(comment_time) > 0:
        comment_time = comment_time[0]
    else:
        # 有些評(píng)論是沒有五星評(píng)分, 需賦空值
        comment_time = rating
        rating = ''

    votes = eachComment.xpath("./h3/span[@class='comment-vote']/span/text()")[0]  # "有用"數(shù)
    content = eachComment.xpath("./p/text()")[0]  # 評(píng)論內(nèi)容

    commentlist.append(user)
    commentlist.append(watched)
    commentlist.append(rating)
    commentlist.append(comment_time)
    commentlist.append(votes)
    commentlist.append(content.strip())
    # print(list)
    return commentlist

3 制作云圖

因?yàn)榕廊〕鰜碓u(píng)論數(shù)據(jù)都是一大串字符串,所以需要對(duì)每個(gè)句子進(jìn)行分詞,然后統(tǒng)計(jì)每個(gè)詞語出現(xiàn)的評(píng)論。我采用 jieba 庫來進(jìn)行分詞,制作云圖,我則是將分詞后的數(shù)據(jù)丟給網(wǎng)站 worditout 處理。

def split_word():
    with codecs.open('Marvel3_yingpping.csv', 'r', 'utf-8') as csvfile:
        reader = csv.reader(csvfile)
        content_list = []
        for row in reader:
            try:
                content_list.append(row[5])
            except IndexError:
                pass

        content = ''.join(content_list)

        seg_list = jieba.cut(content, cut_all=False)
        result = '\n'.join(seg_list)
        print(result)

最后制作出來的云圖效果是:


點(diǎn)擊查看大圖

"滅霸"詞語出現(xiàn)頻率最高,其實(shí)這一點(diǎn)不意外。因?yàn)閺?fù)聯(lián) 3 整部電影的故事情節(jié)大概是,滅霸在宇宙各個(gè)星球上收集 6 顆無限寶石,然后每個(gè)超級(jí)英雄為了防止滅霸毀滅整個(gè)宇宙,組隊(duì)來阻止滅霸。


推薦閱讀:
爬蟲實(shí)戰(zhàn)二:爬取電影天堂的最新電影
爬蟲系列的總結(jié)


本文原創(chuàng)發(fā)布于微信公眾號(hào)「極客猴」,歡迎關(guān)注第一時(shí)間獲取更多原創(chuàng)分享

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 在本文中我會(huì)嘗試如何從0數(shù)據(jù)開始到獲取百萬頁面,進(jìn)行用戶數(shù)據(jù)分析、建模,再數(shù)據(jù)信息化、可視化,生成用戶畫像分析用戶...
    hirainchen閱讀 25,854評(píng)論 121 689
  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 22,757評(píng)論 4 411
  • 今年,我參加了高考,很幸運(yùn),取得了不錯(cuò)的成績,然后,經(jīng)過千挑萬選,踏入了大學(xué)的校門。 再然后呢?再然后,收拾好...
    吃草的老羊閱讀 346評(píng)論 0 1
  • 失戀, 是怎樣一種滋味? 是痛不欲生, 還是生無可戀? 未成戀愛的你, 實(shí)在無法想象人們何以為此輕生? 尤其 至今...
    愛笑的蘆微閱讀 189評(píng)論 0 1
  • 十多年前,這就已經(jīng)是一個(gè)奇葩的存在,一個(gè)小飯店,當(dāng)然不是人民大會(huì)堂宴會(huì)廳那種,也不是某政府機(jī)關(guān)招待處,就是車水馬龍...
    道格拉撕_剛哥閱讀 593評(píng)論 2 1

友情鏈接更多精彩內(nèi)容