前言

蛋肥通過Python爬蟲獲取豆瓣電影TOP250數(shù)據(jù)的練習(xí)，掌握了爬蟲的基本知識，然后蛋肥又去拜讀了很多高手的爬蟲實例，發(fā)現(xiàn)自己在最后的數(shù)據(jù)分析上實在乏善可陳，所以這一次嘗試將更多的時間用在數(shù)據(jù)分析上，看能否得出一些有趣的信息。

準(zhǔn)備

爬取時間：2020/11/26
系統(tǒng)環(huán)境：Windows 10
所用工具：Jupyter Notebook\Python 3.0
涉及的庫：requests\lxml\pandas\matplotlib\datetime\jieba\stylecloud

獲取基礎(chǔ)數(shù)據(jù)

蛋肥想法：為了獲取更多的信息，蛋肥打算先將產(chǎn)品運營分類下所有文章的網(wǎng)址爬取下來，然后再進入文章頁面，爬取題目、作者、評論等詳細信息。

產(chǎn)品運營|人人都是產(chǎn)品經(jīng)理
http://www.woshipm.com/category/operate
參考資料
用python的xpath和requests庫爬取圖片超詳細實例
 如何在python中把兩個列表的各項分別合并為列表
 Max retries exceeded with url問題解決
 requests關(guān)于Exceeded 30 redirects問題得出的結(jié)論

爬取產(chǎn)品運營分類下所有文章的網(wǎng)址

import requests
from lxml import etree

#爬取產(chǎn)品運營分類下所有文章的網(wǎng)址
def gethref():
    href=[]
    #偽造請求頭
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
    #循環(huán)解決翻頁問題
    for i in range(1,863):
        link="http://www.woshipm.com/category/operate/page/"+str(i)
        r=requests.get(link,headers=headers,timeout=10)
        print(str(i),r.status_code)
        #爬取對應(yīng)xpath下的數(shù)據(jù)并存入列表
        html=etree.HTML(r.text)
        href_t=html.xpath('//h2[@class="post-title"]/a/@href')
        href.extend(href_t)
    return(href)

#執(zhí)行函數(shù)
href=gethref()

爬取文章詳細信息

#爬取文章詳細信息
def getinfo(list):
    info=[]
    #偽造請求頭
    headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64; rv:43.0) Gecko/20100101 Firefox/43.0"}
    #遍歷每個鏈接
    for i in range(len(list)):
        link=list[i]
        #增加重試連接次數(shù)
        requests.DEFAULT_RETRIES=5
        #關(guān)閉多余連接
        s=requests.session()
        s.keep_alive=False
        r=requests.get(link,headers=headers,timeout=300,allow_redirects=False)
        print(str(i),r.status_code)
        #依次爬取題目、作者、發(fā)布時間、評論數(shù)、瀏覽量、收藏數(shù)、預(yù)計閱讀時間、作者頭像
        html=etree.HTML(r.text)
        title=html.xpath('//h2[@class="article--title"]/text()')
        author=html.xpath('//div[@class="author u-flex"]/a/text()')
        time=html.xpath('//div[@class="meta--sup"]/time/text()')
        comment=html.xpath('//div[@class="meta--sup__right"]/text()[1]')
        read=html.xpath('//div[@class="meta--sup__right"]/text()[2]')
        collect=html.xpath('//div[@class="meta--sup__right"]/text()[3]')
        lenth=html.xpath('//div[@class="meta--sup__right"]/el-tooltip/span/text()')
        pic=html.xpath('//div[@class="u-flex0"]/a/img/@src')
        info_t=[[a,b,c,d,e,f,g,h] for a,b,c,d,e,f,g,h in zip(title,author,time,comment,read,collect,lenth,pic)]
        info.extend(info_t)
    return(info)

#執(zhí)行函數(shù)，如果執(zhí)行時老是崩，可以分段執(zhí)行最后拼接（蛋肥就是這樣做的，只是為了代碼好看沒寫出來）
data=getinfo(href)

數(shù)據(jù)預(yù)處理

蛋肥想法：經(jīng)觀察數(shù)據(jù)整體問題不大，檢查缺失、去除空格、轉(zhuǎn)化數(shù)據(jù)格式，最后將數(shù)據(jù)保存為xlsx。

小插曲
len(href)為10335，len(data)為10334，找了半天，才發(fā)現(xiàn)有一個文章禁止訪問了，不知道因為啥原因，于是蛋肥便拋棄了它。

from datetime import datetime
#去除空格及不需要的字符，調(diào)整格式
for i in range(len(data)):    
    data[i]=[x.replace("\n","").replace(" ","") for x in data[i]]
    data[i][2]=datetime.strptime(data[i][2],'%Y-%m-%d')
    data[i][3]=int(data[i][3].replace("評論",""))
    data[i][5]=int(data[i][5].replace("收藏",""))
    data[i][6]=int(data[i][6].replace("分鐘",""))
    #因瀏覽量存在過萬的情況，如"1.2萬"，做一下轉(zhuǎn)換
    if("萬"in data[i][4]):
        data[i][4]=int(float(data[i][4].replace("瀏覽","").replace("萬",""))*10000)
    else:
        data[i][4]=int(data[i][4].replace("瀏覽",""))

import pandas as pd
#保存數(shù)據(jù)
df=pd.DataFrame(data,columns=["題目","作者","日期","評論數(shù)","瀏覽數(shù)","收藏數(shù)","時長","作者頭像"])
df.info()
df.to_excel(r"C:\Users\Archer\Desktop\爬取數(shù)據(jù).xlsx",index=False)

保存到本地的部分數(shù)據(jù)

數(shù)據(jù)可視化

蛋肥想法：數(shù)據(jù)相關(guān)圖貼到數(shù)據(jù)分析中，此處只記錄繪圖代碼，如想直接看分析，建議瘋狂下滑。

import matplotlib.pyplot as plt

#畫圖四件套：顯示、矢量、中文、負號
%matplotlib inline
%config InlineBackend.figure_format="svg"
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

繪制季度發(fā)文量變化趨勢

參考資料
Python將數(shù)據(jù)框中的每日數(shù)據(jù)匯總到每月和每季度
 python繪圖保存的圖像坐標(biāo)軸顯示不全以及圖片周圍空白較大的問題

#繪制季度發(fā)文量變化趨勢
#為了不影響原數(shù)據(jù)表，重新建一個來操作數(shù)據(jù)
df_num=df.copy()
df_num.set_index("日期",inplace=True)
x=list(df_num.resample('QS').count().index)
y=list(df_num.resample('QS').count()["題目"])

#開始繪圖
plt.figure(figsize=(12,5))
plt.subplot(1,1,1)
plt.plot(x,y)

#設(shè)置數(shù)據(jù)標(biāo)簽
for a,b in zip(x,y):
    plt.text(a,b,b,ha="center",va="bottom",fontsize=10)
#設(shè)置其他
plt.title("季度發(fā)文量變化趨勢",fontsize=15)
plt.xticks(x,rotation=90)

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\季度發(fā)文量變化趨勢.png",bbox_inches="tight")

繪制作者（發(fā)文總量>90）發(fā)文量變化趨勢

小提示
所有作者發(fā)文量變化趨勢，在下面的代碼中去除篩選條件并做些許修改即可，故不另貼代碼
參考資料
python如何水平顯示圖例元素

#篩選發(fā)文總量>90的作者
df_90=df.groupby("作者").count().sort_values("題目",ascending=False)
df_90=df_90[df_90["題目"]>90]
#將作者數(shù)據(jù)存入列表
author=list(df_90.index)

#開始繪圖，因為老曹前期發(fā)布了大量文章，為了不影響其他數(shù)據(jù)顯示，設(shè)置y軸范圍(0,120)
plt.figure(figsize=(12,5))
plt.subplot(1,1,1)
plt.title("發(fā)文總量>90的作者發(fā)文量變化趨勢",fontsize=15)
plt.ylim(0,120)

#循環(huán)繪制每一個作者的趨勢曲線
for i in range(len(author)):
    df_author=df[df["作者"]==author[i]].copy()
    df_author.set_index("日期",inplace=True)
    x=list(df_author.resample('QS').count().index)
    y=list(df_author.resample('QS').count()["題目"])
    plt.plot(x,y,label=author[i])
    
#與【季度發(fā)文量變化趨勢】統(tǒng)一橫坐標(biāo)軸
date=list(df_num.resample('QS').count().index)
plt.xticks(date,rotation=90)

#添加橫向圖例
plt.legend(loc="upper left",ncol=8)

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\作者發(fā)文量變化趨勢.png",bbox_inches="tight")

繪制發(fā)文量排行榜

#繪制發(fā)文量排行榜
from datetime import datetime
#為了不影響原數(shù)據(jù)表，重新建一個來操作數(shù)據(jù)
df_r=df.copy()
df_r.set_index("日期",inplace=True)

#繪制畫布
plt.figure(figsize=(14,18))

#遍歷每一年的排行榜
for i in range(0,9):
    df_m=df_r[(df_r.index<datetime(2013+i,1,1))&(df_r.index>datetime(2012+i,1,1))].groupby("作者").count().sort_values("題目")[-5:]
    x=list(df_m.index)
    y=list(df_m["題目"])
    plt.subplot(5,2,i+1)
    plt.barh(x,y)
    plt.title(str(2012+i)+"年發(fā)文量TOP5",fontsize=15)
    #添加數(shù)據(jù)標(biāo)簽
    for a,b in zip(x,y):
        plt.text(b,a,b,ha="left",va="center",fontsize=10)
    #隱藏xticks，節(jié)約空間
    plt.xticks([])

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\發(fā)文量排行榜.png",bbox_inches="tight")

文章互動總數(shù)TOP10系列

#文章-瀏覽總數(shù)TOP10
df_read=df.sort_values("瀏覽數(shù)",ascending=False)[0:10].iloc[:,[0,1,2,4]]
#文章-評論總數(shù)TOP10
df_comment=df.sort_values("評論數(shù)",ascending=False)[0:10].iloc[:,[0,1,2,3]]
#文章-收藏總數(shù)TOP10
df_collect=df.sort_values("收藏數(shù)",ascending=False)[0:10].iloc[:,[0,1,2,5]]

作者互動總數(shù)TOP10系列

#作者-瀏覽總數(shù)TOP10
df_a_read=df.groupby("作者").aggregate({"瀏覽數(shù)":"sum"}).sort_values("瀏覽數(shù)")[-10:]
#作者-評論總數(shù)TOP10
df_a_comment=df.groupby("作者").aggregate({"評論數(shù)":"sum"}).sort_values("評論數(shù)")[-10:]
#作者-收藏總數(shù)TOP10
df_a_collect=df.groupby("作者").aggregate({"收藏數(shù)":"sum"}).sort_values("收藏數(shù)")[-10:]

#繪制畫布
plt.figure(figsize=(12,15))
#繪制作者-瀏覽總數(shù)TOP10
plt.subplot(3,1,1)
plt.title("作者-瀏覽總數(shù)TOP10",fontsize=15)  
x=list(df_a_read.index)
y=list(df_a_read["瀏覽數(shù)"])
plt.barh(x,y)
for a,b in zip(x,y):
    plt.text(b,a,b,ha="left",va="center",fontsize=10)
#隱藏xticks，節(jié)約空間
plt.xticks([])

#繪制作者-評論總數(shù)TOP10
plt.subplot(3,1,2)
plt.title("作者-評論總數(shù)TOP10",fontsize=15)  
x=list(df_a_comment.index)
y=list(df_a_comment["評論數(shù)"])
plt.barh(x,y)
for a,b in zip(x,y):
    plt.text(b,a,b,ha="left",va="center",fontsize=10)
#隱藏xticks，節(jié)約空間
plt.xticks([])

#繪制作者-收藏總數(shù)TOP10
plt.subplot(3,1,3)
plt.title("作者-收藏總數(shù)TOP10",fontsize=15)  
x=list(df_a_collect.index)
y=list(df_a_collect["收藏數(shù)"])
plt.barh(x,y)
for a,b in zip(x,y):
    plt.text(b,a,b,ha="left",va="center",fontsize=10)
#隱藏xticks，節(jié)約空間
plt.xticks([])

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\作者互動排行榜.png",bbox_inches="tight")

作者互動平均數(shù)TOP10系列

python中關(guān)于round函數(shù)的小坑

#作者-瀏覽平均數(shù)TOP10
df_a_read_mean=df.groupby("作者").aggregate({"瀏覽數(shù)":"sum","題目":"count"}).sort_values("瀏覽數(shù)")
df_a_read_mean.insert(2,"平均",df_a_read_mean["瀏覽數(shù)"]//df_a_read_mean["題目"])
df_a_read_mean=df_a_read_mean[df_a_read_mean["題目"]>10].sort_values("平均")[-10:]
#作者-評論平均數(shù)TOP10
df_a_comment_mean=df.groupby("作者").aggregate({"評論數(shù)":"sum","題目":"count"}).sort_values("評論數(shù)")
df_a_comment_mean.insert(2,"平均",df_a_comment_mean["評論數(shù)"]//df_a_comment_mean["題目"])
df_a_comment_mean=df_a_comment_mean[df_a_comment_mean["題目"]>10].sort_values("平均")[-10:]
#作者-收藏平均數(shù)TOP10
df_a_collect_mean=df.groupby("作者").aggregate({"收藏數(shù)":"sum","題目":"count"}).sort_values("收藏數(shù)")
df_a_collect_mean.insert(2,"平均",df_a_collect_mean["收藏數(shù)"]//df_a_collect_mean["題目"])
df_a_collect_mean=df_a_collect_mean[df_a_collect_mean["題目"]>10].sort_values("平均")[-10:]

#繪制畫布
plt.figure(figsize=(12,15))
#繪制作者-瀏覽平均數(shù)TOP10
plt.subplot(3,1,1)
plt.title("作者-瀏覽平均數(shù)TOP10",fontsize=15)  
x=list(df_a_read_mean.index)
y=list(df_a_read_mean["平均"])
plt.barh(x,y)
for a,b in zip(x,y):
    plt.text(b,a,b,ha="left",va="center",fontsize=10)
#隱藏xticks，節(jié)約空間
plt.xticks([])

#繪制作者-評論平均數(shù)TOP10
plt.subplot(3,1,2)
plt.title("作者-評論平均數(shù)TOP10",fontsize=15)  
x=list(df_a_comment_mean.index)
y=list(df_a_comment_mean["平均"])
plt.barh(x,y)
for a,b in zip(x,y):
    plt.text(b,a,b,ha="left",va="center",fontsize=10)
#隱藏xticks，節(jié)約空間
plt.xticks([])

#繪制作者-收藏平均數(shù)TOP10
plt.subplot(3,1,3)
plt.title("作者-收藏平均數(shù)TOP10",fontsize=15)  
x=list(df_a_collect_mean.index)
y=list(df_a_collect_mean["平均"])
plt.barh(x,y)
for a,b in zip(x,y):
    plt.text(b,a,b,ha="left",va="center",fontsize=10)
#隱藏xticks，節(jié)約空間
plt.xticks([])

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\作者互動平均排行榜.png",bbox_inches="tight")

繪制標(biāo)題熱詞詞云（以2020年為例）

參考資料
一款高顏值的詞云包讓我拍案叫絕
 Python分詞云圖：中英文Stylecloud調(diào)用代碼精校，可拿來直接用
 Tableau Palettes

import jieba
from stylecloud import gen_stylecloud

#篩選2020年的標(biāo)題，簡單去掉中文停用詞，建議去網(wǎng)上下更全的詞表
df_c=df[(df["日期"]<datetime(2021,1,1))&(df["日期"]>datetime(2020,1,1))]
textc=list(df_c["題目"])
textstop=["的","如何","是","與","和","你","從","怎么","到","做","什么","了","個","在","好"]
for i in range(len(textc)):
    for j in range(len(textstop)):
        textc[i]=textc[i].replace(textstop[j],"")

#保存成txt
file=open(r"C:\Users\Archer\Desktop\2020題目.txt","a+",encoding='utf-8')
for i in range(len(textc)):
    s=str(textc[i])
    file.write(s)
file.close()

#直接復(fù)制詞云代碼，icon_name對應(yīng)詞云輪廓，palette對應(yīng)配色
def jieba_cloud(file_name):
    with open(file_name,'r',encoding='utf8') as f:
        word_list = jieba.cut(f.read())
        result = " ".join(word_list)
        #制作中文云詞
        gen_stylecloud(text=result,palette='tableau.BlueRed_6',icon_name='fas fa-comment',font_path='C:\\Windows\\Fonts\\simhei.ttf',output_name=file_name.split('.')[0] + '.png')       
if __name__ == "__main__":
    file_name = r"C:\Users\Archer\Desktop\2020題目.txt"
    jieba_cloud(file_name)

題目長度相關(guān)性

df_title=df.copy()
#新增列記錄題目長度
df_title["題目長度"]=df_title['題目'].str.len()
df_title_c=df_title.groupby("題目長度").count()

#繪制畫布
plt.figure(figsize=(12,20))
#繪制題目長度分布
plt.subplot(4,1,1)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("題目長度")
plt.ylabel("數(shù)量")
#設(shè)置標(biāo)題
plt.title("題目長度 分布")
#繪制分布圖
plt.bar(df_title_c.index,df_title_c["題目"])

#繪制題目長度-瀏覽數(shù)相關(guān)性
plt.subplot(4,1,2)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("題目長度")
plt.ylabel("瀏覽數(shù)")
#設(shè)置標(biāo)題
plt.title("題目長度-瀏覽數(shù) 相關(guān)性")
#繪制散點圖
plt.scatter(df_title["題目長度"],df_title["瀏覽數(shù)"])

#繪制題目長度-評論數(shù)相關(guān)性
plt.subplot(4,1,3)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("題目長度")
plt.ylabel("評論數(shù)")
#設(shè)置標(biāo)題
plt.title("題目長度-評論數(shù) 相關(guān)性")
#繪制散點圖
plt.scatter(df_title["題目長度"],df_title["評論數(shù)"])

#繪制題目長度-收藏數(shù)相關(guān)性
plt.subplot(4,1,4)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("題目長度")
plt.ylabel("收藏數(shù)")
#設(shè)置標(biāo)題
plt.title("題目長度-收藏數(shù) 相關(guān)性")
#繪制散點圖
plt.scatter(df_title["題目長度"],df_title["收藏數(shù)"])

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\題目長度相關(guān)性.png",bbox_inches="tight")

文章時長相關(guān)性

df_time=df.copy()
df_time_c=df_time.groupby("時長").count()

#繪制畫布
plt.figure(figsize=(12,20))
#繪制文章時長分布
plt.subplot(4,1,1)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("文章時長")
plt.ylabel("數(shù)量")
#設(shè)置標(biāo)題
plt.title("文章時長 分布")
#繪制分布圖
plt.bar(df_time_c.index,df_time_c["題目"])

#繪制文章時長-瀏覽數(shù)相關(guān)性
plt.subplot(4,1,2)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("文章時長")
plt.ylabel("瀏覽數(shù)")
#設(shè)置標(biāo)題
plt.title("文章時長-瀏覽數(shù) 相關(guān)性")
#繪制散點圖
plt.scatter(df_time["時長"],df_time["瀏覽數(shù)"])

#繪制文章時長-評論數(shù)相關(guān)性
plt.subplot(4,1,3)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("文章時長")
plt.ylabel("評論數(shù)")
#設(shè)置標(biāo)題
plt.title("文章時長-評論數(shù) 相關(guān)性")
#繪制散點圖
plt.scatter(df_time["時長"],df_time["評論數(shù)"])

#繪制文章時長-收藏數(shù)相關(guān)性
plt.subplot(4,1,4)
#設(shè)置橫縱坐標(biāo)軸
plt.xlabel("文章時長")
plt.ylabel("收藏數(shù)")
#設(shè)置標(biāo)題
plt.title("文章時長-收藏數(shù) 相關(guān)性")
#繪制散點圖
plt.scatter(df_time["時長"],df_time["收藏數(shù)"])

#保存圖片
plt.savefig(r"C:\Users\Archer\Desktop\文章時長相關(guān)性.png",bbox_inches="tight")

數(shù)據(jù)分析

發(fā)文

發(fā)文量趨勢

季度發(fā)文量變化趨勢，可以看出存在四次明顯的下降節(jié)點，“2012-04-01~2012-07-01”是因為人人都是產(chǎn)品經(jīng)理CEO老曹大幅減少了發(fā)文數(shù)量；“2020-07-01~2020-10-01”是因為第四季度不完整；“2013-07-01~2014-04-01”和“2017-10-01~2018-04-01”下降的原因未知。
鑒于第一個下降節(jié)點是因為主創(chuàng)老曹減少了發(fā)文，蛋肥猜想后兩次下降是否因為同樣的原因，于是蛋肥篩選出了發(fā)文總量>90的作者，追蹤其發(fā)文趨勢，得到發(fā)文總量>90的作者發(fā)文量變化趨勢，可以看出下降節(jié)點基本上是吻合的，同時觀察所有作者發(fā)文量變化趨勢，也基本吻合。
推測，人人都是產(chǎn)品經(jīng)理|產(chǎn)品運營版塊，“2012-04-01~2013-07-01”主要是主創(chuàng)人員（或種子用戶）發(fā)文進行版塊的啟動，該階段用戶還處于觀望的態(tài)勢；“2013-07-01~2014-04-01”主創(chuàng)人員（或種子用戶）減少了發(fā)文，發(fā)文總量陡降，說明自然用戶還未參與到版塊的循環(huán)來；“2014-04-01~2017-10-01”主創(chuàng)人員（或種子用戶）的發(fā)文量波動下降中，但整體發(fā)文量卻呈現(xiàn)上升的趨勢，追蹤將所有作者的發(fā)文趨勢，可以看到這段時間內(nèi)發(fā)文量在0-10這個區(qū)間的作者開始增多，同時存在不少10-15這個區(qū)間的作者，說明自然用戶逐漸參與到版塊內(nèi)容的構(gòu)建中，熱度引發(fā)了熱情，不少專業(yè)自媒體也參與其中；“2017-10-01~2020-10-01”這段時間熱情逐漸消散，版塊回歸理性，發(fā)文總量陡降后開始緩慢回升，且2020年由于疫情原因出現(xiàn)小波峰。

發(fā)文量排行榜

江山代有才人出，各領(lǐng)風(fēng)騷每一年哇，看得出“老虎講運營”、“野生的獨孤菌”近三年開始發(fā)力，可以關(guān)注一下，只是不知曾經(jīng)叱詫風(fēng)云的“魏家東”、“米可”現(xiàn)在又身在何方~

互動

整體來看，用戶評論數(shù)、收藏數(shù)偏低，看來大多數(shù)都是“朕已閱”的心態(tài)；作者互動平均數(shù)據(jù)，蛋肥挑選了發(fā)文量大于10的作者統(tǒng)計（避免單篇文章平均數(shù)據(jù)偏大），這些數(shù)據(jù)可作為一個標(biāo)尺，如果你發(fā)文量大于10且三項數(shù)據(jù)能達到這個水準(zhǔn)，那么恭喜你，你已經(jīng)是人人都是產(chǎn)品經(jīng)理的頂部KOL了。
蛋肥認為可以從瀏覽、評論、收藏三個方面對文章（或作者）進行一個加權(quán)打分，然后就可以排出一個最具有含金量的TOP榜單，但是這個加權(quán)系數(shù)怎么設(shè)置蛋肥沒有經(jīng)驗，所以這次先略過（還是因為懶）。

文章-瀏覽總數(shù)TOP10

文章-評論總數(shù)TOP10

文章-收藏總數(shù)TOP10

作者-互動總數(shù)排行榜

作者-互動平均數(shù)排行榜

標(biāo)題熱詞

單純從標(biāo)題詞云中可以看出，2012-2014年“營銷”是主旋律，更多的看重如何將產(chǎn)品賣出去、如何提高產(chǎn)品的知名度，市場以搶占用戶為主；從2015年開始，“運營”取而代之，很多產(chǎn)品的用戶量接近或已經(jīng)觸及天花板，如何利用產(chǎn)品運營的技巧，盡可能大地利用這部分用戶的價值成為關(guān)注的重點；2019年開始，“增長”逐步成為熱議話題，無論是私域流量、社區(qū)流量，還是細分長尾市場、跨界合作等，目標(biāo)都是尋求突破用戶天花板，獲得更多的增長空間。

2012年-2020年標(biāo)題熱詞

總結(jié)

數(shù)據(jù)分析，最好提前設(shè)立目標(biāo)，不然在選取數(shù)據(jù)、數(shù)據(jù)可視化時沒有方向性，不能為了分析而分析（當(dāng)然練習(xí)除外）。
數(shù)據(jù)中確實隱含著很多信息，隨著數(shù)據(jù)維度、時間維度、數(shù)據(jù)量等的增加，數(shù)據(jù)中所能蘊含的信息或規(guī)律也會增多，可以揭示更深層次的數(shù)據(jù)關(guān)聯(lián)，這應(yīng)該就是大數(shù)據(jù)的概念。

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python爬蟲實戰(zhàn)（2）數(shù)據(jù)爬取、繪圖、詞云、分析

Python爬蟲實戰(zhàn)（2）數(shù)據(jù)爬取、繪圖、詞云、分析

前言

準(zhǔn)備

獲取基礎(chǔ)數(shù)據(jù)

爬取產(chǎn)品運營分類下所有文章的網(wǎng)址

爬取文章詳細信息

數(shù)據(jù)預(yù)處理

數(shù)據(jù)可視化

繪制季度發(fā)文量變化趨勢

繪制作者（發(fā)文總量>90）發(fā)文量變化趨勢

繪制發(fā)文量排行榜

文章互動總數(shù)TOP10系列

作者互動總數(shù)TOP10系列

作者互動平均數(shù)TOP10系列

繪制標(biāo)題熱詞詞云（以2020年為例）

題目長度相關(guān)性

文章時長相關(guān)性

數(shù)據(jù)分析

發(fā)文

發(fā)文量趨勢

發(fā)文量排行榜

互動

文章-瀏覽總數(shù)TOP10

文章-評論總數(shù)TOP10

文章-收藏總數(shù)TOP10

作者-互動總數(shù)排行榜

作者-互動平均數(shù)排行榜

標(biāo)題熱詞

相關(guān)性

題目長度與瀏覽數(shù)、評論數(shù)、收藏數(shù)的關(guān)系

文章時長與瀏覽數(shù)、評論數(shù)、收藏數(shù)的關(guān)系

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九 欧美,1769亚洲,黄色成人av

Python爬蟲實戰(zhàn)（2）數(shù)據(jù)爬取、繪圖、詞云、分析

前言

準(zhǔn)備

獲取基礎(chǔ)數(shù)據(jù)

爬取產(chǎn)品運營分類下所有文章的網(wǎng)址

爬取文章詳細信息

數(shù)據(jù)預(yù)處理

數(shù)據(jù)可視化

繪制季度發(fā)文量變化趨勢

繪制作者（發(fā)文總量>90）發(fā)文量變化趨勢

繪制發(fā)文量排行榜

文章互動總數(shù)TOP10系列

作者互動總數(shù)TOP10系列

作者互動平均數(shù)TOP10系列

繪制標(biāo)題熱詞詞云（以2020年為例）

題目長度相關(guān)性

文章時長相關(guān)性

數(shù)據(jù)分析

發(fā)文

發(fā)文量趨勢

發(fā)文量排行榜

互動

文章-瀏覽總數(shù)TOP10

文章-評論總數(shù)TOP10

文章-收藏總數(shù)TOP10

作者-互動總數(shù)排行榜

作者-互動平均數(shù)排行榜

標(biāo)題熱詞

相關(guān)性

題目長度與瀏覽數(shù)、評論數(shù)、收藏數(shù)的關(guān)系

文章時長與瀏覽數(shù)、評論數(shù)、收藏數(shù)的關(guān)系

總結(jié)

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容

色偷偷精品伊人,欧洲久久精品,欧美综合婷婷骚逼,国产AV主播,国产最新探花在线,九色在线视频一区,伊人大交九欧美,1769亚洲,黄色成人av

Python爬蟲實戰(zhàn)（2）數(shù)據(jù)爬取、繪圖、詞云、分析

題目長度與瀏覽數(shù)、評論數(shù)、收藏數(shù)的關(guān)系

文章時長與瀏覽數(shù)、評論數(shù)、收藏數(shù)的關(guān)系