本周有技術大神在知乎、專業(yè)安全網(wǎng)站爆出TX扣扣在偷偷抓取個人瀏覽器瀏覽記錄并上報,一石激起千層浪,迅速成為圈內(nèi)熱門話題。博主這里不敢亂評價(你懂的)。我們從另外一個角度來切入話題。
瀏覽記錄本身是屬于網(wǎng)站行為數(shù)據(jù),對該數(shù)據(jù)分析也就是網(wǎng)站行為分析,對于互聯(lián)網(wǎng)從業(yè)者來說,這是一個必備的技能,之前寫過一遍關于數(shù)據(jù)分析入門之用戶行為分析的文章,大家有一定了了解。今天借助這樣一個話題,對自己的瀏覽數(shù)據(jù)進行分析實踐,希望達到2個目的:
掌握一些數(shù)據(jù)分析的技能;
對自己過去一段的上網(wǎng)行為有一個量化的認識。
一 準備數(shù)據(jù)源
將瀏覽記錄下載到本地,不同的瀏覽器下載方式不同,可能要借助不同小工具,已谷歌瀏覽器為例(需要安裝插件Export Chrome History),步驟如下:
- 下載地址: https://chrome.google.com/webstore/detail/export-chrome-history/dihloblpkeiddiaojbagoecedbfpifdj
-
添加至Chrome
圖片 -
添加完成之后,點擊右上角時鐘按鈕,下載最近1年或者1周的數(shù)據(jù)
圖片 -
下圖是下載csv數(shù)據(jù),大部分可以在Excel中分析
圖片
至此數(shù)據(jù)源準備完畢,開始用Excel進行分析。
二 Excel數(shù)據(jù)分析
涉及知識點:透視圖、hour、mid、find函數(shù)、圖表展示
具體步驟:
1)添加"小時"、"域名"兩個計算列,每個url后續(xù)參數(shù)較多,去掉參數(shù)方便匯總,這個也是用戶行為分析中非常重要的一步,當然也可以添加其他計算列
"小時"列:hour(d2)
"域名"列:MID(F2,FIND("http://",F2)+2,FIND("/",F2,FIND("http://",F2)+2)-FIND("http://",F2)-2)
圖片
2)創(chuàng)建透視圖
圖片
圖片
3)每日瀏覽量(PV)分析,
可以看出平均每天瀏覽2100個頁面,其中工作日能達到2500個,周末只有900多。
圖片
4)每日時段瀏覽記錄分析
可以看出,每天早8點、晚8點瀏覽網(wǎng)頁最多,其次是早9點和晚9點,早上10點這個階段比其他時間少一個量級,猜測一下我在干嘛呢?
圖片
5)網(wǎng)站熱度分析
可以看出知乎和知識星球是真愛啊,知乎所占比例這么高自己都不知道。
圖片
6)上面幾個分析雖然比較簡單,但是自己之前還真的不知道。大家也可以嘗試其他角度的分析。比如哪個時間段在看什么網(wǎng)站、自己關注的網(wǎng)站是不是也有時間周期等。
三 詞云制作
上面進行了簡單的統(tǒng)計分析,但是自己這段時間到底在網(wǎng)上看什么內(nèi)容是看不出來的,數(shù)據(jù)源中還有網(wǎng)頁標題這項數(shù)據(jù),這個時候可以借助詞云來進行可視化展示。這里介紹2種方式實現(xiàn)詞云可視化。
圖片
1 Python自己碼代碼,具體步驟如下:
- 安裝Python軟件(建議直接安裝3.0,不要安裝2.7版本了)
- 安裝Python相關包matplotlib、wordcloud、jieba
- 將excel中title列單獨copy一個文本文件中。
- 碼代碼,python是輕量級的,入門相對容易,下面10行即可搞定
#!/usr/bin/env python
# -*- coding: utf-8 -*-
#coding:utf-8
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
#讀取文件內(nèi)容
f_title = open('/Users/haixiao/Downloads/url_titles.txt').read()
#通過jieba進行分詞
wordlist = jieba.cut(f_title, cut_all = True)
wl_space_split = " ".join(wordlist)
#詞云展示
my_wordcloud = WordCloud().generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
2 借助詞云生成工具,網(wǎng)上直接對文本生成詞云的工具還蠻多的,可以試一下微詞云,我試了一下還蠻好用的。直接將文本粘貼進去切詞并使用即可
圖片
圖片
大家可以嘗試一下分析自己的行為數(shù)據(jù),這些基本的功能在日常的工作中也是經(jīng)常用到的,拿自己的數(shù)據(jù)來練練手更有感覺,可能還有會意外收獲哦。
歡迎大家關注我的微信公眾號: bigdata_follower.