淺析百度指數(shù)數(shù)據(jù)

姓名:周君會? ? ? ? 學號:17011210526

轉載自:

https://www.zhihu.com/question/19856327/answer/14263215

【嵌牛導讀】:如今,互聯(lián)網(wǎng)如火如荼地大力發(fā)展,許多東西都可通過百度一下得到。

【嵌牛鼻子】:我們的生活已經(jīng)離不開百度,各種各樣的答案都可通過百度得到,單就百度指數(shù)這一方面,我們可以簡單的獲取個人信息里的姓名年齡學歷性別等信息。

【嵌牛提問】:但是,百度里的個人信息如姓名年齡學歷性別這些都是如何獲取的呢?

【嵌牛正文】:

我雖然收到邀請但開始還不自信回答這個問題,準備沉默,

但看到有錯誤答案和贊同錯誤答案的行為,我覺得還把我了解的一點淺顯的信息和理解分享出來,拋磚引玉。

百度指數(shù)和alexa得到的關于用戶群的年齡、性別、學歷、職業(yè)等這些數(shù)據(jù),其實都是數(shù)據(jù)分析和數(shù)據(jù)挖掘出來的結果,這個是非常復雜的統(tǒng)計學和數(shù)據(jù)分析算法得到的相對性的結論(事實上準確性并不高,但可以看到一個群體屬性的趨勢)。

那么我們會想那么他們所需的元數(shù)據(jù)從哪來呢?

其實也很簡單,百度、谷歌都從各種渠道(主要是cookies數(shù)據(jù)跟蹤,ip記錄,以及搜索記錄和工具條收集、包括一些其他關聯(lián)產(chǎn)品搜藏、gmail、網(wǎng)站統(tǒng)計、瀏覽器、輸入法等)收集用戶數(shù)據(jù)和用戶操作行為,alexa就簡單的多,就是工具條。

那么所需的元數(shù)據(jù)包含哪些呢?

比如百度、谷歌:

用戶搜索了哪些關鍵字、所在地區(qū)的IP、上了哪些網(wǎng)站、停留時間、退出率、甚至各種轉化行為監(jiān)控。

比如alexa就簡單的多了,所以它得到的數(shù)據(jù)也簡單的多,它主要監(jiān)控用戶上了哪些網(wǎng)站,所在地區(qū)IP就差不多了。

那怎么分析呢?

比如你經(jīng)常上哪類網(wǎng)站,這個用戶群比如經(jīng)常搜索QQ表情、非主流、最炫民族風mp3、貓和老鼠動畫片、蠟筆小新、高考等一個龐大的關鍵詞、上QQ空間、人人網(wǎng)、上百度貼吧等基本可以對應怎樣的用戶模型,包括年齡、學歷、職業(yè)等。

比如你經(jīng)常搜索股票、汽車、單反、VC、時代周刊、財經(jīng)、上BBC、上紐約時報網(wǎng)站等又可以對應怎樣的用戶模型。

比如你經(jīng)常搜索敏捷開發(fā)、ruby、html5、app開發(fā)、photoshop、產(chǎn)品設計、SEO、ppc、上知乎、上csdn等又對應怎樣的用戶模型。

這樣基本可以通過統(tǒng)計學分析,得出某人的相關屬性,然后根據(jù)大量的用戶集群,得出該用戶集群的屬性。

這個可以先建立模型然后把相關行為和模型對應,然后進行規(guī)?;y(tǒng)計歸納。

而我們做產(chǎn)品需求分析的時候也會根據(jù)搜集的信息來歸納我們的潛在用戶群的屬性,并針對性進行產(chǎn)品開發(fā)和理解,而它們更類似翻過來操作。

比如一個簡單的用戶模型:

<img src="https://pic4.zhimg.com/50/9a3767be102d6d35e21d4c3d9a8f62a7_hd.jpg" data-rawwidth="575" data-rawheight="402" class="origin_image zh-lightbox-thumb" width="575" data-original="https://pic4.zhimg.com/9a3767be102d6d35e21d4c3d9a8f62a7_r.jpg">

用戶行為肯定具備很多廣泛性,但肯定會有更集中的行為,就大致得出該用戶基本屬性。

事實上我們看到的這些都是最基礎的也相對模糊的屬性,真正商業(yè)應用比這復雜的多,也精確的多,包括Gmail會對你的郵件內(nèi)容進行郵件正文分析,然后知道你關心哪類人、哪類話題等等,這樣就可以對你精準的推送你最感興趣話題的商業(yè)廣告和合作內(nèi)容的推送。

以上希望對你有所幫助。

關于數(shù)據(jù)分析,我是非常業(yè)余,所以樓主邀請我,我沒打算回答,但看到有很多錯誤和理解偏差,所以說說,至少不會被帶入誤區(qū)。:)

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容