業(yè)務題(三)

1.比較兩個樣本的差異(比如中國和日本的學歷差異)
2.假設現(xiàn)在快手游戲直播業(yè)務的DAU為5000w,其中“觀看時長為20min以上”的用戶有2000w,現(xiàn)在想要提升“觀看時長為20min以上”的用戶占比,應該怎樣做?請你給產(chǎn)品和業(yè)務提出建議?
3.留存率:特指新增用戶的留存率。業(yè)內(nèi)廣泛然日次日、七日、30日留存率依次為40–20–10衡量一個產(chǎn)品健康成長的重要標志。
  • 存率計算案例 1月1日,新增用戶200人; 次日留存:第2天,1月2日,這200人里面有100人活躍,則次日留存率為: 100/ 200 = 50% 2日留存:第3天,1月3日;這200名新增用戶里面有80人活躍, 第3日新增留存率為:80/200 = 40%; 7日留存:第8天,1月8日,這200名新增用戶里面有25人活躍, 第7日新增留存率為:25/200 = 12.5%;

  • user_id‘用戶編號’,log_time‘登陸時間’,計算次日留存率,七日留存率,30日留存率;

select a.first_log,count(distinct b.user_id)/count(distinct a.user_id) as "次日留存率",count(distinct b.user_id)/count(distinct a.user_id) as "七日留存率",count(distinct b.user_id)/count(distinct a.user_id) as "30日留存率"
    from (select user_id,log_time,min(log_time) over (partition by user_id order by log_time) as first_log  from user_log) a 
    left join user_log b on a.user_id=b.user_id and datediff(b.log_time,a.first_log)=1
    left join user_log c on a.user_id=c.user_id and datediff(c.log_time,a.first_log)=6
    left join user_log d on a.user_id=d.user_id and datediff(d.log_time,a.first_log)=29
    group by a.first_log
分析
*   使用開窗函數(shù)比較簡單
*   一定要使用`left join`,而不是`where`,因為只有這樣才能把第二題沒有留下的用戶保留,計算留存率時保證分母。
4.8月份某一天,觀眾側的直播總觀看時長降低,作為快手數(shù)據(jù)分析師,你打算怎么分析?
5.ETL流程
  • Extraction-Transformation-Loading的縮寫,中文名稱為數(shù)據(jù)抽取、轉換和加載

    1.數(shù)據(jù)抽取。2.數(shù)據(jù)轉換清洗。3.數(shù)據(jù)加載。4.ETL相關工具

6.手寫文本的熵的代碼(python)
7.小紅書的用戶畫像,如何構建用戶畫像?

https://blog.csdn.net/zw0Pi8G5C1x/article/details/83964888

  • 定義:用戶畫像是根據(jù)用戶社會屬性、生活習慣和消費行為等信息抽象出的一個標簽化的用戶模型。構建用戶畫像的核心工作即是給用戶貼“標簽”,而標簽是通過對用戶信息分析得來的高度精煉的特征標識。

  • 方法:

    • 收集數(shù)據(jù):用戶注冊登錄信息,用戶行為軌跡

    • 建立標簽計算權值:用戶畫像的目標是通過分析用戶行為,最終為每個用戶打上標簽,以及該標簽的權重。如,紅酒 0.8、李寧 0.6。

      這樣做有兩個問題:一個是用戶的興趣累加是線性的,數(shù)值會非常大,老的興趣權重會特別高;另一個是用戶的興趣有很強的時效性,昨天的點擊要比一個月之前的點擊重要的多,線性疊加無法突出近期興趣。

      [圖片上傳失敗...(image-26384b-1568215233642)]

      image

      底層標簽一個是每個標簽只能表示一種含義,避免標簽之間的重復和沖突,便于計算機處理;另一個是標簽必須有一定的語義,方便相關人員理解每個標簽的含義.

      [圖片上傳失敗...(image-cf5ae5-1568215233642)]

      模型標簽是標簽體系的核心,也是用戶畫像工作量最大的部分,大多數(shù)用戶標簽的核心都是模型標簽。模型標簽的構造大多需要用到機器學習和自然語言處理技術;

      最后構造的是高級標簽,高級標簽是基于事實標簽和模型標簽進行統(tǒng)計建模得出的,它的構造多與實際的業(yè)務指標緊密聯(lián)系。只有完成基礎標簽的構建,才能夠構造高級標簽。構建高級標簽使用的模型,可以是簡單的數(shù)據(jù)統(tǒng)計,也可以是復雜的機器學習模型。

      • 人口屬性、商業(yè)屬性:很多產(chǎn)品(如QQ、facebook等)都會引導用戶填寫基本信息,這些信息就包括年齡、性別、收入等大多數(shù)的人口屬性,但完整填寫個人信息的用戶只占很少一部分。而對于無社交屬性的產(chǎn)品(如輸入法、團購APP、視頻網(wǎng)站等)用戶信息的填充率非常低,有的甚至不足5%。在這種情況下,我們一般會用填寫了信息的這部分用戶作為樣本,把用戶的行為數(shù)據(jù)作為特征訓練模型,對無標簽的用戶進行人口屬性的預測。這種模型把用戶的標簽傳給和他行為相似的用戶,可以認為是對人群進行了標簽擴散,因此常被稱為標簽擴散模型。其中使用的技術方法主要是機器學習中的分類技術,常用的模型有LR、FM、SVM、GBDT等。

      • 興趣畫像是互聯(lián)網(wǎng)領域使用最廣泛的畫像,互聯(lián)網(wǎng)廣告、個性化推薦、精準營銷等各個領域最核心的標簽都是興趣標簽。興趣畫像主要是從用戶海量行為日志中進行核心信息的抽取、標簽化和統(tǒng)計,因此在構建用戶興趣畫像之前需要先對用戶有行為的內(nèi)容進行內(nèi)容建模。內(nèi)容建模需要注意粒度,過細的粒度會導致標簽沒有泛化能力和使用價值,過粗的粒度會導致沒有區(qū)分度。比如新聞的興趣畫像可以是分類-主題-關鍵詞,依次增加。小紅書可以考慮為,分類-主題-關鍵詞,比如分類為“護膚、醫(yī)美、美發(fā)、推書、服裝、旅游等”,主題比如說“雙眼皮、抽脂、小氣泡”,關鍵詞“南京、女、醫(yī)院、小氣泡、500塊等”

    • 用戶畫像評估和使用

      人口屬性畫像的相關指標比較容易評估,而興趣畫像的標簽比較模糊,興趣畫像的人為評估比較困難,我們對于興趣畫像的常用評估方法是設計小流量的A/B-test進行驗證。

      我們可以篩選一部分標簽用戶,給這部分用戶進行和標簽相關的推送,看標簽用戶對相關內(nèi)容是否有更好的反饋。

      用戶畫像的評估指標主要是指準確率、覆蓋率、時效性等指標。

      • 標簽的準確率指的是被打上正確標簽的用戶比例,準確率是用戶畫像最核心的指標,一個準確率非常低的標簽是沒有應用價值的。準確率的計算公式如下:

        [圖片上傳失敗...(image-64b315-1568215233642)] 其中| Utag |表示被打上標簽的用戶數(shù),| Utag=true |表示有標簽用戶中被打對標簽的用戶數(shù)。準確率的評估一般有兩種方法:一種是在標注數(shù)據(jù)集里留一部分測試數(shù)據(jù)用于計算模型的準確率;另一種是在全量用戶中抽一批用戶,進行人工標注,評估準確率。由于初始的標注數(shù)據(jù)集的分布和全量用戶分布相比可能有一定偏差,故后一種方法的數(shù)據(jù)更可信。準確率一般是對每個標簽分別評估,多個標簽放在一起評估準確率是沒有意義的。

      • 標簽的覆蓋率指的是被打上標簽的用戶占全量用戶的比例,我們希望標簽的覆蓋率盡可能的高。但覆蓋率和準確率是一對矛盾的指標,需要對二者進行權衡,一般的做法是在準確率符合一定標準的情況下,盡可能的提升覆蓋率。我們希望覆蓋盡可能多的用戶,同時給每個用戶打上盡可能多的標簽,因此標簽整體的覆蓋率一般拆解為兩個指標來評估。一個是標簽覆蓋的用戶比例,另一個是覆蓋用戶的人均標簽數(shù),前一個指標是覆蓋的廣度,后一個指標表示覆蓋的密度。用戶覆蓋比例的計算方法是:其中| U |表示用戶的總數(shù),| Utag |表示被打上標簽的用戶數(shù)。人均標簽數(shù)的計算方法是:其中| tagi |表示每個用戶的標簽數(shù),| Utag |表示被打上標簽的用戶數(shù)。覆蓋率既可以對單一標簽計算,也可以對某一類標簽計算,還可以對全量標簽計算,這些都是有統(tǒng)計意義的。

      • 有些標簽的時效性很強,如興趣標簽、出現(xiàn)軌跡標簽等,一周之前的就沒有意義了;有些標簽基本沒有時效性,如性別、年齡等,可以有一年到幾年的有效期。對于不同的標簽,需要建立合理的更新機制,以保證標簽時間上的有效性。

    • 可視化

  • 可用的算法:

  • 應用:智能營銷、計算廣告、個性化推薦

8.618后拼多多成交量下降,分析原因并說明需要用哪些數(shù)據(jù)作支撐 ?
  • 顧客前期消費過多,短期消費能力下降:618消費超1000元又消費的比率,618消費不足100元又消費的比率

  • 受前提優(yōu)惠活動的影響,顧客覺得不再優(yōu)惠:618購物后又購物的比率,商品現(xiàn)價和618的比率

9.估計上海上空下午1-3點飛過的飛機數(shù)量
  • 起飛、降落、其他國家通過

  • 國際航班和國內(nèi)航班:

    國際航班:全世界200多個國家和地區(qū)假設30%的直航

    國內(nèi)航班:全國有多少個機場,假設有80%可達

    假設1-3點起飛量和降落量占10%

10.某一渠道入口流量下降該如何分析 ,如何判定渠道流量是否優(yōu)秀流量 ,渠道指標你覺得最重要的三個指標是什么?
  • 渠道入口一般分為三大類:搜索渠道,引薦渠道,直接渠道,下面是各渠道的影響因素:品牌廣告、熱點事件、內(nèi)部訪問、營銷活動、線下推廣、短信宣傳、app推廣

  • 渠道流量的影響因素:統(tǒng)計代碼故障、節(jié)假日正常波動、營銷活動影響、搜索引擎降權、外部推廣影響、服務器異常;

  • 三大指標:數(shù)量、質量、收入

12.如果你是天貓數(shù)據(jù)分析師,你在月末報告中你會關注哪些指標?

  • 成交額、成交用戶數(shù)、平均客單,訂單數(shù),累計用戶數(shù)

  • pv,uv,新增用戶

  • 累計用戶數(shù),累計銷售額,環(huán)比。

14.抖音新加的購物車功能對我們有什么影響?

15.購物車落地頁是視頻主自己的商城頁,抖音不會分取收益,那么我們?nèi)绾潍@得收益?

16.商業(yè)化廣告帶來的影響?既然你說購物功能會有正面轉化,商業(yè)廣告會有負面轉化,那購物功能作為廣告形式會對我們流量整體帶來怎樣的結果?

17.可視化和數(shù)據(jù)報告

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務。

相關閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容