用戶七日留存率分析

背景

APP分析中經(jīng)常用到AARRR模型(海盜模型)用來分析APP的現(xiàn)狀,其中一個(gè)重要節(jié)點(diǎn)就是提高留存(Acquisition),而留存率這個(gè)指標(biāo)在這個(gè)階段可以說是核心指標(biāo)也不為過。那如何用SQL計(jì)算留存率呢?

留存率計(jì)算方法

假如今天新增了100名用戶,第二天登陸了50名,則次日留存率為50/100=50%,第三天登錄了30名,則第二日留存率為30/100=30%,以此類推。

用SQL的計(jì)算思路

  • 用SQL調(diào)取出user_id和用戶login_time的表,獲得新增用戶登錄時(shí)間表。
    根據(jù)user_id和login_time,增加一列first_day,此列存著每個(gè)用戶最早登錄時(shí)間。
    有了最早登錄時(shí)間和所有的登錄時(shí)間,再增加一列by_day,這一列是用login_time - first_day ,得到0,1,2,3,4,5......,這就得到了某一天登錄離第一次登錄有多長(zhǎng)時(shí)間。


  • 然后從表中提取數(shù)據(jù),找到first_day對(duì)應(yīng)的with_first列中0有多少個(gè),1有多少個(gè),一直到7以上。



    根據(jù)此表,就很容易計(jì)算出每天引流的留存率。

實(shí)際操作

數(shù)據(jù):是我用excel隨便模擬的數(shù)據(jù),與真實(shí)情況不符。



數(shù)據(jù)庫:MySQL

步驟一:從數(shù)據(jù)庫中提取出user_id和login_time并排序

select 
    user_id,
    str_to_date(login_time,'%Y/%m/%d') login_time
from user_info
group by 1,2;

步驟二:增加一列first_day,存儲(chǔ)每個(gè)用戶ID最早登錄時(shí)間

SELECT
    b.user_id,
    b.login_time,
    c.first_day
FROM 
    (select 
        user_id,
        str_to_date(login_time,'%Y/%m/%d') login_time
    from user_info
    group by 1,2) b
LEFT JOIN
    (SELECT       ---找到user_id對(duì)應(yīng)的最早登錄時(shí)間,然后匹配帶登錄時(shí)間的user_id
        user_id,
        min(login_time) first_day
    FROM 
       (select 
            user_id,
            str_to_date(login_time,'%Y/%m/%d') login_time
        from user_info
        group by 1,2) a
    group by 1) c
on b.user_id = c.user_id
order by 1,2;

步驟三:用登錄時(shí)間-最早登錄時(shí)間得到一列by_day

SELECT 
    user_id,
    login_time,
    first_day,
    DATEDIFF(login_time,first_day) as by_day
FROM
  (SELECT
      b.user_id,
      b.login_time,
      c.first_day
  FROM 
      (SELECT
          user_id,
          str_to_date(login_time,'%Y/%m/%d') login_time
       FROM user_info
       GROUP BY 1,2) b
  LEFT JOIN
    (SELECT
        user_id,
        min(login_time) first_day
     FROM
         (select 
              user_id,
              str_to_date(login_time,'%Y/%m/%d') login_time
          from user_info
          group by 1,2) a
     group by 1) c
   on b.user_id = c.user_id
   order by 1,2) e
order by 1,2

最后一步:提取字段作為列名

SELECT
    first_day,
    sum(case when by_day = 0 then 1 else 0 end) day_0,
    sum(case when by_day = 1 then 1 else 0 end) day_1,
    sum(case when by_day = 2 then 1 else 0 end) day_2,
    sum(case when by_day = 3 then 1 else 0 end) day_3,
    sum(case when by_day = 4 then 1 else 0 end) day_4,
    sum(case when by_day = 5 then 1 else 0 end) day_5,
    sum(case when by_day = 6 then 1 else 0 end) day_6,
    sum(case when by_day >= 7 then 1 else 0 end) day_7plus
FROM
   (SELECT 
      user_id,
      login_time,
      first_day,
      DATEDIFF(login_time,first_day) as by_day
   FROM
     (SELECT
        b.user_id,
        b.login_time,
        c.first_day
      FROM 
        (SELECT
            user_id,
            str_to_date(login_time,'%Y/%m/%d') login_time
         FROM user_info
         GROUP BY 1,2) b
    LEFT JOIN
      (SELECT
          user_id,
          min(login_time) first_day
       FROM
           (select 
                user_id,
                str_to_date(login_time,'%Y/%m/%d') login_time
            FROM 
                user_info
            group by 1,2) a
       group by 1) c
     on b.user_id = c.user_id
     order by 1,2) e
  order by 1,2) f
group by 1
order by 1

結(jié)語

根據(jù)最后得到的數(shù)據(jù),我們直接用除法或者加一個(gè)SQL語句,就能算出來留存率,之后的分析就是看自己了。

參考博客

https://blog.treasuredata.com/blog/2016/07/22/rolling-retention-done-right-in-sql/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

  • 背景 APP分析中經(jīng)常用到AARRR模型(海島模型)用來分析APP的現(xiàn)狀,其中一個(gè)重要節(jié)點(diǎn)就是提高留存(Acqui...
    amyhy閱讀 1,061評(píng)論 0 2
  • 背景 APP分析中經(jīng)常用到AARRR模型(海盜模型)用來分析APP的現(xiàn)狀,其中一個(gè)重要節(jié)點(diǎn)就是提高留存(Acqui...
    成鵬9閱讀 41,364評(píng)論 17 41
  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,929評(píng)論 0 13
  • 一、Python簡(jiǎn)介和環(huán)境搭建以及pip的安裝 4課時(shí)實(shí)驗(yàn)課主要內(nèi)容 【Python簡(jiǎn)介】: Python 是一個(gè)...
    _小老虎_閱讀 6,350評(píng)論 0 10
  • ORA-00001: 違反唯一約束條件 (.) 錯(cuò)誤說明:當(dāng)在唯一索引所對(duì)應(yīng)的列上鍵入重復(fù)值時(shí),會(huì)觸發(fā)此異常。 O...
    我想起個(gè)好名字閱讀 6,006評(píng)論 0 9

友情鏈接更多精彩內(nèi)容