編輯導語:LTV,即用戶生命周期總價值,是運營人員在業務過程中常接觸的指标,通過對LTV的預估,運營人員可以為後續決策做好準備。本篇文章裡,作者便針對LTV預估、留存函數拟合等問題進行了解讀,一起來看一下。
一、從LTV預估開始說起
LTV的預估,是許多業務UE模型和增長模型的起點:
其中,用戶生命周期又可以用累加的留存率來計算:
不過,這裡面使用的留存率卻未必是實際發生的曆史數據。
因為我們做決策時往往等不了那麼長的時間,所以我們一般使用的是根據前面一小段時間的數據拟合出來的留存函數R(t)。
那留存函數應該怎樣拟合呢?
二、留存函數拟合許多文章或資料會推薦這麼一個方法:
- 把過去的次日、3日、7日、14日、30日等留存率記錄在Excel中,畫出來一個散點圖;
- 然後點擊圖上的數據點,右鍵選擇“添加趨勢線”,這時右方就會出現可以拟合的曲線類型(指數、線性、對數、多項式、乘幂、移動平均);
- 打開顯示公式和R平方項,在這些曲線類型和公式中,選擇R方最接近1的那個(一般是指數或乘幂),即為最終拟合得到的留存函數R(t)。
番茄小說2021.05新用戶留存率,QuestMobile
選擇R方最接近1,意味着找到了拟合程度最高的函數作為留存函數R(t),接下來就可以回到LTV預估的主線去了。
不過這裡有個小問題,卻似乎鮮有人讨論過:為什麼是指數或乘幂這兩個函數?如果拟合的結果是這兩個函數中的一個,意味着什麼?它倆最核心的差異和聯系在哪?
三、兩個函數的差異這兩個函數有什麼差異呢?如果光從函數本身看,指數函數和幂函數的核心差異在于衰減的速度。指數函數的表達式為:
幂函數的表達式為:
根據表達式我們可以推導出,如果以3天為一個周期,對于指數函數來說,留存率每三天會以同樣的速度衰減:
而對于幂函數來說,留存率衰減的速度會逐漸放緩,下一個同比例衰減周期會拉長到6天,即上一個周期的兩倍:
我們總是希望留存率的衰減能夠慢一些,所以相比之下,拟合成幂函數是更希望看到的結果。
四、艾賓浩斯遺忘曲線那這兩個函數有什麼聯系呢?1885年,德國心理學家艾賓浩斯(H.Ebbinghaus)首次對人類的記憶進行了定量研究,他用無意義的音節作為記憶的材料,通過記錄一段時間後被試人員對這些音節材料的記憶留存率,繪制出了這樣一個曲線:
這個曲線也被稱為艾賓浩斯遺忘曲線(或記憶曲線),可以看到通過對這個曲線進行拟合,得到的拟合度最高的是一個幂函數。
不過後續人們的研究表明,單一的遺忘曲線實際上應該是更接近指數函數的,結合前面提到的指數函數的性質,說明人類會以一個固定的周期等概率地遺忘大腦中的信息,是一個很符合大自然規律的現象。
而艾賓浩斯之所以拟合得到了幂函數,是由于最初的記憶實驗,混雜了不同難度的記憶材料,這種混雜改變了遺忘曲線的指數性質。
下面的這個例子,可以解釋這一現象:
圖中黃色和紫色曲線,分别代表兩種難度記憶材料的遺忘曲線,它們都是指數函數y=e^(-kt),其中k的大小不同,代表難度不同;
而黑色的散點,則為兩個函數的平均值(或可泛化為線性組合),通過對這些散點進行拟合,會發現一個有趣的事實:
某些情況下,對兩個指數函數線性組合後的曲線,拟合度更高的(即R方更大的),卻不再是指數函數了,而是幂函數!
這個有意思的現象,各位有興趣的話,可以自行驗證一下。
五、遺忘曲線與留存曲線關于遺忘曲線的結論,對我們理解留存曲線有什麼幫助嗎?
事實上我們早就發現,這兩個曲線驚人地一緻。
如果把拉新激活的動作視為最初始的記憶訓練,那麼在後續的時間裡,如果沒有再次激活,用戶就會以一定的概率,自然而然地遺忘我們的App,表現就和遺忘曲線是一樣的。
為了讓用戶回到我們的App,提升用戶留存率,我們通過各種push召回它們,這也和關于記憶的研究中,定期複習的方法如出一轍。
同時,和混雜材料帶來的遺忘曲線類似,絕大多數功能豐富的成熟應用,留存曲線都應該是衰減程度更慢的幂函數。
事實上也确實如此,包括前面提到的番茄小說例子在内,我從QuestMobile驗證了其他一些常見App,以及手頭有的一些内部數據,它們的留存曲線的确都是拟合成了幂函數:
番茄小說、知乎與陌陌2021.05新用戶留存數據,QuestMobile
六、對數函數與其他LTV預估方法最後再補充兩個點。
在前面的趨勢線拟合中,有一個對數函數可能會是迷惑選項。
對數函數的表達式是:
随着t的增長,對數函數計算得到的結果很可能會小于0,而不是像指數函數和幂函數一樣始終保持大于0的結果。
小于0的留存率是沒有意義的,因此如果最優拟合的結果是對數函數,更可能的情況是巧合或者樣本量太小,對數函數在這個場景下本身沒有合理的物理意義。
不妨在指數函數或者幂函數中選擇一個,他們的拟合度離最優拟合應該差不了多少。
而對于最開始提到的LTV預估公式:
需要說明的是,這裡面隐藏了一個假設:ARPU值恒定不變,是個常數。
但在現實情況下,這樣的假設往往會帶來一些誤差,因為随着留存時間增加,這部分用戶的ARPU總是會随之有所變化。
一種調整的方法是對ARPU同樣進行預估,将公式改造為:
不過ARPU的變化規律可能很難找,或者壓根就沒有像留存曲線這樣簡單清晰的規律。
因此另一種調整方法是不做拆分,用更多樣本數據和特征數據,整體地對用戶貢獻價值進行函數拟合預估:
這樣的方法需要足夠多的樣本,本身也更适合需要精細化的運營場景,這裡就不再展開了。
參考資料:
[1] https://supermemo.guru/wiki/Exponential_nature_of_forgetting
[2] https://supermemo.guru/wiki/Forgetting_curve
作者:青十五;公衆号:青十五,新書《策略産品經理:模型與方法論》作者
本文由 @青十五 原創發布于人人都是産品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基于CC0協議。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!