tft每日頭條

 > 教育

 > 大數據統計分析常用方法

大數據統計分析常用方法

教育 更新时间:2024-08-07 21:17:31

統計分析方法

※ 拆指标-1分布分析、2趨勢分析、3因素分析

※ 拆數據-1個案分析、2異常分析、3分組分析

※ 不同分析方法的結合與創新

針對于指标的拆分有三種辦法:分布分析、趨勢分析和因素分析;針對于樣本的拆分也有三種辦法:個案分析、異常分析和分組分析,這六種分析方法即為本章的主要内容。

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)1

分布分析是使用頻度分布表(或直方圖或散點圖),越過概要統計指标,進一步察看數據的詳細情況。如經典的安斯康姆四重奏問題,四組數據(每個樣本有兩個維度特征x與y)在均值、方差、相關系數、線性回歸線四個指标上均取值相同,但如果認為他們是類似的數據就大錯特錯了。

四組數據的情況完全不同,隻有畫出數據分布的散點圖,做分布分析才能正确認知。

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)2

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)3

趨勢分析分為單指标的趨勢分析和多指标的趨勢分析。單指标趨勢分析關注單個指标變化趨勢的4種構成,通過拆解來透徹掌握趨勢中的多種信息。多指标的趨勢分析關注多個指标變化趨勢之間的相互影響,通過“系統基模”分析來掌握問題背後的全局邏輯。

趨勢分析是将一條原始的時序曲線(随時間變化的指标曲線,如企業近36個月的營收變化),拆分成四個組成部分:趨勢、周期、異常與波動。

(1)趨勢:

曲線的大趨勢是上漲、下降還是平穩,通常是最受關注的信息。

(2)周期:

曲線波動是否呈現周期性?以小時、天、周、月、季度還是年度為周期?由于人類的作息規律,很多互聯網産品的流量均以一定的時間周期波動。

(3)異常:

曲線在某些時間點出現的非正常波動,如大幅的突增突降。有時候是自然的原因,有時候是人為的原因,如某個新聞事件爆發導緻微博的流量猛漲,服務器機房的大規模斷電導緻産品流量下滑等等。

(4)波動:

從曲線中去除上述三個方面剩下的自然波動,應該滿足正态分布,可以用标準差衡量波動幅度。

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)4

2. 多指标的趨勢分析

在清晰掌握單指标趨勢的基礎上,進一步期望知道多指标之間的趨勢變化關系,以及背後隐藏的系統性問題,就需要“多指标的趨勢分析”。該分析主要采用系統基模的理論。

系統基模理論是對多個指标之間的變化趨勢,系統化的邏輯分析。它強調在一個整體系統中,多個指标的變化是互相作用和影響的,最終形成一套生态邏輯。在這種場景,不能獨立地看待每個指标的變化,而需要從全局出發,更透徹地理解系統問題并找到更根本的解決方案,改變“頭痛醫頭,腳痛醫腳”的決策模式。

系統基模理論由“3種基本元件”和“9種常見基模”兩部分構成。

(1)基本元件:系統基模由3個基本元件構成,分别是增強環、調節環和時間延遲。

▷ 增強環:多個指标之間互相促進,形成交互式的增長。如打車軟件,使用該軟件的“乘客人數”與“司機人數”之間即為增強環。越多的乘客使得司機變得更容易接到訂單,導緻越多的司機願意使用該軟件。越多的司機使得乘客變得更容易訂到附近的出租車,導緻越多的乘客願意使用該軟件。

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)5

▷ 調節環:多個指标之間互相制約,最後達到某個平衡點。如企業的“體量”與“盈利率”之間即為調節環。當企業的盈利率增長時,企業有意願和能力擴大業務,造成體量的增長。但随着企業體量的增長,會逐漸納入一些盈利率不高的業務,導緻整體的盈利率下降。當盈利率下降到一定程度時,企業沒有能力再擴張業務,最後達到體量和盈利率的平衡點。

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)6

▷ 時間延遲:很多指标之間的相互影響,具有非線性的時延特點。如“優秀的産品體驗”和“用戶數上漲”,兩者間是非線性的時延關系。當一個産品的功能和體驗優化到極緻時,容易以為用戶數會穩步的增長,如下面的藍色曲線所示。但實際上,用戶數的增長在前期會非常緩慢,而到某一個時間點後開始爆發式的增長。這是由于互聯網産品的傳播特性決定的,也是”新産品如何運營“(Growth Hacking)成為業内火熱話題的原因。這個階段産品的KPI很難确定,因為如果未到爆發點,每季度的用戶數增長率可能僅在10%~20%,而一旦達到爆發點,每個季度的用戶數翻幾倍都是常見的。

大數據統計分析常用方法(大數據的道與術-讀書筆記3統計分析方法)7

将上述三個基本元件,應用到衆多業務場景,可形成多種多樣的指标關系圖(基模)。幸運的是,一些常見的基模已經被幾代研究者們總結的比較清晰,可供參考。常見的基模有如下9種:飲鸩止渴、富者愈富、舍本逐末、目标侵蝕、惡性競争、成長上限、共同悲劇、意外之敵、成長與投資不足。

拆指标-3 因素分析

拆指标的最後一個方法:因素分析。将一個綜合性或結果性的指标按照某維度拆解,以便從更細緻的角度觀察數據。雖然該方法在“拆指标”的最後介紹,但它是最重要的一種數據分析方法。有經驗的管理者都清楚,新接手一項業務,首要工作就是建立合理的“指标體系”,才能随時掌控業務進展,分析業務中的主要問題并規劃改進方向。

構建指标體系,常用的拆分方法有兩種:

(1)橫向因素拆分(空間邏輯):

将綜合性指标按照某種維度拆解成共同影響結果的幾個關鍵指标,典型的有針對企業财務的杜邦分析法。分解指标之間是并列的邏輯關系,分别代表不同的構成因素,例如企業的毛利可以拆成銷售收入減銷售成本。

(2)縱向階段拆分(時間順序):

将結果性的指标按照業務實現流程進行拆解,又稱為漏鬥分析法。每個拆分指标之間是串行階段的關系,如消費者的營銷過程可拆分成:知曉、興趣、比較、消費、評價。

這兩種拆分方法的主要區别:一個的拆分維度是共同影響的并列因素,另一個的拆分維度是時序先後的遞進階段。

拆數據-1 個案分析

個案分析用“觀察具體個案”的方法啟發分析思路,輔以統計歸納。

實際上,個案分析過程非常類似機器學習中規則學習的方法:“sparate and conquer”,兩者的學習框架是一緻的,隻不過從樣本集合中提取規則,是靠人工觀察還是機器統計而已。它不僅在數據分析領域很有用,在機器學習領域做“特征挖掘”時也經常用到。比如一個區分商品是正品還是次品的二分類模型,使用哪些特征做區分,剛開始并沒有思路。運用個案分析,先挑一些典型的正品和次品,人工觀察他們的主要區别,總結出一批特征維度。然後,将數據中可以用這些特征分開的商品的樣本過濾掉,在剩餘樣本中再用個案分析進一步挖掘新特征,直到幾乎所有樣本都可以用總結的特征正确區分。

拆數據-2 異常分析

數據異常意味着有超越既有認知的情況出現。這些意外往往是啟發新思路,推進産品改進的源泉,稱為“異常分析”。

拆數據-3 分組分析

分組分析是将總樣本集合按照某些維度拆分成幾組,獨立分析每組樣本,并采取不同的産品策略。秉承“思考為什麼”的學習模式,先回答“為何需要分組?”,再探讨“如何進行分組?”

為何需要分組?隻有把樣本按合适的維度拆分成更細緻的分組,才能透徹理解數據的内涵。

下一個問題,如何進行分組?選哪些維度切分樣本最合适?首先明确分組分析的目标:“分組内部的用戶需求差異盡量小,分組之間的用戶需求差異盡量大”,這也是選取切分特征的主要依據。

三個切分維度均基于一個目标:把不同需求的客戶盡量分開,使得組内相近、組間相異。在實際項目中,可以根據業務理解來選擇維度,也可以使用一些技術方法,如計算每個特征所帶來的“信息增益”。

信息熵的計算公式如下:

H=-∑P(xi)log(2,P(xi)),i=1,2,…n其中,事件共有n種可能結果,P(xi)是結果xi發生的概率。

信息熵有如下特性:當每種可能的概率均等時,其值達到最大。如二元的信息墒計算結果如下圖所示,當兩種可能的概率p=0.5時,信息墒的結果是最大的;而當結果基本确定為某一種可能時,信息墒接近于0。

使用“信息增益”計算特征切分效率的過程如下。

步驟1:按照業務需要定義用戶分類(如分成5類)。

步驟2:标記所有用戶樣本到所屬分類(最貼近的類别即可)。

步驟3:以所有可能的特征為候選集,逐一使用每個特征切分樣本,計算切分後的“信息增益”。“信息增益”代表使用該特征切分後,各分類純度提升的程度。

步驟4:信息增益最大的特征即為當前最優的切分維度。

反複步驟3和步驟4,可以篩選出合适的特征列表。

除了用信息熵(information entropy)衡量純度之外,少數類(minority class)和Gini系數(Gini index)也是常用的衡量方案。熟悉機器學習的朋友會發現,數據分析的很多技巧與數據建模是相通的。

最後,用一句話總結分組分析:尋找能将樣本切分成組内相近、組間相異的分組維度,用這些維度拆分數據。獨立分析每組數據的個性化特征,确定差異化的産品定位和商業策略。

不同分析方法的結合與創新

統計分析是通過某些維度去觀察數據指标,思考原因并改進業務的過程。本章談到的3種拆樣本的方法(決定維度)和3種拆指标的方法(決定指标),是最基本的分析方法。在項目實踐中,往往會結合多種分析方法,創造出最适用于業務場景的分析方法。下面以一個近兩年在國外很火的數據分析方法Cohort Analysis,與大家說明下這種思考創新的過程。

Cohort Analysis是将“分組分析”和“趨勢分析”相結合的方法,從一個時間跨度(生命周期)來觀察不同用戶分組的行為變化趨勢。

Cohort Analysis分析方法

Cohort Analysis(有翻譯成“斷代分析”)是一種分析方法的框架,将用戶依據某些特征進行分組,研究不同分組的用戶在不同生命周期的表現情況。

實施這種方法,有以下三個核心步驟。

(1)如何定義分組(Create Cohort Identifiers)?維度1-決定用戶分組的某種特征組合,通常用不同的趨勢線标注。

(2)如何定義生命周期(Calculate Lifecycle Stages)?維度2-某種衡量用戶生命周期的方法,通常轉換為坐标系的橫軸。

(3)如何定義觀測量(Define Measurement)?觀察指标,通常轉換為坐标系的縱軸。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关教育资讯推荐

热门教育资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved