大數據統計分析常用方法-tft每日頭條

大數據統計分析常用方法

教育更新时间:2026-07-21 14:08:18

統計分析方法

※ 拆指标-1分布分析、2趨勢分析、3因素分析

※ 拆數據-1個案分析、2異常分析、3分組分析

※ 不同分析方法的結合與創新

針對于指标的拆分有三種辦法：分布分析、趨勢分析和因素分析；針對于樣本的拆分也有三種辦法：個案分析、異常分析和分組分析，這六種分析方法即為本章的主要内容。

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）1

分布分析是使用頻度分布表（或直方圖或散點圖），越過概要統計指标，進一步察看數據的詳細情況。如經典的安斯康姆四重奏問題，四組數據（每個樣本有兩個維度特征x與y）在均值、方差、相關系數、線性回歸線四個指标上均取值相同，但如果認為他們是類似的數據就大錯特錯了。

四組數據的情況完全不同，隻有畫出數據分布的散點圖，做分布分析才能正确認知。

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）2

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）3

趨勢分析分為單指标的趨勢分析和多指标的趨勢分析。單指标趨勢分析關注單個指标變化趨勢的4種構成，通過拆解來透徹掌握趨勢中的多種信息。多指标的趨勢分析關注多個指标變化趨勢之間的相互影響，通過“系統基模”分析來掌握問題背後的全局邏輯。

趨勢分析是将一條原始的時序曲線（随時間變化的指标曲線，如企業近36個月的營收變化），拆分成四個組成部分：趨勢、周期、異常與波動。

（1）趨勢：

曲線的大趨勢是上漲、下降還是平穩，通常是最受關注的信息。

（2）周期：

曲線波動是否呈現周期性？以小時、天、周、月、季度還是年度為周期？由于人類的作息規律，很多互聯網産品的流量均以一定的時間周期波動。

（3）異常：

曲線在某些時間點出現的非正常波動，如大幅的突增突降。有時候是自然的原因，有時候是人為的原因，如某個新聞事件爆發導緻微博的流量猛漲，服務器機房的大規模斷電導緻産品流量下滑等等。

（4）波動：

從曲線中去除上述三個方面剩下的自然波動，應該滿足正态分布，可以用标準差衡量波動幅度。

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）4

2. 多指标的趨勢分析

在清晰掌握單指标趨勢的基礎上，進一步期望知道多指标之間的趨勢變化關系，以及背後隐藏的系統性問題，就需要“多指标的趨勢分析”。該分析主要采用系統基模的理論。

系統基模理論是對多個指标之間的變化趨勢，系統化的邏輯分析。它強調在一個整體系統中，多個指标的變化是互相作用和影響的，最終形成一套生态邏輯。在這種場景，不能獨立地看待每個指标的變化，而需要從全局出發，更透徹地理解系統問題并找到更根本的解決方案，改變“頭痛醫頭，腳痛醫腳”的決策模式。

系統基模理論由“3種基本元件”和“9種常見基模”兩部分構成。

（1）基本元件：系統基模由3個基本元件構成，分别是增強環、調節環和時間延遲。

▷ 增強環：多個指标之間互相促進，形成交互式的增長。如打車軟件，使用該軟件的“乘客人數”與“司機人數”之間即為增強環。越多的乘客使得司機變得更容易接到訂單，導緻越多的司機願意使用該軟件。越多的司機使得乘客變得更容易訂到附近的出租車，導緻越多的乘客願意使用該軟件。

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）5

▷ 調節環：多個指标之間互相制約，最後達到某個平衡點。如企業的“體量”與“盈利率”之間即為調節環。當企業的盈利率增長時，企業有意願和能力擴大業務，造成體量的增長。但随着企業體量的增長，會逐漸納入一些盈利率不高的業務，導緻整體的盈利率下降。當盈利率下降到一定程度時，企業沒有能力再擴張業務，最後達到體量和盈利率的平衡點。

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）6

▷ 時間延遲：很多指标之間的相互影響，具有非線性的時延特點。如“優秀的産品體驗”和“用戶數上漲”，兩者間是非線性的時延關系。當一個産品的功能和體驗優化到極緻時，容易以為用戶數會穩步的增長，如下面的藍色曲線所示。但實際上，用戶數的增長在前期會非常緩慢，而到某一個時間點後開始爆發式的增長。這是由于互聯網産品的傳播特性決定的，也是”新産品如何運營“（Growth Hacking）成為業内火熱話題的原因。這個階段産品的KPI很難确定，因為如果未到爆發點，每季度的用戶數增長率可能僅在10%～20%，而一旦達到爆發點，每個季度的用戶數翻幾倍都是常見的。

大數據統計分析常用方法（大數據的道與術-讀書筆記3統計分析方法）7

将上述三個基本元件，應用到衆多業務場景，可形成多種多樣的指标關系圖（基模）。幸運的是，一些常見的基模已經被幾代研究者們總結的比較清晰，可供參考。常見的基模有如下9種：飲鸩止渴、富者愈富、舍本逐末、目标侵蝕、惡性競争、成長上限、共同悲劇、意外之敵、成長與投資不足。

拆指标-3　因素分析

拆指标的最後一個方法：因素分析。将一個綜合性或結果性的指标按照某維度拆解，以便從更細緻的角度觀察數據。雖然該方法在“拆指标”的最後介紹，但它是最重要的一種數據分析方法。有經驗的管理者都清楚，新接手一項業務，首要工作就是建立合理的“指标體系”，才能随時掌控業務進展，分析業務中的主要問題并規劃改進方向。

構建指标體系，常用的拆分方法有兩種：

（1）橫向因素拆分（空間邏輯）：

将綜合性指标按照某種維度拆解成共同影響結果的幾個關鍵指标，典型的有針對企業财務的杜邦分析法。分解指标之間是并列的邏輯關系，分别代表不同的構成因素，例如企業的毛利可以拆成銷售收入減銷售成本。

（2）縱向階段拆分（時間順序）：

将結果性的指标按照業務實現流程進行拆解，又稱為漏鬥分析法。每個拆分指标之間是串行階段的關系，如消費者的營銷過程可拆分成：知曉、興趣、比較、消費、評價。

這兩種拆分方法的主要區别：一個的拆分維度是共同影響的并列因素，另一個的拆分維度是時序先後的遞進階段。

拆數據-1　個案分析

個案分析用“觀察具體個案”的方法啟發分析思路，輔以統計歸納。

實際上，個案分析過程非常類似機器學習中規則學習的方法：“sparate and conquer”，兩者的學習框架是一緻的，隻不過從樣本集合中提取規則，是靠人工觀察還是機器統計而已。它不僅在數據分析領域很有用，在機器學習領域做“特征挖掘”時也經常用到。比如一個區分商品是正品還是次品的二分類模型，使用哪些特征做區分，剛開始并沒有思路。運用個案分析，先挑一些典型的正品和次品，人工觀察他們的主要區别，總結出一批特征維度。然後，将數據中可以用這些特征分開的商品的樣本過濾掉，在剩餘樣本中再用個案分析進一步挖掘新特征，直到幾乎所有樣本都可以用總結的特征正确區分。

拆數據-2　異常分析

數據異常意味着有超越既有認知的情況出現。這些意外往往是啟發新思路，推進産品改進的源泉，稱為“異常分析”。

拆數據-3　分組分析

分組分析是将總樣本集合按照某些維度拆分成幾組，獨立分析每組樣本，并采取不同的産品策略。秉承“思考為什麼”的學習模式，先回答“為何需要分組？”，再探讨“如何進行分組？”

為何需要分組？隻有把樣本按合适的維度拆分成更細緻的分組，才能透徹理解數據的内涵。

下一個問題，如何進行分組？選哪些維度切分樣本最合适？首先明确分組分析的目标：“分組内部的用戶需求差異盡量小，分組之間的用戶需求差異盡量大”，這也是選取切分特征的主要依據。

三個切分維度均基于一個目标：把不同需求的客戶盡量分開，使得組内相近、組間相異。在實際項目中，可以根據業務理解來選擇維度，也可以使用一些技術方法，如計算每個特征所帶來的“信息增益”。

信息熵的計算公式如下：

H=-∑P（xi）log（2,P（xi）），i=1,2,…n其中，事件共有n種可能結果，P（xi）是結果xi發生的概率。

信息熵有如下特性：當每種可能的概率均等時，其值達到最大。如二元的信息墒計算結果如下圖所示，當兩種可能的概率p=0.5時，信息墒的結果是最大的；而當結果基本确定為某一種可能時，信息墒接近于0。

使用“信息增益”計算特征切分效率的過程如下。

步驟1：按照業務需要定義用戶分類（如分成5類）。

步驟2：标記所有用戶樣本到所屬分類（最貼近的類别即可）。

步驟3：以所有可能的特征為候選集，逐一使用每個特征切分樣本，計算切分後的“信息增益”。“信息增益”代表使用該特征切分後，各分類純度提升的程度。

步驟4：信息增益最大的特征即為當前最優的切分維度。

反複步驟3和步驟4，可以篩選出合适的特征列表。

除了用信息熵（information entropy）衡量純度之外，少數類（minority class）和Gini系數（Gini index）也是常用的衡量方案。熟悉機器學習的朋友會發現，數據分析的很多技巧與數據建模是相通的。

最後，用一句話總結分組分析：尋找能将樣本切分成組内相近、組間相異的分組維度，用這些維度拆分數據。獨立分析每組數據的個性化特征，确定差異化的産品定位和商業策略。

不同分析方法的結合與創新

統計分析是通過某些維度去觀察數據指标，思考原因并改進業務的過程。本章談到的3種拆樣本的方法（決定維度）和3種拆指标的方法（決定指标），是最基本的分析方法。在項目實踐中，往往會結合多種分析方法，創造出最适用于業務場景的分析方法。下面以一個近兩年在國外很火的數據分析方法Cohort Analysis，與大家說明下這種思考創新的過程。

Cohort Analysis是将“分組分析”和“趨勢分析”相結合的方法，從一個時間跨度（生命周期）來觀察不同用戶分組的行為變化趨勢。

Cohort Analysis分析方法

Cohort Analysis（有翻譯成“斷代分析”）是一種分析方法的框架，将用戶依據某些特征進行分組，研究不同分組的用戶在不同生命周期的表現情況。

實施這種方法，有以下三個核心步驟。

（1）如何定義分組（Create Cohort Identifiers）？維度1-決定用戶分組的某種特征組合，通常用不同的趨勢線标注。

（2）如何定義生命周期（Calculate Lifecycle Stages）？維度2-某種衡量用戶生命周期的方法，通常轉換為坐标系的橫軸。

（3）如何定義觀測量（Define Measurement）？觀察指标，通常轉換為坐标系的縱軸。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

教育初一學生厭學不想讀書怎麼辦
初一學生厭學不想讀書怎麼辦?多肯定孩子學習當中的優點，讓孩子看到自己的學習能力和成績，激發孩子内在的價值感；，今天小編就來說說關于初一學生厭學不想讀書怎麼辦?下面更多詳細答案一起來看看吧!初一學生厭學不想讀書怎麼辦多肯定孩子學習當中的優點，... 2022-07-11
教育考研究生什麼專業就業最好啊
考研究生什麼專業就業最好啊?金融學專業：金融學是一個聽着很有錢途的專業，很多考生在高考填報志願的時候都是被其就業前景所吸引不論是高考還是考研，金融學一直以來都是一個熱門專業，這也使金融學考研成為一項高風險的投資，但高風險往往伴随着高收益金融... 2022-08-04
教育就業率高的兩所二本學校
目前，各個省份的分數線公布，大多數考生也知道了自己的分數和排名。這幾天可謂是幾家歡喜幾家愁接下來就是填報志願了，一本以上的考生們選學校比較容易，照着985，211一路排下來就行。相對來說二本選起來就很難。二本學校多，而是大多名氣不顯。今天... 2023-01-03
教育高中沒考上還能上中專嗎
熊老師說中專，說的都是您想聽的。考不上高中可以上中專，那麼中專都有哪些類型呢？給熊老師點個贊吧，讓熊老師來告訴你答案。第一，大專學校裡的中專部或者附屬中專，這一類中專依托大學的優勢，不僅可以享受到大學的各種資源，畢業後也更容易考取本校的大專... 2022-11-19
教育挫折教育的名言
挫折教育的名言?什麼叫做失敗?失敗是到達較佳境地的第一步——菲裡浦斯，接下來我們就來聊聊關于挫折教育的名言?以下内容大家不妨參考一二希望能幫到您!挫折教育的名言什麼叫做失敗?失敗是到達較佳境地的第一步。——菲裡浦斯失敗是堅忍的最後考驗。——... 2022-06-29
教育高中數學函數單調性怎麼求
運用函數的奇偶性與單調性的關系是進行區間轉換的一種有效手段。奇函數在對稱區間上的單調性相同，且。偶函數在對稱區間上的單調性相反，且。例1、求解方程。解：設函數，則是奇函數而且單調遞增。原方程等價于，于是有，即，得為所求方程的解。例2、若定義... 2022-11-10
教育家長如何對幼兒園孩子的培養
一、學齡前讓孩子學些什麼呢？1、在幼兒園，培養孩子良好的行為習慣早晨，孩子來園，知道與老師同伴問聲早。在飯前和手髒時會正确洗手，能獨立地吃完自己的一份飯菜，不挑食。午睡時，能安靜地就寝，能獨立地穿脫并整理好自己的衣物。有良好的收拾整理的習慣... 2022-11-01
教育四六級不過能考公務員嗎
還記得被大學英語支配的恐懼感嗎？“襯衫的價格是九磅十五便士...”這一句英語考試的試聽，相信你一定忘不了吧！一、國考在國考中，每年約有20%-30%的崗位對英語能力有着具體的要求，有的崗位不僅要求四六級，還會要求高分數通過。2021年國家公... 2022-11-17
教育柯南笑起來最帥的瞬間
很多人對何炅何老師的印象大概是《大風車》裡的“大拇哥”，是北外阿拉伯語系教師，更是《快樂大本營》裡帶着許多明星藝人嘻嘻哈哈做遊戲、左右逢源的“老滑頭”。沒想到的是，在一檔網綜裡，讓人見識到了何炅被隐藏至深的真實一面。首先，沒想到的是何老師爆... 2023-03-13
教育 211有哪些學校名單
211有哪些學校名單?廈門大學廈門大學（XiamenUniversity），簡稱廈大（XMU），由著名愛國華僑領袖陳嘉庚先生于1921年創辦，是中國近代教育史上第一所華僑創辦的大學，是國内最早招收研究生的大學之一，中國首個在海外建設獨立校園... 2022-06-13
教育山東全部師範大學
山東全部師範大學?山東省省屬重點大學，綜合類高等師範院校，現位于山東省濟南市，我來為大家講解一下關于山東全部師範大學?跟着小編一起來看一看吧!山東全部師範大學山東師範大學山東省省屬重點大學，綜合類高等師範院校，現位于山東省濟南市校訓：博學笃... 2022-10-03
教育考研的經驗帖在哪裡看
身為一個合格的考研der，必須要掌握搜索信息的技能。以下這些網站可以幫助小夥伴們搜索有關考研院校、專業排名、備考經驗等相關考研信息，還可以找研友哦，我們快來看一看吧！01、中國研究生招生信息網第一個也是最重要的一個網站當之無愧是我們的研招網... 2022-12-30
教育初中語文成語句子整理
這是杭州祁績教育發的第69篇頭條文章，以後每天會更新教育類的政策，以及各學科的一些學習技巧、知識點等相關内容，希望大家會喜歡！一起加油，做最好的自己！七年級上冊1、潛移默化：指人的思想、性格和習慣，因受各種因素的影響，無形中起了變化。2、危... 2022-11-18
教育孫紅雷杜高對比
相比成年演員，“童星”在目前占有更大的優勢。小小年紀，乖巧可愛，也沒有整容之類的醜聞，成了父母和商家眼中的“寶”，雖然之前也有人痛斥過“過度消費”兒童的事情，卻并沒有什麼用。随着互聯網的發達，更加助長了這種行為。在該上學的年紀辍學當群演，美... 2022-11-24
教育 211大學轉專業難度排行表
在高考選專業時很多不夥伴會考慮以後畢業的薪資，下面三所學校雖然不是985，211但薪資卻排行前30，大家在擇校的時候可以考慮看看！上海對外經貿大學上海對外經貿大學是一所以經濟學、管理學、文學、法學為主幹學科，具有鮮明特色的涉外商科類重點大學... 2022-11-02
教育物理初三家庭電路知識點
#初中物理##中考物理##初中##中考##初三#, 2022-11-17
教育高考化學酸堿滴定實驗誤差
酸堿中和滴定是中學化學中典型的定量實驗，是高考的熱點之一，主要考查：（1）酸（堿）式滴定管的使用；（2）酸堿中和滴定的原理；（3）運用酸堿中和滴定原理來計算未知濃度的強酸（堿）的濃度；（4）酸堿中和滴定實驗的操作步驟和誤差分析。本文從以下四... 2022-10-27
教育郭德綱對于郭麒麟的教育
作為《德雲社》的少班主，前幾年郭麒麟還被質疑是不是能接班。畢竟，那個時候的郭麒麟要作品沒作品，要特點沒特點。但是，這幾年真的是大反轉了。郭麒麟在《德雲社》不僅有了“麒麟社”，而且說相聲、拍電視劇，今年更是成了各大綜藝節目的常駐嘉賓。一開始很... 2022-11-24
教育冷水灘區翠竹園小學開學第一課
新學期，新起點。沾益區新源小學上好形式多樣的“開學第一課”，新學期迎來了新氣象。教師培訓先行，教師有了精氣神。辦好教育，教師是關鍵；教師培訓，讀書為先。新源小學本學期将教師培訓立于首位，抓好書香教師培養，從根上改變廣大教師教育觀念，促進教師... 2023-01-31
教育古詩打卡71首
關注我們每日一首古詩文這首五言律詩寫杜甫在戰火紛飛的離亂年代思念親人，懷念家鄉，将思親之情與憂國之思結合，情感真摯深沉。“露從今夜白，月是故鄉明”兩句不僅是并列關系，更是潛在的因果關系：更深露重之時，思念愈深。本詩體現了杜甫詩沉郁頓挫的風格... 2022-11-02
教育 pmp考試及格标準
pmp考試及格标準?pmp考試200道單選題，其中25題不計分，答對106通過考試，下面我們就來聊聊關于pmp考試及格标準?接下來我們就一起去了解一下吧!pmp考試及格标準pmp考試200道單選題，其中25題不計分，答對106通過考試。考生... 2022-06-13
教育描寫雪的作文題目自拟
素材用時方恨少，隻怪平時積累少。古今中外多知曉，多多動筆熟能巧。作文素材冬天，沒有秋天的收獲和豐盛，卻有着蓄勢待發的内斂和睿智。冬天，就是一幅黑白素描。線條簡單，卻蘊含着深奧的生命真谛。好詞玉樹瓊枝銀裝世界風消雪停鵝毛大雪白雪皚皚白雪難和白... 2022-11-17
教育高考的祝福話語關于高考加油的暖心句子
高考的祝福話語關于高考加油的暖心句子?昨日播種勤奮種，今日一搏必成功鯉魚一躍即成龍，大鵬展翅嘯長空前程似錦圓美夢，錦衣凱歸沐春風寒窗不負有心人，金榜有你祝成功願你高考順利，一定成功，現在小編就來說說關于高考的祝福話語關于高考加油的暖心句子?... 2022-06-02
教育幼兒園家長寄語簡短的
幼兒園家長寄語簡短的?幼兒園家長經常要寫家長寄語這一項，這樣填寫真誠又全面：，今天小編就來說說關于幼兒園家長寄語簡短的?下面更多詳細答案一起來看看吧!幼兒園家長寄語簡短的幼兒園家長經常要寫家長寄語這一項，這樣填寫真誠又全面：首先表達老師對孩... 2022-06-02
教育數學參數方程解題方法
數學參數方程解題方法?熟悉化策略所謂熟悉化策略，就是當我們面臨的是一道以前沒有接觸過的陌生題目時，要設法把它化為曾經解過的或比較熟悉的題目，以便充分利用已有的知識、經驗或解題模式，順利地解出原題，接下來我們就來聊聊關于數學參數方程解題方法?... 2022-06-10
教育怎麼樣才能去日本讀大學
1、到時間就登入了選課系統，為什麼喜歡的課一節都沒了？日本大學在每學期開學之前會提前公布本學期的課程設置，統一時間開放選課通道，每節課都有人數限制，遇到熱門課程，每次搶課都是一場大戰...2、為什麼明明是我花了錢，卻要經常給老師講課？日本大... 2022-10-28
教育公務員考試常識題幹貨
今天分享的經驗貼，來自一位2022國考行測80的大神，她覺得考公務員最難的不是行測也不是申論，而是自己的心态調整，尤其對于長期備考的同學。她曾經擺爛到考前将近一個月，沒有看任何考試相關的東西，但通過各種辦法積極調整，如今在狀态調整上進步很大... 2022-11-14
教育孩子不上學怎麼教育呢
前段時間和幾個朋友聚會。其中一個朋友在當地的一所小學裡當班主任，跟我們分享了這樣一件小事：有一回，她組織了一場課外活動。首先要求家長寫下孩子在家經常做的3件事，然後再讓孩子寫下父母平時最常做的3件事。當她把這些反饋收集起來後，卻發現結果驚人... 2022-10-24
教育學曆和學位有什麼區别
學曆和學位有什麼區别?學曆是指人們在教育機構中接受科學、文化知識訓練的學習經曆任何一次學習經曆都可以稱之為學習者的學曆，接下來我們就來聊聊關于學曆和學位有什麼區别?以下内容大家不妨參考一二希望能幫到您!學曆和學位有什麼區别學曆是指人們在教育... 2022-07-14
教育學校平面設計老師怎麼面試的
學校平面設計老師怎麼面試的?最近總有一些朋友問我，平面設計是什麼，平面設計學會之後崗位職責和工作内容都有哪些，那麼今天的這篇文章主要給大家介紹下平面設計崗位職責和工作内容是什麼？有什麼能力要求？需要掌握什麼技能，凱進教育整理了平面設計崗位職... 2022-10-18

tft每日頭條

> 教育

> 大數據統計分析常用方法

大數據統計分析常用方法

相关教育资讯推荐

热门教育资讯推荐

网友关注