tft每日頭條

 > 職場

 > 如何做好數據分析的技巧

如何做好數據分析的技巧

職場 更新时间:2024-12-24 20:52:11

1. 界定問題,明确目标

2. 拆解問題,确定分析框架

3. 數據處理

4. 選擇數據分析方法

5. 提出建議

6. 呈現分析結果

01

界定問題,明确目标

不管是在學術研究,還是商業研究中,數據分析的起點始終是問題意識。隻有基于問題,分析才有方向、目标,結果才是明确的、有價值的。而明确的研究問題和目标,是後續拆解研究内容、選擇研究方法、結果呈現邏輯的基礎。沒有問題意識和目标的數據分析,就像迷航的船隻,失去了航行的意義,最終隻能是白忙活一場。

比如老闆說今年上半年的利潤沒有達到目标?我們不能單單隻憑這句話就開始行動,而是要将問題中所涉及的所有内容界定清楚,如利潤具體構成有哪些要素,與誰比較,達到什麼标準算是實現目标。

因此,要想做好數據分析,首先要界定清楚你想要解決的問題是什麼,要通過分析實現什麼樣的目标。

那具體應該如何來界定問題、明确目标呢?我們可以從以下幾個方面進行思考:

(一)問題背景

針對提出的分析需求,你要了解清楚問題、需求産生的背後動因,了解為什麼會有這樣的問題、需求?比如,是基于公司戰略、業務規劃要求,還是基于市場、客戶的實際反饋,或者數據的異常引出的?隻有問題背景清楚了,你才能明确你要達到什麼樣的目标,從哪裡切入,要做怎樣的投入。

(二)問題内容

了解需求方想要做數據分析的真正意圖,具體想要解決什麼問題,擺脫什麼困境,實現什麼目标。但有時候,需求方也不能确定他們存在的問題,或者想要達到什麼樣的目标,這就需要數據分析師通過調研分析,來幫需求方定位問題、明确目标。

(三)問題的範圍

1. 時間

問題是有時限的,需要明确觀察哪個時間範圍的數據發現的問題?一般需要将不同時間段的數據進行對比,以呈現差距、發現問題。

2. 區域

問題也需要在不同地區之間的對比中出現,所以要清楚問題針對是針對哪些地區。

3. 數據來源

由于數據的分散性特征,不同來源的數據可能是零散的、不全面的,或者是不準确的,所以要了解數據來自哪裡,核對數據是否全面、真實。要對所有信息/數據來源時刻保持懷疑的态度,即使是需求方提出的,也要進一步尋找數據加以不斷驗證

(四)業務指标的理解

需要理清楚問題所涉及的業務指标是如何定義的、以及與誰進行比較。

1. 指标含義

比如“利潤”這個指标,不能隻看利潤一個詞,還要與業務部門溝通,明确“利潤”是怎麼計算的,比如利潤=銷售收入-銷售成本-營業外支出。

2. 比較對象

當問題中提到“高、低”等比較詞時,要弄清楚是與什麼進行比較,有比較才能知道問題要解決到什麼樣的程度。比如老闆希望你能通過數據分析幫公司找到提高産品銷售的方法,這時候你就要跟老闆了解清楚,銷量要提到到多少,與哪個目标值進行比較?

02

拆解問題,确定分析框架

很多時候,你面對的問題/目标是難以直接回答的大問題、複雜問題,這種時候,你就可以對問題/目标進行拆解,将大問題分解為更具體的、可操作性強的子問題,将研究目标拆解為具體的分析内容,通過回答子問題來回答大問題,通過解決各模塊内容來達成最終的研究目标。而這個拆解問題/目标的過程,即是分析思路的結構化過程。那具體怎麼做拆解呢?

(一)思維工具——邏輯樹

思維工具可以幫助我們将複雜問題條理化、結構化,快速形成分析框架。邏輯樹是數據分析工作中最常用的思維工具。

邏輯樹即從研究目标出發,以大問題為樹幹,以拆解出的子問題為樹枝,形成一個樹狀結構的思維框架,目的是要全面厘清整體與部分的框架。使用邏輯樹時,要遵循以下原則:

(1)橫向的不同層級之間存在邏輯關系,或包含、或相關;

(2)縱向同一層級的不同維度之間,要符合MECE原則,即各部分之間相互獨立(Mutually Exclusive),所有部分完全窮盡(Collectively Exhaustive)。

邏輯樹的具體使用方法:

1. 【設定起始問題】:将已發生的問題或事實作為邏輯樹的起始問題

2. 【列出主要影響因素】:針對起始問題提出“why”,思考可能導緻該問題/現象的主要因素

3. 【細分原因】:将步驟B的原因作為二級問題,繼續提出“why”,深入探究背後的影響因素

4. 【整理樹狀圖】:将問題全部分解後,要确定每個層級之間的關聯是否有邏輯,層級包含關系是否恰當。

對于樹枝應該分拆到幾個層級,需要根據分析主題的具體情況來界定,但一般分解到三個層級就差不多了。

邏輯樹的應用難點在于從樹頂端的起始問題往下拆解時,雖然我們都知道要窮盡每個層級中的影響因素,但具體應該從哪些維度進行拆解,這就非常考驗分析師對該主題的理解程度。針對這一難點,需要做好兩方面的積累:

一是【熟練應用拆解思維】

二是【熟悉經典分析模型】

(二)拆解思維

1. 橫向拆解

從橫向結構出發,将研究主題由上而下、由粗到細進行分解,找出該主題由哪些要素構成,每個要素有哪些具體特征。比如組織架構圖,即是橫向拆解最常見的應用場景。

【案例】

企業A上半年的營業利潤未達到目标值,若按照目前的營收進度,到年底将無法完成年度總利潤目标。現在老闆要求你通過數據分析,尋找如何完成年度總利潤目标的方案。

這裡,要完成年度利潤目标,關鍵是要找出上半年沒有完成目标值的原因,後續才能對症下藥。因此,我們可以采用結構思維,橫向拆解“利潤”指标,看看是哪個方面出了問題。

2. 縱向拆解

基于時間維度,将研究主題分解為有先後順序的多個流程階段,每個階段又有哪些具體表現。

【案例】

近期互聯網産品A的用戶流失率出現了顯著的上升趨勢,現在領導要求你通過數據分析,來找出用戶流失的原因,并針對問題點提出解決方案。

針對該需求,可以采用時間思維,基于用戶使用産品的流程,将研究問題縱向拆解為多個流程階段,然後尋找具體是哪個行為階段的流失率比較高,用戶遇到的主要問題是什麼?

3. 綜合思維

在實際研究中,經常會将結構思維和時間思維結合使用。

(三)經典分析模型

問題經過拆解,就形成了所研究主題的分析思路、分析框架,而經典分析模型則是經過時間檢驗、實際應用驗證的成熟的分析思路。很多領域都積累了一些經典的分析模型,熟悉這些經典分析模型,可以有助于我們在面臨類似的研究主題時,能夠進行快速、有效地思考,快速找到問題拆解的切入點。以下為一些常見的分析模型,後續在工作中,可多多留心收集、積累。

如何做好數據分析的技巧(搞清這6步數據分析流程)1

03

數據處理

通過不同渠道、不同方式收集上來的數據,會普遍存在格式不一、夾雜髒數據、無序混亂、複雜等問題,因此,在進行數據分析之前,需要對數據進行清洗、加工,以滿足分析目标的需要。

(一)清洗數據

原始數據普遍存在的問題是,夾雜很多髒數據,比如在問卷調查中,可能會有誤答、亂答的情況,從而使原始數據出現重複值、缺失值、無效問卷等。因此,拿到數據,首先要做的就是對數據進行清洗,以确保所要分析的數據的信度和效度,提高數據分析的準确性。數據清洗主要包括三方面的内容:

1. 查找重複值

2. 處理缺失值

3. 篩查無效數據

(二)加工數據

做好數據清洗好,數據還可能會存在數據格式不統一、量綱差異大、無序等的問題,也會夾雜着很多與此次分析主題無關的内容,因此還需要對數據做進一步的加工處理,包括數據格式的統一化、數據量綱的歸一化/标準化、數據的分類彙總/排序/抽取等,以降低原始數據的複雜程度,也讓數據更符合分析需求。

04

選擇數據分析方法

要想從繁雜的數據中挖出有價值的内容,洞察數據背後隐藏的規律,回答一開始提出的問題,就要懂得使用合适的分析方法對數據進行描述、分析。

根據分析方法的内容,我們可以将常用的數據分析方法分類以下七大類。我們也可以根據應用場景對分析方法進行劃分,後面有機會我們再做詳細介紹。

如何做好數據分析的技巧(搞清這6步數據分析流程)2

(可查看本公衆号的“統計學”合集内容詳細了解分析方法的原理和操作)

這七大類分析方法沒有嚴格按照相互獨立的原則進行劃分,比如回歸分析被歸入了【因果分析】類,但嚴格來說,回歸分析也可以算是【相關分析】、【預測分析】。但我們不必糾結于此,畢竟對分析方法的歸類隻是方便我們的學習、記憶和檢索,沒有實際的類型學意義。況且,我們在實際研究分析中,往往不會單獨采用某一種方法,而是會根據研究目的,将不同方法結合使用,以實現對分析問題的深層次理解和解釋。當然,這裡介紹的還隻是部分方法,在不同的領域還會發展出切合該領域場景的分析方法,但不管怎麼變,其基礎的分析邏輯都是基于以下的七種方法類型。

  1. 對比分析

對比分析,是将不同的數據進行對比,以分析它們的差異,揭示數據背後的發展變化和規律。

對比分析一般分為橫向對比和縱向對比。橫向對比即同一時間下的不同數據之間的對比,比如第一季度各城市門店的營業額之間的對比,年度實際營業額與目标值的對比等;縱向對比即數據在不同時間點的差異,可揭示數據随時間變化的趨勢。

2. 分類分析

所謂物以類聚、人以群分。分類是數據簡化的常用方式,我們可以把雜亂無序的總體按照某些特質進行歸類,使類别内的個體之間差異盡可能小,各類别間的差異盡可能大,以更便于下一步的深入分析。

3. 分布分析

數據收集上來後,我們最常做的就是描述數據的分布,比如不同性别的個案占比,某一指标的均值是多少,一組數據中的波動程度有多大。這些分析,即是分布分析,可幫助我們了解數據的特定趨勢。分布分析的對象不是一個數值,而是一組數值,隻有存在多個數值,數據才會存在分布狀态。

4. 相關分析

相關,是指變量之間的變化關系。如果一個變量發生變化,另一個變量也跟着變化,那麼我們就可以認為這兩個變量存在相關關系。相關關系不等于因果關系,一般來說,變量之間的相關關系,主要由于以下三個因素帶來:

(1)相關是偶然的

(2)變量之間的相關可能直接受到其他潛在因素的影響

(3)一個變量是另一個變量的原因,即兩個變量存在因果關系,但需要注意,該自變量可能隻是衆多原因的其中一個。

5. 因果分析

因果分析即是要追本溯源,追溯哪些因(稱為自變量)導緻了這樣的果(稱為因變量)。相關是因果關系的必要條件,如果因變量的變化與自變量的變化之間存在相關,那麼自變量就可能(并不必然是)是因變量的原因。但相關并不意味必然有因果關系,發現了相關性,隻是說明在統計學意義上兩個變量之間可能存在因果關系,之後還要探讨因果鍊條。

6. 預測分析

預測分析是通過對現有數據特征的分析來構建統計模型,然後用來對不完整的、未知的或者未來的知識進行判斷和預測。其實前面介紹相關分析和因果分析方法也屬于預測分析的範圍,但為了方便分類,且它們在實際研究中應用得比較多,因此就将它們作為了單獨的類别進行介紹。

7. 推斷分析

數據收集是有成本的,收集所有數據是不現實的,因此一般會采取抽樣的方式,即從總體中抽取樣本,收集樣本的數據,然後再由樣本來推斷總體的參數、分布等信息。這種通過樣本來認識總體的過程,即是推斷分析。

05

提出建議

在企業研究中,數據分析的最終目的是要通過數據來驅動業務發展,改善企業經營狀況。但實際上,很多人并沒有認識到分析研究的真正價值,甚至覺得企業中的研究隻能帶來成本,無法真正給企業帶來價值,畢竟很多研究的價值難以被衡量。因此,在數據分析的産出中,還應該基于結論提出針對問題、目标的切實可行的建議、解決方案,才能激起需求方的興趣,才能更好地推動研究成果的落地,最大效用地發揮數據分析在企業研究中的價值。

06

呈現分析結果

  1. 原則

讀者導向、邏輯清晰、簡潔易懂、生動形象

2. 目标讀者及其需求

理清報告結果會有哪些人群看到,他們有什麼需求,為什麼要看你的這個結果。在實際研究項目中,可根據項目的情況、重要性、受益人,來決定選擇哪種呈現方式。

3. 内容結構

根據目标讀者及其需求,理清什麼樣的呈現邏輯才會讓他們更易于理解、才會更容易吸引他們的注意力。一般來說,基于業務或需求方關心的核心問題層層拆解來編排報告内容,這種問題導向的結果彙報更易于讀者的理解。

比如,要給某産品做市場定位,數據分析結果就可以從以下方面進行結構編排:

(1)市場空間有多大,值不值得進入:包括市場規模、增長趨勢

(2)當前市場可以細分為哪些類型,不同細分市場有哪些特征

(3)應該選擇哪個目标市場?後續可以向哪些次要的細分市場進行拓展?

(4)可以采取什麼策略來營銷推廣該産品:

A. 目标用戶長什麼樣,與其他細分市場的目标用戶相比,有什麼顯著特征

B. 目标客戶有哪些需求,與其他細分市場的目标用戶相比,差異點在哪裡

C. 選擇适合目标客戶的營銷方案

4. 呈現形式

盡可能實現數據化、圖表化表達,以讓目标讀者更易理解、更有興趣閱讀。

最後,給大家分享一些最近整理的數據分析資料,全部打包好了,直接領。

如何做好數據分析的技巧(搞清這6步數據分析流程)3

如何做好數據分析的技巧(搞清這6步數據分析流程)4

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved