tft每日頭條

 > 科技

 > 怎麼高效分析數據

怎麼高效分析數據

科技 更新时间:2024-11-25 11:13:50

我是一個數據從業者,很早以前就想把自己在工作和學習中的心得做個總結。一方面是對自己過往經曆的一個總結和回顧;一方面最近幾年大數據是越來越火了,也希望自己的經驗能幫到那些對數據有熱情、希望從事數據行業的新人們;還有一方面,也非常重要,是希望借助知乎這個平台跟廣大同行們做一個交流,互相幫助,共同成長。

在開寫之前,先做下自我介紹。我在企業裡從事數據相關的工作已經有11年了,在這些年裡,我做過咨詢顧問、數據分析師、售前工程師、開發工程師、數據分析經理直至總監。在管理崗上,我帶過數據分析、數據挖掘、數據産品、數據倉庫等各種團隊,其中帶數據分析團隊時間是最長的。先後就職于國企、傳統制造業和互聯網企業。總的來說,比較雜。現在想來其實有得有失。缺失的是,在任何一個細分領域上都沒有做得特别深入,不算是一個合格的專家;得到更多的是,我對整個數據的産生、處理、分析直至為企業提供價值的過程都有過體會和思考,從而也使我能夠站在一個更高的角度上看問題。

到底是成為一個專才好還是通才好,我覺得這沒有一個确定的答案。個人覺得T型人才是比較受歡迎的,也就是自己的技能和業務面同時要有寬度和深度。當然,到底多寬或多深才合适,取決于個人的職業發展意向。基于我的經驗,我分享的更多是對這個行業的理解、做事情的思想和方法論,而不會側重于具體的實現技術。想學技術的同學請繞行。

後面我預計要分享的内容包括數據分析、産品、倉庫、數據團隊建設等等。個人經驗最多的是數據分析,就從這裡開始吧。可能包括以下話題:

  • 什麼是數據分析?
  • 數據分析有哪些分類?
  • 如何設定分析目标?
  • 怎樣才算是一個合格的數據分析師?
  • 什麼樣的企業需要數據分析師?
  • 怎樣建立一個數據分析師團隊?
  • 數據分析師團隊的價值是什麼?如何實現?
  • 數據分析師團隊的崗位設置及分工合作
  • 一篇好的分析報告有什麼樣的标準?
  • 數據分析三元論(勢、道、術)

怎麼高效分析數據(如何突破數據分析)1

什麼是數據分析

一句話定義,數據分析是一個從數據中通過分析手段發現業務價值的過程。這個過程的起點是獲取一份數據,這個過程的終點是發現業務價值。過程可以大緻為分數據獲取——數據清洗——數據處理——數據建模——分析結果呈現——業務價值發現——業務價值實現這幾個階段。

在具體說明每個階段之前,首先要談下我對數據和業務價值這兩個概念的理解。

  • 數據:我認為數據不是簡單的數字,換句話說,如果你隻告訴我一串數字 170、172、180而沒有其他信息,那麼這幾個數字就僅僅是數字而已,而不是數據。數據除了數字本身之外,還必須包含數字的來源、度量方式、單位、代表的業務場景(即數據産生的上下文環境)等等。其中,我認為場景是最重要的。仍舊拿上面的例子來說,如果你告訴這是三個地區的平均身高,那可以說這是一組有意義的數據了,至于單位,我會猜到是厘米;而來源和度量方式決定了這個數據的可信程度。
  • 業務價值:不能服務于業務的數據分析是沒有生命力的,不能産生業務價值的數據分析是徒勞無功的。因此,能否實現業務價值決定了這是否是一次成功的數據分析。而分析工作隻是實現了這個過程的第一步,它通過分析師的視角将價值呈現于業務人員面前,分析的結果隻有被業務人員理解,并最終通過業務人員的努力轉化為業務實施(在大多數公司數據分析和業務運營這兩種不同的角色會分屬不同的部門,增長黑客則是一種新的形式),才可能最終實現價值。

過程的詳細說明:

  • 數據獲取:這個階段的輸入需要一個分析目标,哪怕不是那麼的明确和清晰。為什麼需要一個目标?在一個大型企業中,可以獲取的數據往往是海量,如果沒有一個目标限制,那數據分析往往是無從着手的。這個階段的輸出是一個數據子集,它可以是物理上的貨邏輯上的。所謂物理上的,就是把分析中用到的數據單獨拷貝到一個地方;而邏輯上就隻是定義出可用的數據範圍,比如時間周期、維度、指标等。這個階段的困難之處在于理解相關的數據源,因為數據源文檔不完整或者變更的情況經常在業務中發生。數據清洗:通常包括異常數據的處理、缺失數據的處理、數據的一緻性變換、編碼的替換等
  • 數據處理:對數據進行彙總,或者形式上的變換,以便可以适用于後期的建模
  • 數據建模:用統計分析或機器學習算法對數據建模,以便描述數據或對未來進行預測。其實大多數分析師在這個階段隻觀測數據的同比、環比的趨勢上的變化,亦或對指标在不同維度上進行拆分,以觀察維度對指标變化的影響。以上三個階段在很多書籍中都有具體的技術描述,不再贅述。
  • 分析結果呈現:通常認為,這個階段的主要任務是把建模的結果以圖、表或者更加複雜的可視化方式呈現出來。但我認為不止于此。首先,呈現結果不是這個階段的目的,目的應該是讓業務人員對分析結果有充分的理解。其次,呈現的手段除了可視化,最重要的應該是溝通。而溝通是雙向的,可以保證結果最大程度上被他人理解。業務價值發現:通常數據分析師會在分析結果中提出對業務的價值,但是這個價值隻有被業務人員認可才有可能實現。所以,此處的“發現”應該是分析師和業務人員的“共同認知”。
  • 業務價值實現:業務價值發現和實現經常不被包含在數據分析過程中。但是,就如同我對數據分析的定義,業務價值才是數據分析的終極目的。因此,我認為價值的實現才是整個過程的最後一個階段,這個階段雖然是有業務人員控制的,但是仍然需要分析師的深度參與。因為雙方對于分析結果的理解和價值的發現經常出現偏差,需要在實踐中逐步達到統一。最後,關于數據分析過程,我認為有幾點需要給予非常的重視:

在開始做分析之前,首先要有分析目标!分析目标!分析目标!重要的事情說三遍。

  • 過程不是單向的,在後一個階段中發現問題時可以跳回到前一階段
  • 過程不是一次性,而是不斷循環往複的。上一次分析過程的終點,可能是下一次分析過程的起點。我們經常會在業務價值發現和實現階段發現新的分析主題,并把它作為下一次分析的起點。
  • 對于任何一次分析來講,不是每個階段都是必需的
  • 整個過程中的大多數時間都需要分析師和業務人員的密切合作

數據分析有哪些分類

面對的問題不同:戰略、運營

戰略分析:是為了解決公司戰略方向問題,回答要向哪裡去的問題。

  • 此類分析通常比較宏觀,需要分析者有大局觀、有戰略思維;
  • 所用的數據除了公司内部的數據,還需要競品數據、行業數據。
  • 戰略分析的方法:需要從競品及行業數據中發現行業發展趨勢及競品的戰略定位,同時結合公司内部數據,可以發現相對于行業和競品發展,内部在哪些地方存在不足,以此制定進攻和防守策略

運營分析:不同于戰略分析,運營分析以解決實際運營問題為目标,比較微觀

  • 需要分析者對公司業務模式、運營細節有深入的了解;
  • 使用的數據以公司内部數據為主。
  • 此類分析最重要的是,分析結果要能夠與運營結合,并能有效落地

服務的部門不同:業務、數據

  • 業務分析:此類分析由業務部門發起,提交給分析師執行,最終結果交付給業務部門。此類分析一般在最終的價值發現環節效率較高,問題的針對性較強。
  • 數據分析:此類分析由數據部門發起,最終結果視具體情況可能提高給業務部門或者管理層。由于此類分析的視角不同于業務分析,在最終的價值發現和實現環節需要與業務部門的深入溝通。同時,也正是由于視角不同,會經常發現業務部門沒有發現或者忽視的問題。

分析的範圍不同:行業、公司、部門、業務環節

  • 行業分析:目的是總結和預測整個行業的過去和未來的發展趨勢,時間窗口一般在1年以上。使用場景較多的是在投資公司中或者很多公司的市場宣傳稿中會出現。行業分析的對象是商業模式或者業務形态,關注的是資金、市場格局、用戶需求的變化和各企業的應對。最有價值和最難的是要提前預測行業的增長爆發點和衰退的轉折點。
  • 公司分析:目的是結合行業分析對公司業務發展做出診斷,給公司發展提供決策建議。時間窗口一般在一年以内,在公司戰略決策會發揮較大的作用。SWOT等方法适合在公司分析中使用。分析者首先要認清企業的商業模式,要與公司的管理者同步公司的短期和長期目标,了解企業的盈利來源和運作方式,通過公司内外部數據的對比發現運營中的問題和商機。在這個過程中,了解市場和競品的動态是非常重要的。
  • 部門分析:目的是對部門職能範圍内的業務發展做出正确的診斷并給出适當的建議。前提是能充分理解部門在整個公司中的角色和地位、該部門與其他部門的協作關系、在工作流程中的上下遊關系。基于以上理解,以配合公司業務發展為目的,以提升部門KPI或某個關鍵任務為分析目标,利用公司和部門運營數據去做分析。此類分析中,理解公司業務、有産品和業務思維很重要,指标的分解、對比,數據變化的歸因往往是常用的分析方法。
  • 業務環節分析:這是數據分析在業務最細粒度的應用。分析者隻需要關注非常具體的某個業務環節,讓大家感興趣的是這個業務環節數據的變化原因和改善方式。此時分析的指标經常是确定的,目标也很直接。但所謂牽一發動全身,這個環節的變化通常是由其他環節的變化引起的。所以萬萬不能走入一葉障目不見泰山的誤區。

項目的階段不同:咨詢、實施

  • 咨詢分析:以前有過跟咨詢公司合作的經曆。在項目開始階段,乙方通常需要花很多時間讨論項目立項的必要性、收益等,以此來說服甲方老闆,你懂的。但是,我要說的是,即使是公司自行研發的項目,在立項階段,數據分析需要做的是樹立目标。通過數據分析,可以對業務有一個全面的診斷,發現問題,提出項目需要改善的主要指标,并預測出項目上線後的收益。立項是需要管理層批準的,因此這個階段的分析需要簡明扼要、一針見血,分析結果的呈現起着至關重要的作用。
  • 實施分析:項目開始後,數據分析需要做的是過程控制。除了項目目标涉及的主要指标需要持續關注之外,還需要關注過程類指标。所謂過程類指标,是指能夠反映出項目執行内容的數據。因為主要指标的表現通常是滞後的,而且是若幹因素影響的結果,過程指标是為了明确各影響因素的作用效果。比如項目目标是提升使用時長,項目内容可能包括提升新用戶和老用戶的使用時長,那麼則應該把新老用戶的時長作為指标單獨監控和分析。

綜上,根據數據分析的使用場景、業務階段、服務人群、範圍及層次不同,可以分為很多種。以上隻是列舉出一部分。在每種場景下,數據分析的目标、關注的重點和難點都有所不同,分析師要在分析過程中時刻關注自己有沒有偏離目标,并對重點和難點有充分的準備。

如何設定分析目标

從我的經曆看,數據分析的目标主要來自兩方:一方是業務,一方是數據部門自身。

對于一個具體的數據分析項目來說,可能以上兩方的因素都會存在,隻是占比多少而已。以下詳細說明這兩種方式的場景、前提及“坑”。

  • 分析目标主要來自業務方:這種場景通常存在于業務方對業務發展有疑問,希望通過數據分析提升業務。業務設定的目标要麼是對過去的業務發展做總結和診斷,希望從中發現問題;要麼是基于業務的曆史預測未來的發展趨勢。這裡經常存在的問題是,業務方提出目标往往是模糊不清的,并且通常用業務術語而非數據口徑來定義。因此,這種情況下,分析師要花較多的精力做需求分析。而要做好需求分析,分析師需要具備一定的産品和業務思維,要從業務視角出發,充分理解業務的處境,才能從最根本上理解業務的需求。同時,需要對數據産生的流程和指标計算的口徑對業務人員進行充分的說明。如此不斷地叠代溝通,往往分析到最後,卻發現已經不是原來的需求了。還有一種情況,業務對數據了解較多,會在需求中說明需要的數據口徑,這種需求會被單純地看做一個數據提取需求。即使是這樣,如果希望讓這部分數據更有價值,分析師也需要就其業務背景有深入的讨論,然後可以修正該需求。
  • 分析目标主要來自數據部門自身:這種場景下,數據部門在組織上是獨立于業務部門的。但是獨立不意味着可以不考慮數據分析對業務的價值(參見第一章)。如果說實現業務價值是分析的根本原因,那麼重要數據指标的變化則是數據分析的直接原因。也就是說,如果數據部門要能夠獨立提出分析目标,首先要有相對完善的指标監控體系。而指标體系可以分層,并且建立起各指标之間的關聯關系。因此,數據部門提出分析目标可以更全面、更客觀,而不局限于一隅。但是,這個分析目标的設定對數據部門要求更高:不僅要具備完善的指标監控體系,更要了解業務。經常出現的情況是,數據部門自己費了挺大的勁做出的分析報告,業務部門卻無動于衷,其中沒有涉及到業務痛點可能是一個重要原因。

總結一下,分析目标的設定是數據分析最初也是最重要的一步。一個合理的分析目标應該具備以下特征:

  • 要有業務視角,能折射出業務痛點
  • 要有數據支持
  • 要量化:“為什麼産量下降了”和“為什麼産量從1萬下降到5千”,顯然後者的目标更清晰
  • 要能體現在某個或某幾個指标上:還是上面的例子,産量隻是一個概念而非指标,一個可能的産量指标是:全廠2018年第一季度中産品型号X的生産數量。總之,要做到明确而沒有歧義。

怎樣才算是一個合格的數據分析師

可以從分析師的工作目标、工作内容和能力要求三個方面回答這個問題。其中工作目标和工作内容是息息相關的。要說清楚這個問題,我認為除了一些公認的标準之外,還有一些标準是因公司和行業而異的。也就是說,必須把它放在一個具體的公司業務框架之中考慮。

工作目标主要由公司的業務發展階段決定

一般來說,無論是哪個公司,都希望分析師能有效地利用數據引導和驅動業務發展,實現數據的價值。但是,公司發展的情況不同,對數據分析師的價值定義也會不同

  • 公司整體處于初創階段,此時分析師的價值在于能通過對行業和競争對手的分析,為公司的發展方向提出适當的建議;
  • 公司如果處于快速發展期,此時分析師的價值在于一方面監控業務取得的成績,關注增長速度,一方面要健全指标體系,發現被業績增長所可能掩蓋的問題;
  • 如果公司處于穩定期,分析師則需要從效率和成本角度,從業務細節入手,為精細化運營提供支持;
  • 如果公司發展遇到瓶頸,分析師需要分析市場中供給和需求的變化,關注競争對手的應對策略,為公司業務發展發現新的增長點。

工作内容主要由公司的數據建設程度決定

參照第一章,分析師的主要工作内容數據獲取、數據處理、數據清洗、數據建模、分析結果呈現、數據價值發現及實現。無論分析的目标是什麼,大體總要經過這幾個階段。由于數據建設的階段不同,分析師在這幾項工作内容上所花費的時間也不同。在公司數據建設早期,分析師可能在數據獲取、數據處理和清洗、指标建設上花費更多的時間;數據建設到達一定階段之後,分析師的工作更多會在數據建模、呈現和數據價值實現上。

怎麼高效分析數據(如何突破數據分析)2

分析師的能力要求

對分析師的能力要求可分為通用能力和技術兩部分,同時也可以分為業務和數據兩部分。

  1. 業務能力:業務要求又可以分為微觀和宏觀兩方面:
  • 業務的微觀要求:了解業務運營;了解公司發展方向和發展過程中面臨的問題
  • 業務的宏觀要求:把握行業的發展方向,預測未來行業模式的變化;能明确指出公司在行業中的定位和戰略方向
  1. 數據通用能力:
  • 熟悉公司的所有基礎數據、來源、數據之間的關系;
  • 熟悉公司運營所涉及數據、能建立運營指标和數據之間的相關或因果關系;
  • 能根據數據分析結果給出業務改進建議
  • 數據價值實現能力。價值實現的過程是指數據分析結果->業務->業務執行->反饋結果->數據分析這樣一個不斷叠代的過程。在此過程中,演講(Presentation)能力、溝通能力、影響力、團隊協作能力、學習能力、邏輯思維能力、歸納和總結能力、抽象思維能力等都非常重要
  1. 數據技術:
  • 數據庫和數據倉庫技術(SQL、Hive等)
  • 數據分析算法(統計分析和機器學習)和工具(Excel、Python、R等)
  • 數據可視化工具的使用(Excel、R、PPT等)

好的分析師在實際的業務操作中至少會做好三點:

  • 大局觀:大處着眼,小處着手,全局和細節并重。因為從數據角度看,小數據往往可以反映出大問題。而沒有大局觀,就不知道該看哪些小數據
  • 思維:數據思維與業務思維并重。業務思維容易理解,什麼是數據思維?比如:對指标由粗到細的拆解、考慮時間維度上的趨勢、注意尋求指标之間的相關關系、直接影響關系、因果關系等。很多人都注重分析師要懂業務,有業務思維,這當然沒錯,但不能走向極端。因為在實際中,業務是需要不一樣的思維的,可以發現他們發現不了的問題,從而為他們在困境中提供解決方案。分析師需要了解業務的思維方式,但不能模仿他們。
  • 溝通:要想讓分析師的觀點被業務方所接受,溝通的作用是舉足輕重的。首先,分析師要為溝通找到合适的對象和時機。事先要根據溝通對象的不同設計适合的表達方式、内容和過程。溝通的時機要選在業務最需要的時候。很多時候,事後諸葛亮固然不好,但太超前了也不會有好結果。其次,要有同理心。需要真正站在對方的角度上想問題。再次,需要在溝通中建立互信、發揮影響力。一個好的分析師,能在溝通中恰到好處地展現自己的專業能力和經驗,适時的讓業務方對人産生信任,從而對分析結果信服。

什麼企業需要數據分析師

企業需要數據并不等于需要數據分析師。

如果僅是想看數據,其實有很多企業可以提供這樣的服務和工具。比如流量統計工具GA,比如報表工具Tableau。這些工具都可以在不需要分析師的情況下,對業務人員做簡單的培訓就可以用起來。

分析師承擔的是相對複雜的、個性化的、以分析為目的(而不是查詢)的任務。

如果企業有如下情況之一,那麼可能是需要建立一支分析師隊伍了。

  • 決策需要數據支持:決策層通常不是隻看到數據就可以做出決策的,他們需要知道的是數據變化的原因、預測某個決策可能造成哪些指标及如何變化的結果,這是一個相對複雜的分析任務,不是工具或者非專業人士可以回答。
  • 業務規模大、複雜度高:在此情況下,即使隻是構造單個指标,也需要經過嚴密的口徑定義、複雜的計算才能得到,且需要經過校驗才能保證數據是準确無誤的,這樣的工作通常由分析師完成。
  • 業務發展變化快:在業務穩定的情況下,數據的計算及業務含義不需要經常變化。反之,數據的定義、計算和業務理解則需要不斷地适應業務的發展,需要分析師不斷地維護這些數據。
  • 精細化運營:業務在經曆開始階段的快速增長,達到穩定階段之後。運營風格會由粗放型轉換為精細化。此時,需要對業務指标進行拆分,并分析相關性及數據之間的因果關系。
  • 數據統計口徑混亂、可信度低:有的企業存在數據孤島的情況,每個部門掌控着一部分數據,會造成同一個指标,由不同部門出結果不同。此時需要重新梳理指标口徑定義、數據采集、計算,找出數據之間的差異。當然,最後要徹底解決問題,則需要解決數據孤島的問題
  • 數據建設的初始階段:這時候需要分析師梳理業務流程、确認需求、建立指标體系、定義計算口徑、整合數據源等
  • 業務需求不清晰:業務有需求,但很模糊:比如,我想知道最近某某業務的運營效果如何?但是該看哪些指标則不清楚。此時需要分析師深入了解業務需求的背景和目的,将業務需求指标化。

怎樣建立一支分析師團隊

從企業層面看,如果要建立分析師團隊,要弄清楚幾個問題:

  1. 建立分析師的目的是什麼?
  2. 分析師屬支持角色,那麼他們支持的對象是誰?
  3. 分析師的主要工作内容什麼?
  4. 分析師的規模多大較為合适?
  5. 如何評估分析師的績效?

弄清楚這五個問題之後,就會知道應該招聘具備什麼經驗的人,招聘多少人,以及對水平的要求有多高,如何考核他們等等。

那麼如何思考這五個問題?

  1. 建立分析師團隊的目的:雖然成立分析師團隊的決定通常是由高層做出的,但是主要目的不一定隻是為了做決策支持,也許是自底向上産生的需求推動。有很多情況下,管理層覺得他們需要看數據,因此招聘了有決策支持經驗、具備宏觀思維的分析師,但實際上又安排了分析師去支持具體業務;或者反過來,管理層希望分析師能支持具體的業務,但是他們又安排分析師評價整個公司的運營情況,甚至提出戰略方向。這兩種情況都會造成人才的浪費。要知道業務分析和決策支持對分析師的要求是不同的。至少,前者需要分析師能關注到細節,而後者要求分析師不拘小節,視野要足夠高。
  2. 分析師支持的對象:如果目的明确了,通常支持的對象就清晰了。
  3. 分析師的主要工作内容:這同樣主要取決于團隊定位。
  4. 分析師團隊的規模:規模取決于多種因素,比如工作内容的複雜程度、業務需求的多少和緩急、能招聘到的人員的技能水平等。
  5. 分析師的績效評估:最直接的評估方法是看分析師産出的數量和質量。如果隻看産出的數量是比較容易的,比如可以看完成需求的多少、分析報告的數量等。但由于分析負責的業務線不同,這會忽略工作的難度。需要注意的是,分析師很多工作的投入和産出是不成比例的。比如溝通、業務梳理等基礎性的工作占據他們大部分的時間,而這些工作可能隻有很少的可見交付物的輸出。除了産出量,還需要看産出的質量。最理想的質量評估就是看對業務的貢獻,即提升了多少業務價值。但這同樣是比較困難的,因為有時候業務價值也很難量化。除了對外的産出,還有一個維度是看對數據團隊内部的支持,因為分析師通常是作為聯系數據團隊和業務團隊的橋梁存在。比如,對數據指标體系的建設和數據倉庫、數據産品的建設中做出的貢獻。但是同樣,這些貢獻也很難量化。

如何實現數據分析的價值

在之前的章節中已經提到分析的價值在于業務價值,而業務價值實現的最後一步是把分析結論應用于業務中,并反複叠代。

我想從一個例子來說明分析師在整個價值實現鍊條中的位置和作用。假設我們在考慮如何實現一件工具的價值,這件工具可以是一把鉗子,或者更複雜點,比如一部電腦。在這個例子中:

  • 數據分析是工具
  • 分析師是工具的制造者
  • 業務方是工具的使用者
  • 工具價值的實現不僅與工具的制造質量及精巧程度有關,還與使用者有關:有人使用電腦設計航天器,有人隻是用它玩遊戲。

也就是說,數據分析的價值除了分析師這個因素之外,還受到其他因素的影響。比如:

  • 數據分析結果的交付質量、可視化及可理解性(類比:工具本身的質量、設計及易用性)
  • 數據分析結果使用者的素質(類比:工具使用者的素質,對工具的了解程度,工具使用的相關知識背景)
  • 數據分析結果使用的場景(類比:工具使用的場景是否符合工具設計者的初衷) 環境因素,比如不可抗力、趨勢(類比:台式機的價值在移動化辦公的趨勢下會變小)

呃。。。是不是漏了點什麼?分析師哪裡去了?其實分析師的作用正在于對上述因素形成過程中的影響:

  • 提高數據的質量、展示水平,讓數據結果變得更容易理解
  • 教育和培訓數據使用者,往往會達到事倍功半的效果
  • 從根本上理解數據需求,打破砂鍋問到底
  • 最後,對于不可抗拒的因素,分析師能做的就是調整心态。反抗不了的話,就學會接受吧。

怎麼高效分析數據(如何突破數據分析)3

數據分析師團隊的分工與合作

個人感覺分析師團隊很不好帶,數據分析師團隊最大的三個痛點是:

  1. 散:在公司級别的團隊中表現尤其顯著。由于支持的業務多,而各業務的發展目标不同,導緻無法設立一個統一的業務目标,隻能按人去設定目标,管理效率很低。
  2. 亂:正是由于業務目标散亂,造成分析師之間的工作無法統一和協同。很多時候都是各自為戰,沒有配合,甚至出現目标沖突的情況。
  3. 弱:不能影響業務,不能建立話語權。這個在上文中已經說過,此處不再贅述。

這裡面的關鍵是解決“散”的問題。很顯然,如果把眼光放在部門級的業務上,是無法解決這個問題的。因此,需要把視野擴展到全公司。基于公司統一的發展目标,建立一個統一的分析框架。正如數據分析是服務業務的,分析框架也要基于業務模型來建立。業務模型的标準是:

  • 業務模型要高度抽象化,它是從業務模式中抽取出來的,而不是反應部門職能。
  • 業務模型要能反應實際業務的運營規律、要素和目标。甚至,這個業務模型可以放之行業而皆準。

有了業務模型,現在需要建立分析模型。我的經驗是對着業務模型提問題。首先是公司級的:公司的發展目标是什麼?需要哪些要素來完成這個目标?各要素之間如何互相促進?然後将上述問題分解到部門級。最後可以将問題歸類,可以分為:目标分析、運營分析、要素分析等。這些分類好的問題就是分析師分工的基礎。

傳統的分工方式是分析師按支持業務部門分工,或者按支持的業務模塊分工。

這種分工方式的結果是:

第一、分析師對業務的了解如同盲人摸象,每個人都隻能了解到部分業務,不能也不會從整體考慮業務問題,對問題的定位缺乏深度;

第二、分析師的工作是割裂的,自己的分析結果不容易被其他分析師采用。

以電商平台模式舉例,運用上面的方法:

  1. 建立業務分析模型:用戶、商品兩個主要要素。鍊接這兩個要素的是用戶購物體驗。用戶自身會有用戶生命周期,商品自身會有商品生命周期。還可以進一步細化:用戶購物體驗包括查找商品信息、下單、配送、付費、售後等體驗。商品生命周期可以包括采購、倉儲、上下架等。商品要素包括定價、分類、功能、用戶評價等。
  2. 提問:公司的發展目标?假設公司的發展目标就是追求銷售利潤最大化(實際上很多電商平台不是通過這個模式來盈利的)。要素?利潤的大部分通常是由高淨值人群和高毛利商品貢獻的。要不斷發展壯大高淨值人群和提升高毛利商品的銷量。各要素之間如何促進?高淨值人群不會隻買高毛利商品,平台也不可能隻賣高毛利商品。鍊接這兩者的是用戶體驗。分析師可以根據分析主題分成兩個大組:一組的分析任務包括識别高淨值人群、分析高淨值人群的購物體驗、分析高淨值人群的生命周期;二組的分析任務包括識别高毛利商品、分析用戶對高毛利商品的購物體驗、分析高毛利商品的生命周期。當然,還可以把購物體驗單獨作為一組或者在上述基礎上進一步細分。比如高淨值人群分為A、B、C等幾個不同特征的人群,如果其特征差異很顯著,可以基于人群分組做進一步劃分。

這樣分工的好處是:

第一、分析師是基于分析模型的分組,組内目标一緻,組内分析結果是可以共享和互相借鑒的;

第二、組内大目标的設定可以較為宏觀,促使分析師從整體考慮問題

第三、組内對大目标的分解最終會落實到具體業務上,不會太虛

第四、不同分組間的分析師雖然目标不同,但是使用的數據維度基本一樣,很多的基礎性工作是可以共建的,且分析結果也可以互相借鑒。

一篇好的分析報告有什麼樣的标準

寫分析報告應該是每個分析師的必做功課之一,不管是簡單的或者複雜的,正式的或者非正式的。

什麼是分析報告?我定義為有特定的主題、分析過程和結論的都可以算作分析報告,而不拘泥于表現形式。

那麼怎麼才算是一篇好的分析報告?相信每一個分析師都會有自己的标準。比如:對業務有意義、數據準确、邏輯嚴密等。這些都沒有錯,但是報告是給人看的,而每個人的背景和需求不同,那麼從報告讀者的角度出發去衡量報告的好壞會更加客觀。

既然要從讀者出發,那麼首先就要對讀者分類。從我的經驗出發,我們可以把報告的讀者按職級不同簡單分為決策層、執行層;按對業務的了解程度不同分為了解和不了解兩類。那麼讀者可以細分為四類:

我将從選題、數據選擇、分析過程、結論、報告結構、可視化這幾個方面去說明對不同類别的讀者,一篇好的分析報告的标準是什麼。

  • 對于A類讀者:由于他們對業務了解,視野又有一定的高度,所以選題應該以相對宏觀且能反應業務痛點的主題。比如對公司或一級部門KPI目标完成度的剖析、相對于競品主要業務指标的表現分析。數據應該選擇較大的、粒度較粗的指标數據,不能用那種多個維度交叉且口徑定義很複雜的指标。分析過程應簡單明了,邏輯推理盡可能把數據變化和業務解讀結合起來,同時一定需要關注時間維度上的變化。結論應清晰明了,包括對業務方向性的診斷和預判。在發布報告時,結論前置較為合适,對業務背景的描述不需要太多。可視化方面,以趨勢性的圖表為主。
  • 對于B類讀者:一般是經理及以下的運營人員。選題方面應側重具體的運營問題,範圍限定在二級或三級部門的職責範圍内。選擇某個業務線環節及上下遊的微觀數據,分析過程中要将統計方法或機器學習方法與業務規則結合,發現各指标之間的因果關系。報告結構的重心在于分析過程和結論,可視化方面要注重細節數據的呈現。
  • 對于C類讀者:選題偏重業務診斷和監控,選擇宏觀的、KPI或目标相關的重點指标,可以包含行業的、競争對手的相關數據。分析方法以對比和預測為主。結論以對業務方向的定性總結為好。報告結構應在業務背景介紹、選題的依據、結論建議等多花些筆墨,過程可以簡略。報告呈現以精簡為好。
  • 對于D類讀者:通常是新人或者新業務。選題偏重業務發展細節中的痛點或瓶頸。數據選擇微觀的但較為簡單的指标,分析過程中着重在于指标的曆史趨勢、相關指标之間的對比和變化,結論側重于發現和定義業務問題。報告結構側重于業務背景的描述、數據選擇和指标定義。可視化需要在業務邏輯的展示上多花些功夫。

總結下,我認為報告選題、數據選擇、分析過程、結論、報告結構、可視化是影響一篇報告質量的主要因素。但是分析報告如同一件藝術品,沒有放之四海而皆準的标準,隻有是否迎合和滿足的受衆的需求。因此,分析師必須清楚誰會看你的報告、你的讀者希望從你的報告中得到什麼、讀者的背景(包括業務和數據方面的知識)是怎樣的、讀者對你和數據的信任度如何。如果分析師要寫出一篇好的分析報告,需要了解的不隻是數據和業務。

數據分析三元論:勢、道、術

有個成語叫“大勢所趨”,順應趨勢、迎合潮流的事情做起來總是事半功倍的。

在做數據分析之前,我們要問一問:在這個時代、行業、公司做數據分析是大勢所趨嗎?

要回答這個問題,首先要搞清楚哪些因素構成了數據分析的“勢”。我列舉如下幾個:

  • 行業:我以為隻有那些能夠産生大量數據、且市場需求和業務模式變化較快、競争較為充分的行業更适合做數據分析。大量數據是基礎和原材料;市場需求和競争壓力是内在的驅動力。比如To C的電商行業,數據量已經到了一定量級,而人的需求往往是變化較快的,且這個行業沒有形成事實上的壟斷。雖然阿裡、京東的電商平台已經占據了很大的市場份額,但是他們之間仍然存在競争,而且像嚴選、考拉、網紅電商等垂直電商也還有生存空間。再比如電信和金融行業,也能滿足以上幾個條件。但是有些行業,看起來業務規模大,但實際上不适合去做數據分析。比如家裝、餐飲,這兩個行業雖然古老,但除了某些巨頭之外,信息化做的相對較差,數據采集都是問題,更談不上做數據分析了。再比如能源行業,也能夠産生大量的數據,但是因為市場需求相對穩定,且基本形成了國家壟斷,沒有做數據分析的内在需求。
  • 公司的數據環境:數據環境包括信息化水平、數據文化、老闆對數據的重視程度等。這幾個因素是很好理解的。信息化水平決定了數據的量和質量,消除數據不一緻、清洗髒數據要花多少時間和精力,做過的人都知道。。。數據文化包括數據相關的流程、規章、制度,公司内部對數據認知和利用的程度等。最後,我向來認為數據是一把手工程,由于數據從采集到價值産出,都是涉及多個部門的利益,沒有老闆的支持,做好數據是天方夜譚。

所謂“道”,主要指分析體系和框架、目的和價值。

而這些主要受公司的業務模式和業務需求的影響。說白了,業務模式越簡單、越清晰,數據分析越容易出成果。因為簡單的業務模式能顯著減少數據分析師學習業務的成本。分析體系和框架也會簡單明了,在分析時需要考慮的影響因素就越少。而價值鍊短業務模式更容易讓分析主題直接與業務收益挂鈎,更容易讓數據分析成果變現。而分析需求越穩定,就可以給分析師更多的時間深入研究下去,不斷叠代,最終産出更大的價值。分析需求越清晰,花在需求讨論中的時間就越少,最終分析成果被轉化的可能性就越大。

所謂“術”,是指數據分析的方法和過程,其中分析思維和分析技術對分析結果的影響。

正如我在開篇所述,數據分析所涉及技術體系非常龐大,而且學習資料也很多,不在本專欄範圍之内。我重點想說說我經驗中的一些分析技巧(包括思維和方法):

  • 分析主題的定性與定量:設計分析主題中的重要一步,是要确定分析的目的是定性或是定量。如果是定性,通常隻要考慮有關或無關,正面影響或負面影響。定量分析是很受業務方歡迎的,分析也更加複雜和困難,通常要通過機器學習模型解決。
  • 發現分析主題的兩個切入點:指标監控與業務問題。在《如何設定分析目标》一節講過,數據部門更适合從指标監控中發現問題,業務部門更适合從業務中發現問題。但對于一個成熟的數據部門,把指标監控和業務監控深度結合,對于發現分析主題更有利。
  • 數學建模:我對數學建模技術了解并不深。但是如果能把業務問題轉化為一個數學模型,對于确定分析思路會很有幫助。
  • 指标創新:指标其實是數據分析師分析業務問題的武器。因為無論你用什麼分析方法,總要用到一些數據,而這些數據的計算方法、範圍會很大程度上影響分析結果。且不說任何一個建模過程中的特征選擇都非常重要,即使隻是對業務的簡單監控,一個好的指标往往能準确無誤地反映出問題。對于互聯網,PV、UV、時長、留存、點擊率、退出率這些是大家很常用的。用來監控整體業務是沒有問題的,但是對于某個小的業務闆塊就不太夠了。比如,作為内容平台,我想衡量一次曝光的用戶體驗如何,應該用什麼指标?有人會建議用點擊率,但是點擊率會受到标題黨的影響,此時高的點擊率并不代表好的用戶體驗。比較好的選擇是把點擊率、閱讀時長、閱讀進度等合成一個指标。
  • 整體與個體:大處着眼,小處着手。無論是數據還是業務,都不是孤立存在的,系統性思維對于分析師非常重要。所以在看到一個小問題的時候,要知道它絕對不會影響這一小塊業務;而看到大的目标出現問題的時候,要能意識到可能是一些小的業務環節出了岔子。在動手層面,對于數據分析來說,微觀分析更容易獲取實驗數據,也更容易找到因果關系。所以要不斷地對問題分解和細化。
  • 分析維度的引入:在低維空間上解決不了,在高維空間上就不是個事(想到三體了嗎)。比如SVM,低維空間上無法做到線性可分的數據樣本,在高維空間上就可以。所以如果你在某個分析問題中費了牛勁也找不到答案,也許正是因為你忽略了某個重要的因素。當然也不是維度越多越好,因為維度越多,解釋起來就越困難,不要忘了,結果是給人看的。
  • 大膽假設,小心求證:試想求解一個方程式,我把某個解代入方程驗證是否正确,要比我從空間中求解容易得多。同理,由于在現實世界中可能影響業務的因素太多,選擇其中最有可能的因素去驗證無疑是一條捷徑。這個假設怎麼去做?首先要對業務有足夠的敏感度。是的,業務老鳥就是比新手能更快地“嗅”出問題的根源;其次要對數據有足夠的敏感度,數據之間都是有關系的,某個相關的指标變化也許就能告訴我們答案。究竟這個假設是不是問題的答案,最終取決于數據驗證。“小心”的意思是,一定要保證在驗證過程中不受其他因素的幹擾,AB測試無疑是個很好的方法。還有,在求證過程中要保持邏輯的嚴密。

作者 | 賀志 網易數據分析高級總監

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved