tft每日頭條

 > 生活

 > 靜态分析要确定哪些參數

靜态分析要确定哪些參數

生活 更新时间:2024-12-19 05:50:05

01

為什麼要設計指标

因為我們知道的太少。

不僅是Jon Snow,“我們真的知道的,比我們認為自己知道的,知道的少。”是一個對于大多數人而言都普遍存在的現象。

靜态分析要确定哪些參數(指标設計方法抽象)1

▲圖1:牽強附會加張

而設計指标的目的就在于:讓我們了解更多。

具體而言,通過指标數值,可以在可接受的成本下,傳遞足夠多的信息。

設想一下:

  • 中年危機老賈去醫院體檢,咨詢身體狀況如何;醫生說:“還行。有點問題。問題不大。”而不是告訴他血壓如何、體脂如何、血糖如何。
  • 法外狂徒小藝被查酒駕,交警質問他喝了多少;小藝說:“沒醉。喝了一點。喝的不多。”交警卻沒有一個血液酒精含量的指标,去判斷他是否醉駕,應該作何處罰。
  • 霸道總裁阿餅例行月會詢問業績,負責銷售的副總說:“很棒。業績很好,賣了不少。”隻字不提銷售總額、人均産能、業績趨勢。

倘若沒有指标這個工具,我們能獲得的信息,就會變得是非常有限的;或是獲取信息的成本變得極高。為了更好的使用這個工具,我們首先要了解“指标”的定義是什麼。

02

什麼是指标

讓我們簡單的回憶一下:我們日常最常接觸到的指标,像身高、體重、溫度、GDP。

它們的共性是什麼?共性在于它們的載體都是數值。例如,身高180,體重154,溫度26,GDP14.7萬億。

它們的差别是什麼?差别在于它們的含義各不相同。比方說,身高180(cm)和體重180(斤)的含義是截然不同的。

所以,指标是一個被定義的數值,用來對事實進行量化抽象。這個抽象過程可以是一次的,也可以是多次:

  • 當一個事實比較簡單的時候,例如某個物品的輕重,我們用通過質量這一個指标就可以衡量清楚。
  • 但當一個事實更複雜一些的時候,例如一個人的胖瘦,也許僅僅是用質量(體重)就不足以說明這個事實。這個時候我們可能會用BMI、體脂率等經過了兩次抽象的指标。
  • 當這個事實變得更加複雜,例如一個國家的經濟狀況,我們會用GDP,這個一個進行了很多層複雜抽象、涉及到大量數據[1]的指标。甚至是僅僅一個指标也完全不足以描述出這個事實的重要特征;這時候就要設計一整套的指标體系,來量化這個複雜的事實。

靜态分析要确定哪些參數(指标設計方法抽象)2

▲圖2:事實、數據、指标之間的關系

綜上所述,一個應該至少包含4個要素:

  • 名稱:指标名稱要清晰明确,避免歧義,降低溝通成本。
  • 責任人:責任人要保證指标可維護、可運營。
  • 含義:指标含義要描述的是“被量化的事實”;例如——這個指标是在什麼場景下?為了什麼目的?刻畫了什麼事實?
  • 口徑:指标口徑要保證我們能及時地、準确地取到所需的“數值”;例如——這個指标是如何計算的?所需的數據從哪獲取?獲取的時效如何?

當然僅僅知道什麼是指标是遠遠不夠的,還要知道怎麼去生成一個指标。

03

如何設計一個指标

指标設計的過程與分類

結合統計與數據治理視角,我們可以将指标的設計過程分為三個步驟:抽象、加工、限定。

靜态分析要确定哪些參數(指标設計方法抽象)3

▲圖3:指标的生成過程

數據經過初步抽象,形成原子指标,即絕對數指标。例如:保費、客戶數、用戶量。

原子指标經過三種加工方式,形成衍生指标。例如:升學率、平均客單價、滬深300。這3種加工方式分别為:進行對比、計算統計量、指數設計(結合對比和統計計算)。

當我們對原子指标和衍生指标,進行維度限定的時候,就形成了派生指标

靜态分析要确定哪些參數(指标設計方法抽象)4

▲圖4:指标類型

這裡對原子指标、相對指标以及統計量指标的使用做一個簡單的介紹:

原子指标記錄事實:根據指标的定義,指标是一個被定義的數值,用來對事實進行量化抽象。這個量化過程的起點是傳感器、數字化等;然後是日志、記錄、标簽等;進入指标彙總層面的第一步就是原子指标。我們通過原子指标來記錄事實,例如訪問的次數、出行的距離、消費的金額等等。所以當我們需要記錄一些基本事實的時候,我們設計一個原子指标來量化它們。

相對指标用于評價:我們通過原子指标,記錄下了一堆的事實。緊接着,我們要做的就是對這些事實進行評價。常說“沒有比較就沒有傷害。”為什麼沒有傷害呢?因為沒有比較,就很難做評價,進而我們也不知道自己是好是壞。所以當我們需要評價一些事實的時候,我們設計一個相對指标來量化它們。

  • 當我們要評價一件事情的發展趨勢的時候,我們可以用動态相對數;例如:同比、環比。
  • 當我們要評價一件事對整體的影響的時候,我們可以用比例相對數;例如:市場占有率。
  • 當我們要評價同一個事物在不同維度下的差異程度的時候,我們可以用比較相對數;例如:TGI、男女比例。
  • 當我們要評價兩個不同事物之間的關聯的時候,我們可以用強度相對數;例如:投訴發起強度、退款發起強度。
  • 當我們要評價計劃的完成情況的時候,我們可以用完成相對數,例如:銷售額完成進度。

統計數指标提煉信息:有時候,我們會有非常多的記錄或指标。它們蘊含着非常多的信息,但是價值的密度卻很有限。這個時候就可用通過一些統計的方式,提煉其中的信息價值。例如我們有數以千萬記的用戶的月均消費金額,這時候可以通過統計分位置的方式對我們客戶整體的消費能力做一個刻畫。

指标的尺度特性

不同的指标,還會具有不同的尺度特性。根據可比程度的不同,我們可以将指标劃分為4個測量尺度:定比尺度、定距離尺度、定序尺度和名義尺度。

名義尺度

定序尺度

定距尺度

定比尺度

類别區别

次序區别

距離區别

比例區别

指标尺度的特性是我們必須要了解清楚的,因為低尺度的指标不能使用高尺度的數據運算進行處理。這裡舉2個反例說明以下,如果沒有弄清楚指标的尺度特性會導緻什麼問題:

定距尺度不能直接做乘除:例如溫度就是一個典型定距尺度,“20度有10度的2倍那麼熱,是一個非常令人困惑的表述。”定比尺度具有絕對起點“0點”;而定距尺度沒有絕對起點,定距尺度的“0點”是人工計算出來的。換言之,定比尺度的指标,本身和零點的差是有意義的。但,定距尺度,之間的差才是有意義的。這就導緻了,定比尺度可以直接和自然數做乘除法,但定距尺度不可以。

定序尺度不能直接做加減:滿意度評分就是一個典型的定序尺度。如果消費者給A酒店的評分是5分,B酒店的評分是3分,C酒店的評分是1分。很可能這并不意味着,A比B酒店好的程度與B酒店比A酒店好的程度相等。實際情況可能是 ,大多數的酒店都在4分左右,而5分是非常棒的;1、2、3分的酒店都乏善可陳,甚至體驗很差。因為定距尺度之間的距離是精确定義了的,而定序尺度沒有。所以定序尺度隻能比較大小,而不能夠進行直接的加減。雖然很多場景下,我們都會用平均滿意度來衡量客戶的滿意情況。但我們會發現這樣的使用方法,存在一些問題,例如說沒有區分度等。這些問題中,有一部分就是由于“定序尺度”的特性帶來的。

指标的時間特征

在指标設計的過程中,時間是一個非常重要的因素。由于多個事實的發生時間之間的異步性,以及事實發生時間與指标計算時間之間的異步性,導緻不同的時間統計口徑會對指标産生重大的影響。多個事實發生時間之間的異步性:

一個件事通常在一件事發生後一段時間,才會發生,或者才會被觀測到。例如訂單退款必須在下單支付之後才能發生;退房必須在入住酒店之後才能發生,且存在着一定的時間差。

事實發生與指标計算之間的異步性:

一個事實發生與這個事實被計算(為指标)之間通常存在着時間差。

例如,一個消費者1分鐘内在APP上(生産環境下)下了20筆訂單。但可能在1個小時後,才能在後台數據庫中查詢到這20筆增量的訂單記錄。這種情況的發生可能是由于任務調度的設置導緻的,也可能是由于技術能力的限制導緻的。

再舉個例子,應該幾個月前,知乎在創作中心中統計的閱讀量還是日頻刷新的。現在也僅僅做到了小時刷新。

這樣的刷新頻次可能在“創作中心”的業務場景下是可接受的,但在很多其他的業務場景下(例如短視頻推薦),是不可接受的。為了解決以上業務場景的問題,我們就需要采取流計算的技術,來提高數據生産的時效性。

事實間的“異步性”和事實與計算間的“異步性”,會影響指标反饋信息的“及時性”與對事實抽象的“準确性”。

總的來說,我們希望指标在保證一定準确性的前提下,越及時越好。為了達成這個目标,我們需要慎重的考慮兩個時間特征:“T n”和“時間切片 v.s. 關聯綁定”

靜态分析要确定哪些參數(指标設計方法抽象)5

▲圖5:“T n”與“時間切片統計”、“關聯綁定統計”的示意說明

"T n"

T n中的n應該設置為什麼更為合适,是1天、3天還是5天;1小時、2小時還是5分鐘。

舉個例子,保險公司要衡量保單的品質,即有沒有賣給消費者他們所需要的産品。那麼用什麼指标來衡量更為合适呢?

大家可能會想到“退保率”。但是退保率該如何計算呢?嚴格來說,一筆保單在其合同約定的期限内的任意一天都是可以退保的。所以,從完全準确的角度出發,如果某個保險産品的合同期為20年,那麼應該統計20年零1天前所有保單的退款率,即T 20y。

但是,這顯然是不現實的。因為“及時性”太差了,完全不可運營。

因此,我們要設計一個更恰當的時間特征n。假設,現在我們知道保險的猶豫期大約是10~15天,也許在平衡“及時性”與“準确性”之後,退款率的設計就會是“T 15d”計算。

“時間切片 v.s. 關聯綁定”

我們在計算相對指标的時候,應該以什麼樣的方式進行對比?舉個例子,運營常用的流程分析,AAARR(獲取、激活、留存、收益、傳播)。

通常使用這套方法去做運營分析,就要計算激活率、留存率、消費轉化率等等一系列的指标。如果我們要計算這類指标就存在一個選擇,是使用時間切片的方式去計算激活率嗎?即:今日的激活率 = 今天獲取的用戶量 / 今天激活的用戶量。

但是思考一下:今天激活的用戶中,有沒有昨天獲取的用戶呢?有沒有前天獲取的用戶呢?有沒有去年獲取的用戶呢?顯然是有的。

而我們在使用切片數據時,就可能導緻一個現象,今天的激活率高,可能僅僅是因為今天獲取的用戶數少,而今天激活的用戶都是之前積累下來的。也就是說,有可能轉化率高,是件壞事。

那麼,是不是為了準确性,就用關聯綁定的方式去設計指标呢?即,計算激活率的時候,應該圈定某天獲取的那些用戶,看這些用戶中有多少激活了。

例如,今天計算“T 7d ”前獲取的用戶中的激活率是多少。如果采取這樣的方式,我們就回到了問題1:“n”應該如何選擇。

綜上所述,當我們遇到一個量化的問題,就從上述的指标類型中選取一種設計方法,完成指标的設計工作。接下來我們要做的,就是去衡量這個設計的好壞。

04

什麼樣的指标算是好的指标

我們可以從4個維度去評價一個指标的優劣:

1. 有效性:這個指标能不反映我們量化的事實?

例如,我們想要去衡量某個APP的用戶量有多少,應該用DAU,還是MAU?不同類型的APP可能有不同的選擇,對于外賣而言,每天的DAU可能都非常關鍵。而對于一個旅行類的APP而言,因為類目本身消費頻次的不同,可能MAU才是一個更能真實反映用戶數量的指标。

2. 可信性:反映事實的指标是不是穩定的?

例如,人力部門設計了一套題庫去衡量應聘者的數據能力,希望通過測試題的分數,去做出是否招聘某位同學的決定。那麼對于同一個面試的同學而言,第一次參加數據能力測試,和第二次參加數據能力測試的分數應該是相近的。

3. 敏感性:事實的變化,能否被指标敏感的捕捉到,并反映出來?

例如,對于酒店住宿預訂而言,到酒店前台卻沒有空房可以入住,是一種非常糟糕的用戶體驗。但也是一個非常低頻發生的情況。那麼是否應該用“到店無房發生率”來追蹤這個問題就是一個值得思考的問題。同理,對于輿情監控,是應該用絕對數指标來監控,還是比例指标來監控更好呢?

4. 可運營:這個指标能否被用于日常的運營,及時的幫助我們謀求改善?

例如,越來越多的公司因為對客戶忠誠度的重視,開始用NPS(客戶淨推薦值)來衡量客戶的感受。但是如果僅僅有這個主觀指标,當NPS降低了10%的時候,公司應該如何去提升用戶的忠誠度呢?

05

小結

  • 使用指标的原因:指标可以幫助我們低成本的獲取更多信息。
  • 指标的定義:指标是一個被定義的數值,用來對事實進行量化抽象。
  • 指标設計的4個要素:名稱、責任人、含義、口徑。
  • 指标設計的3個過程:通過抽象、加工、限定,我們可以将數據轉化為原子指标、衍生指标和派生指标。衍生指标是原子指标經過運算的結果,派生指标是原子指标和衍生指标經過維度限定的結果。
  • 衡量指标設計好壞的4個标準:有效性、可信性、敏感性、是否可運營。
,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved