tft每日頭條

 > 生活

 > 一文看懂數據指标體系的4大類型

一文看懂數據指标體系的4大類型

生活 更新时间:2024-12-27 21:41:54

本文介紹了多指标評價的幾類方法:離差标準化、z-score标準化、非線性标準化。

一文看懂數據指标體系的4大類型(簡單多指标綜合評價三大方法)1

多指标評價常用于需要對一些對象進行比較的場景,在保有明确目的的情況下,通過多個維度的表現數據,賦予不同權重進行綜合評判,最終形成排序。

首先涉及到的就是這些數據的歸一化(normalization),或者說标準化,本質上就是去量綱,把量綱理解成計量單位也OK。這一步的重要性在于,多維度的評判,收集到的多方面數據,橫向來看沒有強耦合性,性質不同,量綱&數量級則大概率不同,直接用原始數值分析,那你得在不同維度的最終權重賦予上下大功夫,而且也不是很好解釋。

縱向來看,同一維度下不同對象的值極端情況下可能差異巨大,歸一化可以減弱這類影響。總之,去量綱轉化為純數值後,會更方便得進行不同對象之間的差距評估。

以下是幾類方法簡介:

一、離差标準化

名字很多,也叫線性标準化,最值歸一化,min-max法,都是一個意思,即 處理後X = (處理前X – 最小值)/(最大值 – 最小值),這裡的最大最小值,指的是同一維度下不同對象的值的集合中的最值。這樣的處理可以把這個集合中的所有數值根據大小差距,映射入[0,1]區間内,也有的處理是最小值默認0,那就是看集合中的值和最大值的比例關系。

舉兩個實際例子:

①現在想給a,b,c三個商家打分,0~10分,有兩個維度的數據,各占比40%和60%,這就意味着在維度一上滿分是4分。

一文看懂數據指标體系的4大類型(簡單多指标綜合評價三大方法)2

每個維度下最大值得分最高,其餘數值按照與最大值的比例得分,最終把兩個維度的分數相加,即為總分,如下表。需要注意的是,并不是所有的維度下,最大值都是最高分,存在值越高分越低的情況,比如差評,針對這種情況在數值處理上要取其倒數。

一文看懂數據指标體系的4大類型(簡單多指标綜合評價三大方法)3

②現在要給一個用戶推薦一些餐館,它們的Rank如果除了以往的評價,裝潢等,我還要考慮餐館和用戶的距離,或者餐館和用戶搜索的POI的距離。此時,得分y = 1-(x-min)/(max-min),x = 用戶或者POI與餐館的距離,min = 用戶或POI與該城市内餐館的最小距離,max = 用戶或POI與該城市内餐館的最大距離。空搜或關鍵字搜索,不同場景。

二、z-score标準化

也叫z标準化,标準差标準化,均值方差歸一化。适用于數量較多,沒有明顯邊界的數據,而且最好滿足高斯分布。公式是處理後X = (處理前X – 均值)/ 标準差。這裡的均值和标準差都是指同一維度下不同對象的值的集合的均值和标準差。通過這樣,就可以把一種分布的數據變換為标準正态分布,均值為0,标準差為1,處理後的數值,符号為正就是超出平均水平,符号為負就是低于平均水平,很清楚。

處理前:

一文看懂數據指标體系的4大類型(簡單多指标綜合評價三大方法)4

處理後:

一文看懂數據指标體系的4大類型(簡單多指标綜合評價三大方法)5

同樣需要注意的是,如果有的值是越低越好,那麼,最終正負号需要做一個相反處理。

三、非線性标準化

這個方法很适合處理極值,要用到這個,就需要看你有沒有一個需求,比如,我還是要給用戶推薦一批餐館,排序要去考慮UGC,就是用戶評價的數量,但是我研究了一下我所有的餐館,發現大部分餐館的評價數都在100~300之間,有一些是1000 ,就也不多,但是對于用戶來說,評論數無非是一個評價可信的佐證,一個踩坑的概率剪枝,300多條勉強足夠了,所以盡管有些餐館的評論數特别多,它在這一項上的得分也不應該是正常水平的幾倍,于是你就需要一個非線性的評價曲線,讓評論數超過了一定阈值之後,增長相同的評論數,得分增長越來越低。這裡一般會取用y=a*log10(x) b的形式,通過調整a與b來根據數據調整曲線。

一文看懂數據指标體系的4大類型(簡單多指标綜合評價三大方法)6

标準化處理時也要考慮數據可能存在的問題,比如由于維度拆分過細,樣本量較少,數據異常,可能會導緻在單項上某個對象沒有數值,針對此類情況,是否考慮在單次評價中将該項上的權重按比例轉移?還是有一個兜底分數?等等。

不同的标準化方式其實适用于不同的業務要求(數據精準,顆粒度等),在多指标評價中你最終可能還會覺得權重的設置起了更重要的作用,但是說到底還是2部分:數據 算式(處理)。清楚你要評估的對象的哪些方面,清楚地定義口徑,是評價體系的客觀性的重要體現。

其實很明顯,多指标的評價是一個描述不同對象的差距程度的,可以理解是描繪競争關系的,是相對的,橫向的,就比如在自媒體的後台中,平台給的分數的絕對值并不能完全代表你的水平浮動,但是努力提高創作水平,争取提高你的分數,一定是有用的,因為你改變了競争關系~

本文由 @寒鴉jackdow 原創發布于人人都是産品經理。未經許可,禁止轉載

題圖來自Unsplash,基于CC0協議

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved