- 描述統計學:找到關鍵的的指标來描述數據的整體情況
- 描述數據集常用的4個指标
- 平均值
- 意義:對極端值不敏感,出現平均數陷阱
- 案例:如平均工資并不能代表每個人的收入水平,高收入群體将平均工資拉高了
- 四分位數
- 四分位數與中位數有關中位數:将數字按從小到大排序,排在中間的那個數或兩個數的平均值即為中位數如何求四分位數?先求出中位數,中位數将整列數據一分為二。四分位數即為,在中位數分割成的兩半數據中分别再求一個中位數,則可以求得上四分位數和下四分位數。五個數值:此時下四分位數、中位數、上四分位數将這個數列分為四等分,每份占25%,第一個數稱為下界,最後一位數稱為上界。用5個數值可以描述數據的整體分布狀況(箱線圖)

- 箱線圖用計算四分位數過程中得到的五個數值,可以繪制箱線圖

- 應用1:在箱線圖中,離中位數更近的四分位數可以反映出該部分數據更集中。如圖,表示該數據集中的數據更加集中于中位數以下。同時,箱線圖還可以反映出數據集的最大最小值。
- 應用:識别出可能的異常值。
- 對異常值進行檢查和處理四分位數識别異常值的方法——Turkey‘s test 方法


如圖,在圖中将計算得到的Q1,Q2,Q3帶入兩個公式,K值分别取1.5和3,計算得到的數值在圖中表明。可以看到超過紅色部分的數值可能為中度異常,而超過藍色部分的數值則為極度異常。

- 标準差(西格瑪)
- 标準差反映了每個數值與平均值之間的距離,用于衡量數據集的波動大小
- 波動大小=離散程度=變異性

夏普比率=(投資回報-無風險回報)/投資組合的标準差,夏普比率越高,反映投資風險越低,回報越大

- 标準分
- 标準分Z=(數值-平均值)/标準差
- 标準分表示某個數值距離平均值多少個标準差


- 應用質量管理:六西格瑪管理法,知道産品質量偏離的程度
變異系數
- 應用場景:标準差能夠表示數據整體的波動,但它的缺點是如果兩個數據集差别比較大,那就無法比較
- 比如兩個店鋪,一個店鋪的營業額為1000w,另一個為100w,就算兩個店的标準差相同,也不能進行對比,這種情況下需要使用變異系數
- 變異系數CV=标準差/平均值,用于比較不同數據集的波動大小。
- 指标總結

, 更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!
查看全部