tft每日頭條

 > 科技

 > 什麼用于描述正态分布的變異度

什麼用于描述正态分布的變異度

科技 更新时间:2024-07-26 19:17:48

什麼用于描述正态分布的變異度(正态分布的應用)1

内容導入:

大家好,這裡是每天分析一點點。本期給大家介紹的是數據分析基礎系列,主要給大家介紹描述性統計分析原理,介紹偏度的基本原理,包括偏度概念、作用、計算方式、判斷标準、應用,再結合區域工資水平,探讨偏度在實際數據分析中的應用。文章内容适合數據分析小白,内容深入淺出,案例貼合實際。下期給大家介紹峰度系數,歡迎大家關注。

概念介紹:

偏度的概念:

偏度是統計數據分布偏斜方向和程度的度量,是統計數據分布非對稱程度的數字特征,所謂非對稱就是指左右的不一緻。偏度(Skewness)亦稱偏态、偏态系數。它是表征概率分布密度曲線相對于平均值不對稱程度的特征數。直觀看來就是密度函數曲線尾部的相對長度(不理解沒關系,這是統計學定義)。

偏度的計算公式:

什麼用于描述正态分布的變異度(正态分布的應用)2

偏度的計算公式

偏度計算為三階中心距除以三階标準差,所謂中心距,就是距離數據中心的距離,數據中心一般是值數據的平均值,因此中心距就是每個數減去平均數的和,然後求平均,三階就是在這個基礎上求三次方。三階标準差就是标準差的三次方,這樣理解這個公式就簡單了。

偏度的相關原理:

正态分布的偏度為0,兩側尾部長度對稱。若以S表示偏度。

S<0稱分布具有負偏離,也稱左偏态,此時數據位于均值左邊的比位于右邊的少,直觀表現為左邊的尾部相對于與右邊的尾部要長,因為有少數變量值很小,使曲線左側尾部拖得很長。

S>0稱分布具有正偏離,也稱右偏态,此時數據位于均值右邊的比位于左邊的少,直觀表現為右邊的尾部相對于與左邊的尾部要長,因為有少數變量值很大,使曲線右側尾部拖得很長。

而S接近0則可認為分布是對稱的。若知道分布有可能在偏度上偏離正态分布時,可用偏離來檢驗分布的正态性。右偏時一般算術平均數>中位數>衆數,左偏時相反,即衆數>中位數>平均數。正态分布三者相等。

什麼用于描述正态分布的變異度(正态分布的應用)3

偏度的特點:

如果一組數據是對稱的,則偏态系數 等于 0;

如果偏态系數大于1或者小于-1,稱為高度偏态分布;

如果偏态系數在0.5~1 或-1~-0.5 之間,則認為是中等偏态分布。

偏度的偏向:

偏度系數=0,則分布對稱;

偏度系數>0,則頻數分布的高峰向左偏移,長尾向右延伸,呈正偏态分布;

偏度系數<0,則頻數分布的高峰向右偏移,長尾向左延伸,呈負偏态分布。

偏度的應用:

S>0,數據左偏,高峰向左偏移,長尾向右延伸,均值小于中位數與衆數,說明大數據多,大多數在平均值以上的水平,存在較小的離群值;

S<0,數據右偏,高峰向右偏移,長尾向左延伸,均值大于中位數與衆數,說明小數據多,大多數在平均值以下的水平,存在較大的離群值;

數據結論一般為,該地區收入存在極大值,貧富差距大;地區發展水平低,大多數人收入在平均值以下等等。

大家,理論看着枯燥,我們準備了一個偏度介紹的小視頻,給大家解解乏,幫助大家進行理解,大家如果感興趣的話,可以關注我們的微信公衆号進行觀看。

綜合應用場景:

接下來我們來看個實際的案例吧。

數據偏度:某地區随機50人的平均工資為

什麼用于描述正态分布的變異度(正态分布的應用)4

請分析該地區的收入水平與發展情況。

代碼計算過程

我們可以使用偏度來解釋收入水平等狀況,用python的計算過程如下。

import numpy as np

income=np.array([2589,2163,2126,3500,2268,1871,2050,1856,2572,1000,3932,2105,1652,2559,2741,1766,2705,2067,3800,2749,2020,6918,1350,1168,1245,1966,1080,915,1563,2307,2861,600,711,696,2261,3260,2219,2415,2877,2143,2564,172,951,1683,888,2880,4000,3500,1000,1250])

求平均數 income_mean=np.mean(income)

求中心距 center_dis=income-income_mean

求标準差 sigma=np.std(income)

求平均3階中心距 center_dis3=sum(np.power(center_dis,3))/len(income)

求标準差的3次方 sigma3=np.power(sigma,3)

求數據偏度 skewness=center_dis3/sigma3

print(skewness)#數據偏度為:1.424 偏度系數小于0,因此數據右偏

根據偏度的原理,S>0,數據左偏,高峰向左偏移,長尾向右延伸,均值小于中位數與衆數,說明大數據多,大多數在平均值以上的水平,存在較小的離群值;因此,我們可以得出結論,該地區篇幅差距較大,收入水平低的人居多,大多數人在平均收入以下,可以推測,該地區區域發展不均衡,并且發展水平較低,因為發展水平高的地區,大多數人應該在中等水平。

各位還沒有看懂的朋友,可以關注我們微信公衆号觀看視頻,那裡的解釋更加精彩。

本期分享到這裡,我們會在每周持續更新,咱們下期再見,期待您的光臨。

大家好,有什麼建議,比如想了解的知識、内容中的問題、想要的資料、下次分享的内容、學習遇到的問題等,請在下方留言。如果喜歡請關注。

什麼用于描述正态分布的變異度(正态分布的應用)5

海數據微信小程序

什麼用于描述正态分布的變異度(正态分布的應用)6

海數據微信公衆号二維碼

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved