文末領取【統計學思維導圖】
昨日文章→:數據運營案例:“無死角”複盤試運營項目
01 标準差(Standard deviation)
簡單來說,标準差是一組數值自平均值分散程度的一種測量觀念.一個較大的标準差,代表大部分的數值和其平均值之間差異較大,一個較小的标準差,代表這些數值較接近平均值.
例如:
兩組數的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其平均值都是7,但第二個集合具有較小的标準差.
公式:
标準差可以當作不确定性的一種測量.在物理科學中,做重複性測量時,測量數值集合的标準差代表這些測量的精确度.當要決定測量值是否符合預測值,測量值的标準差占有決定性重要角色.如果測量平均值與預測值相差太遠(同時與标準差數值做比較)
則認為測量值與預測值互相矛盾.這很容易理解,因為如果測量值都落在一定數值範圍之外,可以合理推論預測值是否正确.
标準差應用于投資上,可作為量度回報穩定性的指标.标準差數值越大,代表回報遠離過去平均數值,回報較不穩定故風險越高.相反,标準差數值越小,代表回報較為穩定,風險亦較小.
例如:
A,B兩組各有6位學生參加同一次語文測驗,A組的分數為95,85,75,65,55,45
B組的分數為73,72,71,69,68,67.
這兩組的平均數都是70,但A組的标準差為17.078分,B組的标準差為2.160分,說明A組學生之間的差距要比B組學生之間的差距大得多.
02
方差
兩人的5次測驗成績如下:
A:50,100,100,60,50 -->Average(A) = 72
B:73,70,75,72,70 -->Average(B) = 72
平均成績相同,但A不穩定,對平均值偏大.
方差描述随機變量對于數學期望的偏離程度.
方差公式:
可以看到方差是标準差的平方.
除了期望,方差(Variance)是另一個常見的分布描述量。如果說期望表示的是分布的中心位置,那麼方差就是分布的離散程度。方差越大,說明随機變量取值越離散。
比如射箭時,一個優秀的選手能保持自己的弓箭集中于目标點附近,而一個經驗不足的選手,他弓箭的落點會更容易散落許多地方。
上面的靶上有兩套落點。盡管兩套落點的平均中心位置都在原點 (即期望相同),但兩套落點的離散程度明顯有區别。藍色的點離散程度更小。
數學上,我們用方差來代表一組數據或者某個概率分布的離散程度。可見,方差是獨立于期望的另一個對分布的度量。兩個分布,完全可能有相同的期望,而方差不同,正如我們上面的箭靶。
對于一個随機變量XX來說,它的方差為:
Var(X)=E[(X−μ)2]Var(X)=E[(X−μ)2]
其中,μμ表示XX的期望值,即μ=E(X)μ=E(X)。
我們可以代入期望的數學表達形式。
比如連續随機變量:
Var(X)=E[(X−μ)2]=∫ ∞−∞(x−μ)2f(x)dxVar(X)=E[(X−μ)2]=∫−∞ ∞(x−μ)2f(x)dx
方差概念背後的邏輯很簡單。一個取值與期望值的“距離”用兩者差的平方表示。該平方值表示取值與分布中心的偏差程度。平方的最小取值為0。當取值與期望值相同時,此時不離散,平方為0,即“距離”最小;當随機變量偏離期望值時,平方增大。由于取值是随機的,不同取值的概率不同,我們根據概率對該平方進行加權平均,也就獲得整體的離散程度——方差。
方差的平方根稱為标準差(standard deviation, 簡寫std)。我們常用σσ表示标準差.
σ=Var(X)−−−−−−√σ=Var(X)
标準差也表示分布的離散程度。
01 正态分布的方差
根據上面的定義,可以算出正态分布:
E(X)=1σ2π−−√∫ ∞−∞xe−(x−μ)2/2σ2dxE(X)=1σ2π∫−∞ ∞xe−(x−μ)2/2σ2dx的方差為
Var(X)=σ2Var(X)=σ2
正态分布的标準差正等于正态分布中的參數σσ。這正是我們使用字母σσ來表示标準差的原因!
可以預期到,正态分布的σσ越大,分布離散越大,正如我們從下面的分布曲線中看到的:
當方差小時,曲線下的面積更加集中于期望值0附近。當方差大時,随機變量更加離散。此時分布曲線的“尾部”很厚,即使在取值很偏離0時,比如x=4x=4時,依然有很大的概率可以取到。
代碼如下:
# By Vamei
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)
rv2 = norm(loc=0, scale = 2)
x = np.linspace(-5, 5, 200)
plt.fill_between(x, rv1.pdf(x), y2=0.0, color="coral")
plt.fill_between(x, rv2.pdf(x), y2=0.0, color="green", alpha = 0.5)
plt.plot(x, rv1.pdf(x), color="red", label="N(0,1)")
plt.plot(x, rv2.pdf(x), color="blue", label="N(0,2)")
plt.legend
plt.grid(True)
plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])
plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")
plt.show
02 指數分布的方差
指數分布的表達式為:
f(x)={λe−λx0ififx≥0x<0f(x)={λe−λxifx≥00ifx<0
它的方差為:
Var(X)=1λ2Var(X)=1λ2
如下圖所示:
03 Chebyshev不等式
我們一直在強調,标準差(和方差)表示分布的離散程度。标準差越大,随機變量取值偏離平均值的可能性越大。如何定量的說明這一點呢?我們可以計算一個随機變量與期望偏離超過某個量的可能性。比如偏離超過2個标準差的可能性。即
P(|X−μ|>2σ)P(|X−μ|>2σ)
這個概率依賴于分布本身的類型。比如正态分布N(0,1)N(0,1),這一概率即為x大于2,或者x小于-2的部分對應的曲線下面積:
實際上,無論μμ和σσ如何取值,對于正态分布來說,偏離期望超過兩個标準差的概率都相同,約等于0.0455 (可以根據正态分布的表達式計算)。随機變量的取值有約95.545%的可能性落在正負兩個标準差的區間内,即從-2到2。如果我們放大區間,比如正負三個标準差,這一概率超過99%。我們可以相當有把握的說,随機變量會落正負三個标準差之内。上面的論述并不依賴于标準差的具體值。這裡可以看到标準差所衡量的“離散”的真正含義:如果取相同概率的極端值區間,比如上面的0.0455,标準差越大,該極端值區間距離中心值越遠。
然而,上面的計算和表述依賴于分布的類型(正态分布)。如何将相似的方差含義套用在其它随機變量身上呢?
Chebyshev不等式讓我們擺脫了對分布類型的依賴。它的叙述如下:
對于任意随機變量X,如果它的期望為μμ,方差為σ2σ2,那麼對于任意t>0t>0,
P(|X−μ|>t)≤σ2tP(|X−μ|>t)≤σ2t
無論X是什麼分布,上述不等式成立。我們讓t=2σt=2σ,那麼
P(|X−μ|>2σ)≤0.25P(|X−μ|>2σ)≤0.25
也就是說,X的取值超過兩個正負标準差的可能性最多為25%。換句話說,随機變量至少有75%的概率落在正負兩個标準差的範圍内。(顯然這是最“壞”的情況下。正态分布顯然不是”最壞“的)
繪圖代碼如下:
from scipy.stats import norm
import numpy as np
import matplotlib.pyplot as plt
# Note the difference in "scale", which is std
rv1 = norm(loc=0, scale = 1)
x1 = np.linspace(-5, -1, 100)
x2 = np.linspace(1, 5, 100)
x = np.linspace(-5, 5, 200)
plt.fill_between(x1, rv1.pdf(x1), y2=0.0, color="coral")
plt.fill_between(x2, rv1.pdf(x2), y2=0.0, color="coral")
plt.plot(x, rv1.pdf(x), color="black", linewidth=2.0, label="N(0,1)")
plt.legend
plt.grid(True)
plt.xlim([-5, 5])
plt.ylim([-0.0, 0.5])
plt.title("normal distribution")
plt.xlabel("RV")
plt.ylabel("f(x)")
plt.show
03 MAD絕對中位值
中位數:統計學名詞,是指将統計總體中的各個變量值按大小順序排列起來形成一個數列,處于變量數列中間位置的變量值就稱為中位數.
MAD:就是先求出給定數據的中位數(注意并非均值)然後原數列的每個值與這個中位數求出絕對差,然後新數列的中位值就是MAD
例如:
數據A:8,5,9,6,3,2,4,9 2,3,4,5,6,8,9
中位數 = 5
A - 5 = 3,0,4,1,2,3,1,4 0,1,1,2,3,3,4
MAD = 2.
04
總結
我們引入了一個新的分布描述量:方差-->它用于表示分布的離散程度.
标準差為方差的平方根!!!
方差越大,“極端區間”偏離中心越遠!!!
End.
作者:Climber
來源:博客園
本文為轉載分享,如侵權請聯系後台删除
長按海報添加微信領取【統計學思維導圖】
球分享
球在看
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!