tft每日頭條

 > 生活

 > 均值方差模型計算公式

均值方差模型計算公式

生活 更新时间:2024-11-23 18:27:50

今天是概率統計專題的第六篇,我們來看看方差相關的概念。

方差的定義

方差在我們的日常生活當中非常常見,它主要是為了提供樣本離群程度的描述。舉個簡單的例子,我們去買一包薯片,一般來說一袋薯片當中的數量是固定的。我們假設平均每袋當中都有50片薯片好了,即使是機器灌裝,也不可能做到每一袋都剛好是50片,或多或少都會有些誤差。而均值則無法衡量這種誤差。

如果現在有兩個薯片品牌,它們的口味都差不多,平均每袋也都是50片。但是其中A品牌的薯片有一半是80片,還有一半是20片。B品牌呢,99%都在45-55之間。你說你會買哪一個牌子呢?(在不考慮通過稱重的情況下)。

在現代社會,凡是工廠出廠的産品,基本上都離不開方差這個概念。方差越低,說明工廠的生産能力越強,能夠做到每一個産品都很精細,相反如果方差越大,則說明瑕疵很多,不夠精細。也就是說,方差衡量的是樣本距離均值的期望。

它本來應該寫成:E|X - E(X)|。

但是由于式子當中存在絕對值,我們通常會對它平方,從而将絕對值消掉。寫成:

均值方差模型計算公式(協方差與皮爾遜值)1

這裡的E表示期望,這是統計學當中的寫法,如果看不明白,我們也可以把式子展開寫成:

均值方差模型計算公式(協方差與皮爾遜值)2

這裡的N表示的是樣本數量,X bar 是樣本的均值。Var是英文variance的縮寫,我們也可以寫成D(X)。

由于方差是通過平方計算得到的,我們也可以将它進行開方,得到标準差。根号D(X),也可以寫成σ(X)。

方差的性質

關于方差有幾個著名的性質,如果X是變量,而C是常數。那麼:

均值方差模型計算公式(協方差與皮爾遜值)3

也就是對于每一個變量都乘上一個常數,那麼整體的方差擴大C的平方倍。這個很好理解,因為樣本值擴大了C倍,由于我們在計算方差的時候用到了平方,那麼自然就是擴大了C的平方倍。我們利用上面展開的公式代入可以很容易得到證明。

下一個性質是:

均值方差模型計算公式(協方差與皮爾遜值)4

也就是全體樣本加上一個常數,整體的方差不變。如果我們的樣本不是一個值,而是一個向量的話,那麼這個公式可以拓展成樣本加上一個常數向量,樣本的方差保持不變。這個也很好理解,樣本加上一個常數向量,相當于整體朝着向量的方向移動了一個距離,對于整體的分布并不會影響

如果某個樣本X的方差為0,那麼說明樣本内隻有一個值。

下面一個性質稍微複雜一點:

均值方差模型計算公式(協方差與皮爾遜值)5

也就是說方差等于樣本平方的期望減去樣本期望的平方,我們光從定義上很難得出這個結論,需要通過嚴謹的推導:

均值方差模型計算公式(協方差與皮爾遜值)6

在有些時候,我們直接求解樣本的方差不太方便,而求解平方的期望很容易,這個時候我們可以考慮使用這個公式進行代換。

方差與協方差

方差我們一般不直接在機器學習當中進行使用,更多的時候是用在特征分析當中,查看特征的方差來感知它的離散情況,決定要不要對特征進行一些處理。因為對于一些模型來說,如果特征的方差過大,那麼模型可能很難收斂,或者是收斂的效果可能會受到影響。這個時候往往需要考慮使用一些方法對特征值進行标準化處理。

除了方差之外,還有一個類似的概念也經常被用到,就是用來衡量兩個變量之間相關性的協方差。

協方差的公式其實和方差也有脫不開的關系,我們先來簡單推導一下。

首先,我們來看一下D(X Y),這裡X和Y是兩個變量,D(X Y)就表示X Y的方差,我們來看下D(X Y)和D(X)和D(Y)之間的關系。

我們可以來推導一下,根據方差的定義:

均值方差模型計算公式(協方差與皮爾遜值)7

這裡的N是一個常量,我們可以忽略,隻用來看分子即可。我們把式子展開:

均值方差模型計算公式(協方差與皮爾遜值)8

我們看下上面化簡之後的結果:

均值方差模型計算公式(協方差與皮爾遜值)9

在這個式子當中D(X), D(Y)都是固定的,并不會随XY是否相關而發生變化。但是後面一項不是,它和XY的相關性有關。

我們可以用這一項來反應X和Y之間的相關性,這就是協方差的公式:

均值方差模型計算公式(協方差與皮爾遜值)10

所以協方差反應的不是變量的離散和分布情況,而是兩個變量之間的相關性。到這裡,我們可能還不太看得清楚,沒有關系,我們再對它做一個簡單的變形,将它除以兩者的标準差:

均值方差模型計算公式(協方差與皮爾遜值)11

這個形式已經非常像是兩個向量夾角的餘弦值,它就是大名鼎鼎的皮爾遜值。皮爾遜值和餘弦值類似,可以反映兩個分布之間的相關性,如果p值大于0,說明兩組變量成正相關,否則則成負相關。我們可以通過計算證明p值是一個位于-1到1之間的數。

如果p值等于0,說明X和Y完全獨立,沒有任何相關性。如果p值等于1,說明可以找到相應的系數W和b使得Y = WX b。

結尾

在機器學習領域當中,計算兩組變量之間的相關性非常重要。因為本質上來機器學習的模型做的就是通過挖掘特征和預測值之間的相關性來完成預測,如果某一組特征和預測值之間是完全獨立的,那麼它對于模型來說就是無用的,無論我們選擇什麼樣的模型都是如此。

所以,我們經常會通過分析特征和label之間的皮爾遜值來衡量特征的重要程度,從而對特征進行取舍和再加工。如果單純隻看皮爾遜值和它的公式,很難完全理解和記住,而我們從方差入手,将整個鍊路梳理了一遍,則要容易得多,即使以後忘記了,也可以根據它們之間的關系重新推導。

今天的文章就到這裡,原創不易,關注我獲取更多文章。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved