本期我們來簡單了解一下均值(mean)和方差(variance)這兩個概念,同樣我們會在西格瑪運算這一背景之下來進行說明。
均值(mean)
在這個等式的左側使用符号來表示均值,其右下側的x表示一個集合,故所表達的是集合x中所有數之和的均值。通過等式右側的表達式可知,在集合x中有n個數,集合x的所有數之和表示為
,即
的計算結果,因此其均值為所有數的總和除以數字的個數n。
我們舉一個簡單的例子來看一下,假設有一個集合A,該集合中有三個實數如下:
A={1,5,12},其集合A的絕對值為|A|=3,說明該集合有三個實數。
集合A的均值計算過程為:
,因此=6。
在了解均值的基礎上,我們延伸到另外一個概念——均值中心化,簡單來說,可以理解為将我們所計算出的當前均值作為中心點(“0”)來看待。例如當集合A的均值“6”作為中心點來看的話,相應的集合A的所有數字均需相應地進行位移。
均值中心化這一概念會在線性回歸中應用到,對于數據分析也是很重要的一個技巧,在之後相關的内容中,我們會進一步介紹。
至于為何要提出均值這一概念,我們可以這樣去理解,如果遇到一個體量非常大的數據集合,均值或許是我們能總結該數據集信息的最簡單方式,畢竟這個均值是可以給我們提供一定的信息的。
方差(variance)
雖然均值在一定程度上可以提供關于數據集的信息,但并不總是如此。例如,以下兩個集合:
A={1,5,12},B={5,6,7}
和經計算後,兩個集合的均值都是6,但實際上兩個集合是不一樣的,因此我們也需要其他的判斷方式或工具來幫助我們進行數據集的區分。
如果在實數軸上來看這兩個集合,會發現集合B的延展性更大。
如何知道其延展性具體是多少,我們可以通過方差來進行對比。
等式左側用表示集合X的方差,右側表達式取集合X中每個數與均值差的平方之和,最後除以集合X所有數的個數或其絕對值n。
這裡為何使用集合X中各個數字與均值差的平方,是考慮到差會有負數的情況,例如在集合A中,均值左側的數字1和5與均值相減得到就是負數,而我們實際要知道的是該數與均值之間的距離,通過平方就可解決這一問題。
根據以上等式,我們來計算一下所給的兩個集合A和B的方差。
比較之下,集合A的方差遠遠大于集合B,從而也印證了在實數軸上它的延展性更大。盡管兩個集合的均值相同,但是其方差或标準差不一樣,這對于我們在進行數據分析時是個很好的判斷工具,比較兩個數據集的差别。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!