tft每日頭條

 > 生活

 > 均值方差的性質

均值方差的性質

生活 更新时间:2024-11-23 10:08:32

原作始發于 廣東科學中心 官方微信公衆号

均值方差的性質(如虛如實說你能确定嗎)1

《指南針與均值》(廣東科學中心「院士說」| 指南針與平均值)一文介紹了均值。不過均值隻描述了數組的平均趨向,不能說明數組的差異。

例如:

數組“1,2,3”的均值是:

數組“0,1,5”的均值也是:

我們怎樣區别出這些數組的差異呢?這就需要方差了。

方差這一術語最早是由羅納德·費雪(Ronald Fisher,1890—1962)提出的。費雪出生于英國倫敦一個富商家庭。他是家中的幼子,小時候最受父母和哥哥姐姐們的寵愛。然而在他14歲的時候母親突然病故,接着父親的生意失敗,全家不得不從倫敦最好的區域搬到了最差的區域。他頂着這些突如其來的壓力,在哈羅公學(Harrow School)赢得了他的第一個獎學金。費雪視力很差,不能在電燈下久讀。因此他常常閉着眼睛用心算來解決他最喜歡的數學問題。1909年,費雪考入劍橋大學并獲得獎學金。

均值方差的性質(如虛如實說你能确定嗎)2

圖1, 年輕時的羅納德·費雪

1918年,他在自己的一篇論文中第一次提出了方差(variance)的概念。他說在分析變異時既要考慮均值的差别,也要考慮均值偏差的平方值,這就是方差。

假定兩個數組的差值為:

那麼均值是:

方差是:

這裡“n-1”稱為自由度(degree-of-freedom)。因為在計算均值χ時,所有的數據都已經被使用了一次了,在計算方差時再使用這些數據,隻有n-1個數據是獨立的。因此自由度是n-1。否則計算就會有誤差。在上面的例子中,數組“1,2,3”的方差是1;數組“0,1,5”的方差是7。

在數據分析時,方差非常重要。在上面的例子中,兩組數據的均值都是2,但方差不同(圖2)。方差大,結果可信度就低。

均值方差的性質(如虛如實說你能确定嗎)3

圖2,方差小(黃色曲線)與方差大(藍色曲線)的區别

1919年,費雪在英國古老的洛桑農業實驗站(Rothamsted Agricultural Experiment Station)找到一份穩定的工作。一天,費雪有禮貌地為他女同事穆裡爾(Muriel Bristol)沖了一杯奶茶。穆裡爾搖搖頭說不喝。費雪覺得奇怪就追問為什麼。穆裡爾說她隻喝先沖好茶再放牛奶的奶茶,而費雪先放了牛奶再加茶,順序錯了,味道不好。費雪認為牛奶先放後放,攪拌一下就是一樣的了,沒有區别。穆裡爾堅持說她能分辨出來。這時,穆裡爾的男友來了,他建議做個實驗。于是,費雪沖了8杯奶茶,4杯先沖茶再放牛奶,4杯先放牛奶再沖茶。他把這8杯奶茶随機地給穆裡爾品嘗,穆裡爾正确地分辨了所有的奶茶。費雪嘟囔着說這是不可能的,但也隻好認輸。

今天我們知道,牛奶中的蛋白和脂肪是憎水的,在熱水的作用下會蜷曲起來生成小滴。但其中的乳清蛋白會在71℃左右分解,改變性質,發出焦糖的味道。當牛奶被倒進滾燙的熱茶裡時,飛濺而下的牛奶會快速分裂和分離,并浸潤在熱茶之中,進而導緻大量的乳清蛋白分解。相比之下,将熱茶倒進牛奶中,牛奶的表面會阻止了牛奶的分裂,從而最大限度地減少乳清蛋白的分解,因此也就沒有了焦糖的味道。

費雪回去後做了一個估算,要憑運氣準确地分辨出8杯奶茶的概率隻有70分之一(你可以推算出來嗎?)。所以穆裡爾應該是能辨别出奶茶的味道。接着,他又計算出要憑運氣在8杯奶茶中正确地分辨出6杯奶茶的概率是四分之一。不過此時辨别能力的置信度(confidence level)也打了折扣。費雪還想到了許多其他情況,如數據太少、品嘗奶茶的順序等等。

在過後的幾個月裡,他做了大量的奶茶實驗和計算,并取得了突破性的成果。1921年,他提出了可能性(Likelihood)的概念。接着,他寫了兩本書:《研究人員的統計學方法》(Statistical Methods for Research Workers)和《實驗設計》(The Design of Experiments)。在《研究人員的統計學方法》一書中,費雪定義了統計學的三個目标:

  • 确定數據的采樣空間(population);
  • 确定數據的分布(distribution)。
  • 決定估計值(如均值、方差等統計值);

書中還定義了一個以他的姓氏的第一個字母命名的概率分布F-分布。今天,這個分布是統計學中最常用的分布之一。

《實驗設計》一開始就講述了奶茶實驗。接着講述了好幾種實驗設計的方法。其中一個是用一個二值的指标X = {0,1}來預測一個二值的結果Y = {0,1}時會發生四種情況:

  • X = 0, Y = 0 (結果為陰性,預測也為陰性,真陰性,預測準确);
  • X = 0,Y = 1 (結果為陽性,預測為陰性,假陰性,預測錯誤);
  • X = 1,Y = 0 (結果為陰性,預測為陽性,假陽性,預測錯誤);
  • X = 1,Y = 1 (結果為陽性,預測為陽性,真陽性,預測準确)。

假定這四種情況的概率如下表

均值方差的性質(如虛如實說你能确定嗎)4

那麼預測的精度就是:

預測的敏感度是:

預測的特異度是:

這三個指标都十分重要的,敏感度描述找出真陽性的概率,特異度描述找出真陰性的概率,缺一不可。例如,用發燒(X)來預測Covid-19病毒感染(Y), 被病毒感染的未必發燒(FN),所以敏感度會不好。另一方面發燒的未必是由于病毒感染(FP),所以特異度也不好。

1933年,費雪回到劍橋大學,接替著名的統計學家卡爾·皮爾森(Karl Pearson,1857—1936)任講座教授。皮爾森發明了相關系數(correlation coefficient)。他還在倫敦大學建立了世界上第一個統計學系,堪稱統計學之父。但他曾經撰文批評過年輕的費雪。費雪一直耿耿于懷。費雪在劍橋大學的時候,卡爾·皮爾森的兒子埃貢·皮爾森(Egon Pearson,1895—1980)也在劍橋大學任講座教授。埃貢·皮爾森發明了假設檢驗(Hypothesis Testing)的方法,是著名的統計學家。費雪和他的關系也不好。

1957年費雪從劍橋大學退休。1959年閑不下來的他去了澳大利亞工作。1962年在那裡去世。他是研究統計學的,知道吸煙與癌症的關系。但卻一直酷愛抽他的煙鬥,最後死于癌症。

均值方差的性質(如虛如實說你能确定嗎)5

圖3 晚年的羅納德·費雪

1959年,費雪的二女兒與埃貢·皮爾森的博士研究生喬治·巴斯(George Box,1919—2013)結婚。1960年,他們搬到了美國。巴斯在威斯康辛麥迪遜大學任教,是著名的統計學家。

我的恩師吳賢銘教授(Shien-Ming Wu,1924—1992)師從巴斯。所以,費雪和皮爾森都是我的曾祖師。


撰文:杜如虛

排版&編輯 | Mosh魔時

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved