在科學或醫學領域,幾乎每一個重大的新發現的背後,都藏着這樣一個問題:是什麼讓我們确信結果足夠可靠?從技術上來說,答案與統計顯著性有關,但事實上,它也與判斷标準在某種特定情況下是否合理有關。
在談論統計顯著性時,通常使用的是标準差,以小寫希臘字母σ表示。這個術語讨論的是一個給定數據集中變化性的大小,換句話說,它反映了數據點是都聚集在一起的,還是非常分散的。
在許多情況下,實驗的結果會遵循正态分布。例如,如果你把一枚硬币擲100次,然後數一數正面出現多少次,會發現平均來說答案應該是50次。但是,假設你真的進行了1000組這樣的“百次擲硬币”測試,在大多數情況下,每組測試中可能會出現50次左右的正面,但不一定是正好50次。可能有差不多的組擲出了49次正面和51次正面的情況,或許還有不少組擲出了45次或55次正面的情況,但可能很少出現隻有10次正面或者多達90次正面的情況。
這1000組測試結果可以構成一個你可能非常熟悉的形狀——它中間最高,越往兩邊越來越矮,這條曲線也被稱為鐘形曲線。這就是正态分布。
差(deviation)是給定數據點與均值(μ)的距離。在上面的擲硬币例子中,擲出47次正面與均值50次之間的差就是3。在計算上,标準差σ就是所有差的平方的平均數的平方根。在距離正态分布曲線的均值一個标準差(±1σ)的位置畫出一片區域,就能定義一個包含約68%的數據點的範圍;如果擴大至兩個标準差(±2σ),則将包含約95%的數據點;如果是三個标準差(±3σ),則将範圍擴大到了約99.7%。
什麼時候某個特定的數據點(也就是研究結果)能被認為是顯著的呢?标準差可以提供一種标準:如果一個數據點與被測試的模型有數個标準差之遠,這就是一種有力的證據,證明這一數據點與該模型不一緻。然而,要如何運用這種标準則要視情況而定。
麻省理工學院John Tsitsiklis教授說:“統計學是一門藝術,有很大的創造空間,也有很大的錯誤空間。”這門藝術的關鍵之一,就是決定對于給定的條件,什麼樣的測量方法是有意義的。
例如,如果你要對人們将計劃如何在選舉中投票一事進行民意調查,公認的慣例是,高于或低于均值的兩個标準差(95%置信水平)是合理的。這意味着,如果你向所有人調查了一個問題并得到了一個确定的答案,然後向随機抽樣的1000人詢問同樣的問題,那麼有95%的可能,第二組的結果會落在距第一次結果2σ的範圍内。
但反過來說,這也意味着有5%的情況,結果會超出2σ的範圍。這樣的不确定性對民調來說是可以接受的,但對于一項關鍵的實驗結果來說,尤其是那種挑戰了科學家對一個重要現象的理解的結果,情況可能又不一樣。
2011年秋天,歐洲核子研究中心(CERN)的一項實驗宣布,可能探測到了中微子的運動速度超過光速的現象。從技術上講,這個實驗的結果有着極高的置信水平——6σ。在大多數情況下,5σ已經被認為是顯著性的黃金标準,那相當于這一發現是随機變化的結果的概率,隻有百萬分之一;而6σ則基本上在說,隻有五億分之一的概率,這一發現是随機的僥幸結果。
但是,這項實驗結果意味着,一個世紀以來被廣泛接受的物理學,且已經在之前的數千種不同實驗中得到證實的物理學,将有可能被推翻。對這樣一項具有如此颠覆性的實驗來說,6σ的結果還遠遠不夠好。并且,要接受這一結果的一個大前提是假設研究人員已經正确地進行了分析,且沒有忽略系統性的錯誤來源。事實證明,正如大多數物理學家所認為的,正是一些被忽視的錯誤來源,才導緻出現了如此出乎意料的“革命性”結果。
同樣在2011年,CERN還宣布了另一項可能的探測結果,被稱為希格斯玻色子。這是一種理論預測的亞原子粒子,它能幫助解釋粒子為什麼有質量。雖然當時的探測結果隻有2.3σ的置信水平看,但是這一結果符合基于當前物理學的預期,盡管在統計上的置信水平要低得多,但大多數物理學家從一開始就對它很有信心。
在其他一些領域,情況可能更為複雜。不少人認為,統計學真正棘手的地方是社會科學和醫學。例如,2005年,一篇題為《為什麼大多數發表的研究結果都是錯誤的》論文指出,如果能夠以足夠多的方式去研究大型數據集,就能很容易地找到符合統計顯著性的通常标準的例子,即便它們實際上隻是随機變化。如果一台計算機浏覽了數百萬種可能性,即使結果看似達到了5σ的顯著性水平,一些滿足标準的随機模式仍然可能被發現。
當這種情況發生時,研究人員不會發表那些沒有通過顯著性檢驗的結果,而是選擇發表一些随機相關性,這樣反而會讓人覺得是收獲了真實的發現。所以最終發表的其實隻是僥幸。
其中一個例子是,過去十數年發表的許多論文都聲稱,某些行為或思維過程與磁共振成像(MRI)捕捉到的大腦圖像之間存在着顯著的相關性。但有的時候,這些測試發現的顯著相關性,其實隻是系統中自然波動的結果,也就是噪聲。2009年,一位研究人員“重複”了其中一個關于面部表情識别的實驗——他掃描了一條死魚,并發現了“顯著”的結果。
Tsitsiklis說:“如果你在足夠多的地方尋找,你就會得到這樣一個‘死魚’的結果。”相反在許多情況下,統計顯著性較低的結果仍有可能“告訴你一些值得研究的事情”。
符合公認的“顯著性”定義,并不一定就意味着它就是“顯著”的,這完全取決于整個故事的背景。
參考來源:
https://news.mit.edu/2012/explained-sigma-0209
來源:原理
編輯:dogcraft
1. 2. 3. 4. 5. 6. 7. 8.
10.
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!