我們常常在科研論文的數據分析部分或者某些科普文章引用的資料當中見到涉及P值的統計學報表以及相關的顯著性判斷。非專業讀者看到這些關于P值和"顯著性"的描述往往是一頭霧水(如下表),大多略過,但實際上這些統計結果才是一篇論文中最準确直接的定性結論。了解了P值的含義和顯著性的判定,可以幫助我們快速掌握科研論文中第一手研究數據的指向和意義。
一個p值統計報表的例子
P值往往涉及統計結果顯著性的判定,因此我們得從顯著性的概念說起。本文将用通俗的文字來簡介相關的統計學概念,并附上P值的計算方法。
任何理論(或認識)都沒法保證其關于現實的推測是100%正确的,這歸因于理論永遠都隻是對現實世界真相的大緻概括和特征提取。理論隻能無限趨近于真實,但無法達到真實。人類利用的僅僅是越來越接近真相的理論而已。
所以對于任何說法,都有一個可信度問題。而通過對于現實的重複測試,我們将能夠了解某個說法究竟有多可信,不同的說法之間是存在着可信度的差異的。這就像是盲人摸象之後,每個盲人說出的有關大象外形的可信度是有差别的,而且隻要讓盲人們多摸幾次,他們對大象長相的描述會越來越接近真實。
了解不同觀點的可信度,是統計的目的之一。統計中所謂的"顯著性"就是可信度的一種指标。
具有統計顯著性的結果反映的是經過嚴格的測試得到的結果達到了一定可信度——專業術語叫"置信度"(又叫“置信水平”),它表明我們在多大程度上相信結論不會因随機因素而發生偏差。更具體地說,置信度是我們所持理論預測出來的結果在指定區間出現的可能性。
顯著性跟置信度的内涵異曲同工,但它們的表述方法剛好相反,且在應用中描述方式略有差異:
· 對于置信度一般我們會說"……實驗結果落在某個置信區間的可能性可以達到多高……"(這個可能性越大置信度就越高)
· 而對于顯著性我們會說"……我們的理論假設被否定的可能性小于多少,我們的假設就可以被稱為顯著或者極顯著……"(這個可能性越小顯著性越高)
也就是說,置信度通常是正面描述(拒僞的),而且通常需要與一個置信區間關聯起來。而顯著性則是反面描述(拒真的),而且通常需要與一個預設的判斷門檻值聯系起來。
顯著性與置信度(置信水平)的關系
P值和零假設統計學使用P值來代表前面提到的"理論假設被否定的可能性"。科學研究往往會選取與理論提出的假設相對的情況作為"證僞對象"——即嘗試證實"這種與我的觀點相對的假設"不大可能發生,這種用來當"靶子"的假設在統計學中被稱為"零假設"(又叫"原假設",或者"虛無假設",通常用H0表示,英文Null Hypothesis),通俗地說即:靶子被打倒,研究即成立。
所以,P值通常被用于在假設檢驗中描述某理論假設的有效性,通常理論的反面會被設為"零假設"。例如:我認為"讀者閱讀完本文的耗時大于10分鐘",其零假設便是"……讀完本文的耗時小于10分鐘"。因此我們隻需要證明零假設發生幾率相當小,那就可以說明我的說法是可信的。反之,隻要證明我的說法的發生幾率大到某個程度也可以證明我的理論。
但統計學上往往采用否定零假設的方式來斷言某個說法的可靠性,而不是倒過來。因為概率論認為"小概率事件"在單次測試時幾乎是不可能發生的。因此隻要證明零假設是小概率事件就可以肯定對立假設了。這或許是統計分析往往采用否定零假設的方式來做置信度判定的原因。
于是我隻需要真實地調查足夠多的讀者閱讀本文的真實耗時,就可以算出P值。P值是一個概率,取值在0和1之間,即絕對可能和絕對不可能之間。因此,如果P值為5%,則置信度就是95%(兩個加起來=1),這反映出我的說法跟現實的關聯顯著性較高,因此較為可信。
顯然,如果零假設("……耗時小于10分鐘")的發生可能性很低,即是個小概率事件,那麼與之相反的對立假設("……耗時大于10分鐘")的發生可能性就很高。小概率事件在單次測試當中幾乎是不可能發生的,因此可以等同認為我的理論的單次斷言是完全可信的(但不能說我的理論的全部斷言都是可信的)。
零假設與對立假設就像在輪盤上猜滾珠落到黑格與紅格的關系
P值是一個概率,是一個數,因此它可被用于衡量實驗證據對結論的支持強度,并以下面的方式來做顯著定性分析。确定統計顯著性有三種主要方法:
· 如果進行的檢驗得到的P值小于預設的α水平,則這個測試具有統計學顯著性。
· 如果置信區間不包含零假設的值,則檢驗結果具有統計顯著性。例如置信區間
· 如果您的P值小于α,在置信區間上不存在零假設的值,因此具有統計顯著性。(這是将前兩點綜合起來的推論)
注意:α值是人為預設的一個标準。根據經驗慣例,α值通常取0.05作為顯著性的判定标準,取0.001作為極顯著的判定标準,也就是說。
· 較小的P值(通常≤0.05)表示實驗結果是零假設不成立的有力證據,因此零假設可以比較可信地推翻。
· 較大的P值(> 0.05)表示反對零假設的證據不充分,意味着零假設成立的幾率偏大。
· 極接近臨界值(0.05)的P值被認為是邊際性的(這有點信不信由你的味道)。
P-值的圖示解釋
上圖:概率及統計顯著性示意。縱軸是觀察的概率,橫軸是結果可能的取值。
例如,我剛在"餓了嗎"上點了一份餐,餓了嗎估算的送達時間是30分鐘,但我堅持認為通常30分鐘内都送不到。所以我可以進行一次假設檢驗,因為我認為"送達時間在30分鐘以内"的零假設是不正确的,因此我的對立假設是"送達時間大于30分鐘"(也就是說會遲到,要知道送餐遲到餓了嗎就要賠優惠券,哈哈)。
為了證實我的觀點,我每天都點這同一家餐館,并實測每次送達所花的時間。在獲得了大量的樣本數據之後,我計算了樣本的P值,假設P值是0.001(遠小于0.05),這意味着,我關于"送餐會遲到的判斷會是錯誤的"的可能性大概是0.001,或者說我判斷錯誤的可能性遠小于0.05這個"統計學顯著性的經驗門檻值"。因此,我基本上可以相信餓了嗎自動估算的時間是錯的,這樣一來餓了嗎每次都應該給我賠償優惠券。
但現實中這隻是我的癡心妄想,基本上沒可能,因為餓了嗎公司的開發人員可沒有那麼傻。他們一定會根據每次送餐的送達時間的統計情況,不斷刷新它們的估算公式,以确保他們估算結果的P值<0.05,甚至更低。餓了嗎APP搜集的大數據會确保在絕大多數時間,送餐人員的的遞送時間都不會超時(當然他們的算法可能會更複雜,統計學結論可能隻是其中的一部分)。
餓了嗎的超時賠付政策背後是有統計學顯著性支持的
如何對待統計學顯著性對某項研究的意義?置信度會因為一個重要的原因而降低——抽樣誤差,它是數據扭曲的常見原因。顯然,如果你研究基于的是有缺陷的數據,結論肯定不會正确。
例如,你希望調查大衆最喜歡的食物。但是您跑到麥當勞去調查,那麼結果可能是最喜歡吃牛肉漢堡;但如你跑到素餐廳去調查,結果就大不相同了。這就是一個被誇大了的抽樣誤差問題。但所有的抽樣都會存在抽樣誤差,隻是誤差大小區别而已。因此,統計上的顯著性并不一定能保證客觀上是正确的。這就是我們經常發現一些貌似數據很有說服力的論文的結論被其他同類研究推翻的原因之一。
在科研領域,統計顯著性往往并不能完全斷言研究人員的假設就是100%正确的,但往往能夠告訴研究人員他的假設是有一定可信的事實基礎的,值得進一步研究。
這個部分是寫給有興趣了解在統計學上P值是如何計算的讀者的。如果您隻是想粗淺地了解下P值和統計學顯著性的概念,那麼後面的内容就可以略看或者不看了。
計算并确定統計顯著性有點複雜,往往實用中會用一些軟件工具來計算,例如IBM的SPSS或者開源的Jamovi,這兩者都是統計學分析工具。此外,網上還有一些在線計算器,主要有Z測試計算器和T測試計算器之類,專用于做顯著性相關統計學評分的計算。
我在這裡會介紹如何手工計算統計顯著性 ,這裡是采用t分數來獲取P值:
步驟1:設定零假設和對立假設先指出哪個是零假設(H0)。在科研中,零假設通常會被設定為實驗措施無效,這意味着實驗失敗,也就是研究人員希望通過實驗否定的那個假設。
零假設确定之後,對立假設(Ha)也就确定了——對立假設與零假設在邏輯上互否。在科研中,對立假設通常是說科研需要證實的那個措施,這意味着實驗成功或者具有進一步研究意義。
例如,假設我們研究某種藥物對病人的有效性。我們的零假設将是:"這種藥物對病患完全沒有影響。" (既沒有正向的影響,也沒有負向的影響)
但通常測試藥物是否有效是通過"實驗組"樣本與"對照組"樣本的差别來确定的。對照組通常會給予"安慰劑",這相當于沒有服藥(但是對照組的病人并不知道自己是否服用了有效的藥物)。
如果實驗組的結果與對照組沒有差異,則表示藥物無效。所以零假設可以轉設為 "實驗組和對照組沒有差異"。因此,隻要我們通過統計分析否定這個零假設,即可得出支持藥物有效性的結論。
對照組
步驟2:選取α值我們需要設定一個顯著性門檻的級别,即前述α值,确切的說其含義是:某假設被認為可信時零假設可能成立的概率(這可能有點繞)。
通常α值選取為0.05(即5%)作為顯著性的門檻,但不同實驗敏感度要求不同。在某些領域的研究當中,可以提高顯著性的門檻,諸如藥物測試或精密儀器制造等等,對于這些領域,可能選取0.01更為合适。
由于置信度= 1-α(%),因此如果α值為0.05,那麼達到此門檻的測試統計結果置信度就為95%。
阿爾法值和雙側或單側測試的示意
步驟3:單側(one-tail)或雙側(two-tail)測試(在某些資料上也被稱為one-side或two-side測試)
在獲取P值之前需要确定采用單側測試還是雙側測試更恰當。
· 單側測試在一個方向上檢查兩組對象數據之間的關系,例如藥物使病人病情改善;
· 而雙側測試從正反兩個方向上進行測試,例如藥物使病人病情改善或者惡化。
如果您不确定結果會朝哪個方向發展,那麼采用雙側測試也是OK的。
單側或者雙側的選項在最後我們在t值表上查詢p值的時候需要用到。
步驟4:确定樣本數接下來,确定樣本數滿足統計需要。
實際上這是一個先決條件,必須在實驗測試之前或者在實驗後處理數據之前确定我們至少需要獲得多少樣本才能确保置信度或者顯著性能夠到達期望的顯著性标準。因為在實操當中往往有些樣本因為無效而被排除,這很可能導緻樣本數達不到要求,因此在完成實驗之後進行數據處理的時候也需要重新核實樣本數滿足下限要求。
确定樣本數下限,我們需要進行統計功效分析。如果樣本數太少會使置信度(或者顯著性)不足,造成假陰性的結論,而樣本數太多則會增加統計的實施成本,費了力卻讨不到多少好。一般來說,統計功效越高假陰性的可能性就越低。
功效分析包括四個主要部分:
· 效應量,它告訴我們結果在被統計群體中的影響力大小,如果效應不足,即便顯著性達标也不能說明結果的實用性;
· 樣本數量,它告訴我們樣本中有多少個觀測值;
· 顯著性水平,即α值;
· 統計功效,即我們接受對立假設的概率;
許多實驗均采用80%的典型功效(或1-β,β稱為假陰性率),進行分析。這個值也隻是人為确定的經驗值,可以根據需要更改。進行功效分析可讓我們知道在指定的置信區間上達到統計顯著性所需的樣本數量,即通過指定β值和α值求出必要的樣本數。
由于統計功效計算相對複雜,一般會利用工具軟件進行計算。
α值和β值實際上對應兩類統計錯誤
上圖:兩類統計錯誤。
足夠的樣本數就是為了盡量規避β錯誤。
步驟5:計算标準差标準差 s (有時也寫成 σ,全稱是"标準偏差")可以讓我們知道數據的分散程度(越大越分散)。這是統計學上最常用的概念,其計算也不複雜。
樣本标準差公式為:
在這個方程式中
· s 是标準偏差
· ∑ 是求和的意思
· xi 是每個單獨的數據
· 帶上劃線x 是每組數據的平均值
· n 是總樣本數量(這裡用n-1而不是n是為了降低系統誤差,在描述性統計中會采用n而非n-1作為标準差計算;當n趨近無窮大時,這兩種計算方法的結果會趨近)
步驟6:計算标準誤差(注意标準偏差和标準誤差的差别)
在上一步我們已經求得了兩個标準差,接下來我們需要求兩組數據的标準誤差。計算公式如下:
公式中:
· SE 是兩組樣本之間差别的标準誤差
· σ1 是第一組的标準差
· n1 是第一組的樣本數量
· σ2 是第二組的标準差
· n2 是第二組的樣本數量
步驟7:求t分數t分數是用于度量估計值(或稱為一組待驗數據)與已知參考值(或稱為另一組參考數據)之間的平均偏離程度相對于其标準誤差的比例,這個程度可以告訴我們兩組數據是否顯著不同。計算t分數的公式是
其中:
· t0是計算得到的分數
· 上劃線x1-x2兩組數據平均值之差
· SE是兩組數據的标準誤差
步驟8:确定自由度自由度(dF)即每組變量可以有多少個值可以選擇用于分析。若兩組樣本進行比較,那麼應該用兩組樣本數相加并減去二(實際上應該嚴格描述為各組樣本數減一再相加)。
例如:如果有兩組數據一組有10個樣本,另一組有20個樣本,那麼第一組的自由度是9,第二組的自由度是19,兩組一共有28個自由度。
步驟9:使用T表查找P值因為小樣本量的随機測試均值的分布不是正态分布,而是T分布。因為T分布的計算函數比較複雜,所以一般通過查t值表來獲得P值。
下面是一個t值表:
假設我們的實驗采用單側測試,兩組數據總共有28個自由度,計算出來的t值是3.5左右。
1. 我們首先在最左側df(自由度)一列查找,找到自由度為28那一行;
2. 然後再此行搜索我們的t值,我們可以發現大概是在左側兩列的數值(3.408-3.674)之間;
3. 在這兩列頂部one-tail(單側)一行查看對應的p值為0.001到0.0005之間。
根據這個p值我們即可判斷,我們測試的兩組數據的差異極其顯著。
總結通過本文了解了P值和統計學顯著性的涵義之後,讀者可以在今後閱讀科研論文時嘗試理解其中涉及統計學顯著性的數據的内容。
而對于某些有數據分析能力但對統計學假設測試分析尚不太熟悉的讀者(包括某些統計應用程序的開發者),希望這部分讀者通過本文了解了P值的算法之後,可以大概理解求取P值的統計學思路,以便在自己的工作中逐步嘗試理解更多的統計學細節(當然具體計算還是推薦采用計算工具哈)。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!