1.基本思想
我們還是從問題開始讨論。這回提個接地氣的問題——雄安新區批複前後對該地區房價是否有差異?嗯,假設檢驗其實就是為了解決這類問題。假設檢驗的基本思想——我們有樣本,但是無法獲得總體,需要對總體的分布形式或分布參數事先作出某種假設,然後根據樣本觀測值,運用統計分析的方法來檢驗這一假設是否正确。分解開來,假設檢驗=假設 檢驗(或者假設檢驗)。假設(hypothesis)——對總體的參數的具體數值(或分布形式)所作的陳述(總體參數包括總體均值、比例、 方差等,分析之前必需陳述)。假設檢驗(hypothesis test)—先對總體的參數( 或分布形式) 提出某種假設,然後利用樣本信息判斷假設是否成立的過程(有參數檢驗和非參數檢驗;邏輯上運用反證法, 統計上依據小概率原理)。如圖。
2.原假設和備擇假設
從前面的介紹我們知道,假設檢驗的第一步是建立假設。那麼假設分為兩種(原假設和備擇假設)。那麼這二者具體又是什麼呢?
總結起來就是,原假設是統計學史上最悲催角色——它從一開始誕生,就是為了被科學家們發好人卡拒絕而存在的一個假設。備擇假設才是科學家們追求的白富美。搞明白了這兩個假設,下一步我們做假設檢驗的時候,就要先提出假設了,這裡給了一些提出假設的要點:
同時在實際應用中,我們有不同的需求,因此又有雙側檢驗和單側檢驗的區分。
原假設與備擇假設形式:
所見即所得,用一張圖來表示假設檢驗過程。
所以拒絕原假設的理由是假設檢驗中的小概率原理。那麼什麼是小概率?
所以拒絕H 0 H_0H0的理由就是
3.第一類錯誤和第二類錯誤
上文介紹了假設檢驗的過程,但是假設檢驗過程會不會出現錯誤呢?其實大家仔細分析拒絕原假設的理由就會發現問題了。通常情況下原假設是小概率事件,但是小概率事件≠0概率事件。小概率事件不是不發生,而是發生概率較小。就像天氣預報說明天有99%的可能不下雨,結果1%的可能性成為了事實,明天下雨了。因此假設檢驗中會有兩類錯誤(棄真錯誤和取僞錯誤)經常出現。(1)第一類錯誤(棄真錯誤):
(2)第二類錯誤(取僞錯誤):
α和β的關系——α和β的關系就像翹翹闆, α小β就大,α大β就小。所以兩類錯誤不可能同時發生(第一類隻在H 0 H_0H0為真時發生,第二類隻在H 0 H_0H0為假時發生)。影響β的因素:
4.統計量與拒絕域
講了這麼多,但是還沒有介紹假設檢驗的計算過程。假設檢驗的過程依賴于兩個重要數學概念(統計量與拒絕域,前面已經有稍微提到了)。這裡再做具體介紹。檢驗統計量(test statistic)——根據樣本觀測結果計算得到的, 并據以對原假設和備擇假設作出決策的某個樣本統計量,是對樣本估計量的标準化結果(原假設H 0 H_0H0為真,點估計量的抽樣分布)。标準化的檢驗統計量公式為:标 準 化 的 檢 驗 統 計 量 = 點 估 計 量 − 假 設 值 點 估 計 量 的 抽 樣 标 準 差 标準化的檢驗統計量=\frac{點估計量-假設值}{點估計量的抽樣标準差}标準化的檢驗統計量=點估計量的抽樣标準差點估計量−假設值顯著性水平和拒絕域的三種情況:雙側檢驗:
左側檢驗:
右側檢驗:
5.利用p值進行決策
如何利用假設檢驗解決實際問題?很重要的一個應用是在決策上。就如标題說的,利用p值進行決策。那麼什麼是p值?p值(p-value):在一個假設檢驗問題中,拒絕原假設的最小顯著性水平。
p值法步驟(以大樣本均值為例)将樣本統計量轉換成檢驗統計量z
這裡順帶提下作為統計推斷的兩大分支的區間估計和假設檢驗的關系。
另外還是要談一談統計學與實際問題——這裡談的是統計顯著性和實際顯著性。
一個被拒絕的原假設意味着有統計顯著性,但未必有實際顯著性。這種情況常發生在大樣本或精确測量場合,如Kepler的行星運行第一定律:行星軌道是橢圓的,當時吻合程度很好,100年後,儀器更高級、測量更精确,該假設被拒絕,因為行星間交互作用導緻攝動。因此不要盲目使用統計顯著性。此外,顯著性水平α的選擇也是個很關鍵的問題。一般來說:
單樣本T檢驗就是要利用來自某總體的樣本數據,推斷該總體的均值和指定的檢驗值之間是否存在顯著性差異。它是對總體均值的假設檢驗,檢驗的前提是總體服從正态分布。
7.兩個總體參數的檢驗
講完了一個總體參數,照例來講就兩個總體參數(兩個總體均值之差,兩個總體比例之差,兩個總體方差比)。
獨立大樣本兩總體均值之差檢驗
假定條件:
配對樣本的T檢驗。同樣的兩組數據,根據它們之間關系的不同,可以分為獨立樣本或配對樣本,獨立樣本和配對樣本對應的T檢驗的自由度是不同的,這是它們作T檢驗最大的區别。
配對樣本T檢驗的前提條件:
在醫學和教學領域,配對樣本T檢驗應用是非常多的,例如以下幾種情況:
配對樣本T檢驗步驟首先對兩組樣本分别計算出每對觀測值的差值(應用新教學方法後,同一個學生的前後兩次考試成績的差值),得到一個新的差值樣本;然後通過對差值樣本的均值是否與0有顯著性差異來檢驗兩個總體的均值差是否與0有顯著性差異;若差值樣本的均值遠離0,則認為兩總體的均值有顯著差異;反之,若差值樣本均值在0附近波動,則認為兩個總體的均值不存在顯著差異。
俗話說的好:“沒有買賣就沒有傷害”,“假貨”幾乎是所有人深惡痛絕的東西,生活中無時不刻地進行各種商品的買賣,如何識别假貨成為各位買家的一大頭疼問題。所謂假貨,就是于真貨來源不同的物體。分别把真貨和假貨的各種商品情況來比較分析兩種商品是否有明顯差異,最終斷定孰真孰假。這就是接下來要介紹的獨立樣本T檢驗。統計學原理兩個獨立樣本T檢驗的原假設為兩個總體均值之間不存在顯著性差異,需分兩步完成:①利用F檢驗進行兩總體方差的同質性判斷;②根據方差同質性的判斷,決定T統計量和自由度計算公式,進而對T檢驗的結果給予恰當的判定。1、方差同質性檢驗;在統計過程中,SPSS将自動計算F值,并将F值給出的統計量對應的顯著性概率P值和顯著性水平α進行比較,從而判斷方差是否同質。2、根據方差同質性判斷,确定T統計量和自由度計算公式
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!