統計學定義及内容?推斷統計學的全部要點是從有限的數據中推斷出一個一般結論“描述性統計學”隻是描述數據,未得出任何一般結論但統計學的挑戰和困難之處在于從有限的數據中得出一般結論,今天小編就來聊一聊關于統計學定義及内容?接下來我們就一起去研究一下吧!
推斷統計學的全部要點是從有限的數據中推斷出一個一般結論。“描述性統計學”隻是描述數據,未得出任何一般結論。但統計學的挑戰和困難之處在于從有限的數據中得出一般結論。
無法憑借直觀來理解統計學。“直觀”一詞有兩層含義。其中一種含義是“易于使用和理解。”“直觀”的另一種含義是“本能,或即使沒有理由,也按照自己認為真實的東西去做。”使用該定義,統計推理絕非直觀。思考數據的樹根,直觀往往會将我們引入歧途。人們經常在随機數據中看到模式,并經常得出未經确認的結論。從數據中得出有效結論需要統計的嚴密性。
統計結論總是以概率的形式出現。“統計學意味着不能說絕對确信。”如果一個統計學結論似乎已确定,則可能是你在誤解某些事情。統計學的全部意義是量化不确定性。
所有統計檢驗均基于假設。每個統計推斷均基于一系列假設。不要試圖解讀任何統計結果,直至您看完那個列表。每一次統計計算背後的假設是,數據是随機抽樣的數據,或至少代表可收集到的更大數量的值。如果你的數據不能代表你本可(但沒有)收集的更大數據集,則統計推斷将沒有意義。
應提前作出關于如何分析數據的決定。分析數據需要許多決定。參數檢驗或非參數檢驗?是否排除異常值?是否首先轉換數據?是否對外部對照值進行标準化?是否調整協變量?是否在回歸中使用加權因素?所有這些決定(以及更多)均應為實驗設計的一部分。如果統計分析的決定是在檢查數據之後作出,統計分析很容易成為一種高科技的顯靈闆 - 一種産生預定結果的方法,而非一種分析數據的客觀方法。新名稱是p - 值篡改。
置信區間量化精确度,且易于解讀。假設你已計算所收集的一組值的平均值,或者産生某個事件的受試者比例。這些值描述你分析的樣本。但你抽樣的整個群體如何?真實的群體平均值(或比例)可能更高,也可能更低。95%置信區間的計算考慮了樣本量和分散性。給定一組假設,你可95%的确定置信區間包括真實的群體值(你隻能通過收集無限量的數據進行确定)。當然,95%并無特殊之處,僅僅是一種慣例。可針對任何期望的置信程度計算置信區間。幾乎所有結果 - 比例、相對風險、優勢比、平均值、平均值之間的差值、斜率、速率常數...- 應附加置信區間。
一個P值檢驗一個零假設,且在開始時可能會很難理解。P值邏輯起初似乎很奇怪。檢驗兩組是否不同時(不同平均值,不同比例等),首先假設這兩個群體實際上相同。稱之為“零假設”。然後詢問:如果零假設為真,則随機獲抽樣本之間的差異與實際觀察到的差異一樣大(甚至更大)的可能性是多少?如果P值很大,則你的數據與零假設一緻。如果P值很小,隻有很小的可能性,則随機機會産生的差異與實際觀察到的差異一樣大。這使你質疑零假設是否正确。如果你不能确定零假設,就不能解讀P值。
“統計學顯著性”并不意味影響很大或在科學上很重要。如果P值小于0.05(一個任意的、但廣泛接受的阈值),則認為結果具有統計學顯著性。該短語聽起來很明确。但這意味着,這僅僅是偶然,在不到5%的時間,發生你觀察到的差異(或聯系或相關..)(或更大的差異)。就是這樣。一個在科學上或臨床上不重要的微小影響可能具有統計學顯著性(尤其是在大樣本量中)。該結論也可能錯誤,因為你會得出一個結論,結果在5%的時間具有統計學顯著性,這僅僅是偶然。
“無顯著性差異”并不意味着沒有效果、效果很小或與科學無關。如果差異無統計學顯著性,則可得出結論:觀察到的結果并非與零假設不一緻。注意雙重否定。不能得出零假設為真的結論。很有可能是零假設錯誤,且群體之間确實存在差異。對于小樣本量而言,這尤其是一個問題。需要根據該結果作出決定時,将一個結果定義為具有統計學顯著性或不具有統計學顯著性是有意義的做法。否則,統計學顯著性的概念對于數據分析沒有什麼幫助。
多重比較使得難以解讀統計結果。在一次檢驗許多假設時,多重比較的問題使其結果變得具有欺騙性。如果有5%的檢驗“具有統計學顯著性”,且如果檢驗了許多假設,則可能就會期望得到許多具有統計學顯著性的結果。可使用特殊的方法來減少該問題,即,發現假的但具有統計學顯著性的結果,但這些方法也使得發現真實的效果變得更加困難。多重比較可能非常難以實施。僅當所有分析均計劃妥善,且執行并報告所有計劃妥善的分析均時,才可能正确解讀統計分析。然而,這些簡單的規則遭到廣泛地破壞。
相關性并不意味着因果關系。兩個變量之間具有統計學顯著性的相關性或關聯可能表明一個變量會受到另一個變量的影響。但這可能隻是意味着兩者均受到第三個變量的影響。或者這可能是一個巧合。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!