tft每日頭條

 > 生活

 > 數值分析中相對誤差

數值分析中相對誤差

生活 更新时间:2024-11-24 15:52:53

數值分析中相對誤差?學術研究中,研究人員習慣用p值衡量實驗數據的可靠性當p值小于0.05時,意味着僅因偶然性産生的概率小于5%時,結果具有統計顯著性,今天小編就來說說關于數值分析中相對誤差?下面更多詳細答案一起來看看吧!

數值分析中相對誤差(科學論文中的數學胡扯)1

數值分析中相對誤差

學術研究中,研究人員習慣用p值衡量實驗數據的可靠性。當p值小于0.05時,意味着僅因偶然性産生的概率小于5%時,結果具有統計顯著性。

但是,古德哈特定律指出當指标變成目标後,就不再是一個好的指标。P值就有這樣的特點,許多研究中的p值并不可靠,甚至是被操縱的結果。

p值操縱

我們經常用0.05作為p值的臨界值(純粹是因為這是慣例),表示一個結果在統計學上具有顯著性。換句話說,當p < 0.05 時,即僅因偶然性産生的概率小于5%時,結果具有統計顯著性。

研究人員更有興趣閱讀那些報告有統計意義的“陽性”結果,而不是無意義的“陰性”結果的文章,因此作者和期刊都強烈希望呈現有意義的結果。為什麼研究人員和期刊對陰性結果不感興趣呢?我們還不完全清楚,但有很多可能的原因,其中一些可能與我們自己的心理有關。對我們大多數人來說,陰性結果有點兒令人厭煩。“這兩組人沒有區别。”“這種治療不會改變結果。”“知道x不能幫助我們預測y。”讀到這樣的句子,我們會覺得又回到了起點,一無所獲。

陰性結果也可能與無法進行技術實驗有關。卡爾在微生物實驗室從事研究時,經常不能在瓊脂平皿上培養出他研究的微生物大腸杆菌。這不是一個有趣的科學結果,而是證明了他在實驗室環境中能力嚴重不足。

第三種可能是否定命題比比皆是。陳述一個不正确的假設很容易。把單詞随意組合成句子,它們通常都是錯誤的,例如:“郁金香咬。”“雪花融化鐵。”“大象是鳥。”在海量假命題中尋找真命題,無異于大海撈針。就像古老的棋類遊戲《戰艦》一樣。棋盤上的大部分空間都是開放水域,因此,如果沒打中,就學不到很多東西。但是一旦擊中,就會學到很多東西——以此為基礎,還可以學到更多。

出于所有這些原因,陰性結果不會得到大量的關注。我們從來沒有見過一個人僅僅因為大談她在實驗室裡做不到的事情而獲得一份工作或赢得某個獎項。

科學家幾乎都不會為了得到想要的p 值而進行科學欺詐,但仍有很多不易界定的破壞科學過程誠實性的行為。研究人員有時會嘗試不同的統計假設或測試,直到他們找到一種方法,可以讓他們的p 值跨過具有統計學意義的臨界值p = 0.05。這就是所謂的p值操縱,是一個十分嚴重的問題。有時他們會修改測試取得的結果。一項臨床試驗本來是要測量某種新藥對5年存活率的影響,但在沒有存活率發現任何變化後,研究人員可能會挖掘數據,找出3年後患者生活質量明顯改善的地方。

我們在分析所收集的數據時,經常需要做出大量的選擇,确定我們的研究到底應該包括哪些内容。

例如,假設我想研究選舉結果對美國止痛藥的消費有什麼影響,我可能會将選舉結果制成表格,收集止痛藥使用情況的調查報告,并獲取止痛藥在一段時間内的銷售數據。這裡有很多自由度。我看什麼選舉呢?美國總統、參議員、衆議員、州長、州參議員、州衆議員、市長、市議員選舉,還是别的?關于消費情況,我看男性還是女性,還是兩者都看?看年輕人、中年人、65 歲以上的人、青少年,還是所有這些人的消費情況?我觀察的是新上任的民主黨候選人的影響力,還是新上任的共和黨候選人的影響力?我觀察的是被人看好的候選人上任造成的影響,還是不被看好的候選人上任造成的影響?換句話說,我需要控制止痛藥使用者的政治立場嗎?什麼才算是止痛藥呢?阿司匹林、艾德維爾、泰諾、氫可酮、奧施康定,這些算不算止痛藥?我是要比較同一個地方在選舉前後的止痛藥使用情況,還是隻比較選舉後不同地方的使用情況?在分析數據之前,我需要做大量的決定。考慮到這麼多的組合,即使選舉結果和止痛藥的使用之間沒有因果關系,這些組合中也很有可能至少有一個組合會顯示出有統計顯著性的結果。

為了避開這個陷阱,研究人員應該在查看數據之前明确說明所有這些選擇,然後測試他們事先承諾的那個假設。例如,我有可能決定測試那些達到投票年齡的成年男性和女性,看看他們是否會在看好的州長候選人選舉失敗後服用更多的止痛藥。或者,我可能會測試在共和黨人取代民主黨人當選美國衆議院議員的那些地區,看看兒童用泰諾的銷量是否會下降。無論我選擇看什麼,重要的是我在分析數據之前就做出明确說明。否則,通過觀察足夠多的不同假設,我總會得到一些有顯著性的結果,即使我找不到真正的模式。

但是,我們不妨從研究者的角度看一看。假設你剛剛花了幾個月的時間,收集了大量數據。你測試了你的主要假設,最終得到了一些看上去有希望但不具有顯著性的結果。你知道,就這樣保持不變的話,不要說優秀期刊,甚至其他所有期刊都不會發表你的研究成果。但你認為你的假設肯定是成立的,也許隻是沒有足夠的數據支撐。所以你繼續收集數據,直到你的p值降到0.05 以下,然後你立即停止收集數據,以免它變回到阈值以上。

或者你可以嘗試一些其他的統計測試。由于數據接近顯著性, 選擇正确的測量方法和測試,也許能讓你跨過p= 0.05 這道關卡。當然,稍加修改,你就找到了一種能給你帶來顯著結果的方法。

或者你的假設似乎隻對男性成立,而有統計意義的模式被包含在你的樣本裡的女性淹沒了。你一看,哎呀,如果隻看男性,你會得到一個有統計顯著性的結果。怎麼辦?放棄整個項目,放棄數千美元的投資,讓你的研究生再推遲6個月畢業……還是隻記錄男性的研究結果,然後提交給優秀期刊?在這些情況下,為選擇後一種做法找一個理由似乎并不是那麼難。你可能會對自己說:“我确信這種趨勢确實存在。我從一開始就在考慮将女性排除在研究之外。”

祝賀你。你成功地對你的研究進行了p 值操縱。

假設有1000名在誠實性方面無可挑剔的研究人員,他們在任何情況下都會拒絕p 值操縱。這些品德高尚的學者測試了上千個關于政治上取得的勝利和止痛藥的使用之間是否存在關系的假設,但所有這些假設都是不成立的。在p= 0.05 這個水平上,單憑碰運氣,這些假設中就有大概50個假設會找到統計學上的支持。這50 名幸運的研究人員将研究結果寫下來,發給期刊,然後被期刊接受并發表。在其餘950名研究人員中,隻有少數人會不辭辛苦地寫下他們的陰性結果,其中隻有幾個人能夠發表他們的陰性結果。

讀者查閱文獻時,會看到有50項研究表明政治結果和止痛藥消費之間存在聯系,也許還有為數不多的研究稱沒有發現任何聯系。讀者會很自然地得出結論:政治對止痛藥的使用有很大的影響,而那些失敗的研究肯定是測量了錯誤的量,或者是在尋找模式時出了問題。但現實恰恰相反,兩者之間沒有關系。之所以看起來有關系,純粹是人為因素導緻的——哪些結果值得發表是由人決定的。

本質上講,問題在于論文是否有發表的機會受它所報告的p值影響。因此,我們一頭撞上了選擇偏倚的問題。得以發表的那些論文是全部實驗的一個有偏差的樣本。在文獻中,有統計意義的結果被過度表現,而沒有統計意義的結果則表現不足。沒有産生顯著性結果的實驗數據最終被科學家扔進文件櫃裡(現在則是被扔進文件系統中)。這就是所謂的抽屜問題(file drawer effect)

還記得古德哈特定律嗎?“指标變成目标後,就不再是一個好的指标。”從某種意義上說,p值就具有這個特點。因為p值低于0.05對于論文發表來說是必不可少的,所以p值不再是衡量統計支持的好指标。如果科學論文是否發表與p值無關,那麼p值仍将是一個有效指标,可以衡量推翻原假設時得到統計支持的程度。但是,由于期刊明顯偏好那些p值低于0.05的論文,因此p值已經失去了原先具有的用途。

2005 年,流行病學家約翰·約阿尼迪斯在一篇文章中總結了抽屜問題的後果,這篇文章的标題頗有挑釁性:“為什麼發表的研究成果大多是虛假的”。為了解釋約阿尼迪斯的觀點,我們需要稍微偏離主題,探究一個被稱為基率謬誤的統計陷阱。

基率謬誤

假設你是醫生,正在治療一位擔心自己去緬因州釣魚時染上萊姆病的年輕人。釣魚歸來以後,他感覺很不舒服,但沒有萊姆病特有的環形紅斑。為了讓他放心,你同意檢查他的血液中是否有萊姆病緻病菌抗體。

令你們沮喪的是,測試結果呈陽性。測試本身相當準确,但也不是100%的準确,有5%的概率出現假陽性。那麼,病人患萊姆病的概率有多大呢?

許多人,包括許多醫生,都認為答案是大約95%。這是不正确的。沒有萊姆病的人檢測呈陰性的概率是95%,而你想知道的是檢測結果呈陽性的人患萊姆病的概率。事實證明,這個概率很低,因為萊姆病非常罕見。在萊姆病流行的地區,每1000人中隻有1人被感染。假設我們檢測1 萬人,那麼可以預計有大約10個真陽性和大約0.05×10 000=500個假陽性。在那些檢測呈陽性的人中,隻有不到1/50 的人真的被感染了。因此,即使檢測呈陽性,患病概率也不會超過2%。

這種混淆(以為病人有95%的概率被感染,而實際上不到2%) 應該是一個常見的錯誤。這其實是我們的“老朋友”檢察官謬誤,不過它換了一種表現形式。我們有時稱其為基率謬誤,因為在解釋測試結果時,忽略了群體中患這種疾病的基礎比率。

如果測試的是一種非常常見的情況,那麼基率謬誤不是什麼大問題。假設你在為一位來自美國上中西部地區的年輕白人女性治療胃病時,決定檢查她是否有幽門螺杆菌感染。幽門螺杆菌是一種與消化性潰瘍有關的胃病病原體。與萊姆病的抗體檢測一樣,約5%未感染者的尿素呼氣試驗結果呈陽性。如果你的病人檢測呈陽性,那麼她攜帶幽門螺杆菌的可能性有多大呢?也是1/50 嗎?不對,這次的可能性要大得多,因為幽門螺杆菌是一種常見病原體。在美國,大約20%的白種人攜帶幽門螺杆菌。假設有1萬人接受這種病原體的檢測,那麼你會看到大約2000個真陽性結果,剩下的8000人中,這個概率大約為5%,也就是大約400人會得到假陽性結果。因此,在幽門螺杆菌檢測呈陽性的美國白種人中,大約5/6 的人真的攜帶這種病菌。

發表偏倚

說完這些,我們繼續讨論約阿尼迪斯的觀點。在“為什麼發表的研究成果大多是虛假的”這篇論文中,約阿尼迪斯對科學研究和醫學檢測結果解釋進行了類比。他認為,由于發表偏倚,大多數陰性研究結果都沒有發表,因此我們在文獻中看到的大多是陽性結果。如果科學家測試的是不可能的假設,那麼大多數陽性結果應該都是假陽性,這就好像萊姆病檢測結果——如果沒有其他風險因素,陽性檢測結果大多是假陽性。

沒錯兒,約阿尼迪斯就是這樣想的。他的數學計算無可争論。從他的模型來看,他的結論也是正确的。他還可以從我們之前讨論過的論文中得到一定的經驗支持:那些論文表明,許多發表在優秀期刊上的實驗是無法複證的。如果這些實驗的許多陽性結果都是假陽性,就正好符合我們的預料。

值得商榷的是約阿尼迪斯的假設。要使大多數發表的成果都是錯誤的,科學實驗就必須像罕見疾病一樣:極不可能産生真陽性結果。但科學與罕見疾病不同,因為科學家可以選擇他們想要驗證的假設。我們已經看到,科學家很好地适應了所在專業領域的酬償結構:獲得酬勞的主要途徑是發表有意義的研究成果,而陰性結果很難發表。因此,我們可以預料科學家測試的假設雖然尚未确定,但有合理的可能性是成立的。這讓我們想到幽門螺杆菌的例子,大多數的陽性結果都是真陽性。約阿尼迪斯是過于悲觀了,因為他對研究人員決定檢驗的各種假設做出了不符合實情的假設。

當然,這都是理論上的猜測。如果我們真的想衡量發表偏倚的嚴重性,就需要知道:1)被測試的假設中有多大比例是正确的,2)有多大比例的陰性結果被發表了。如果兩個比例都很高,我們就不用擔心。如果兩者都很低,那就有問題了。

我們曾說,科學家傾向于測試那些大概率是正确的假設。這種大概率可能是10%、50%或75%,但不太可能是1%或0.1%。那發表陰性結果這個方面呢?發表得多嗎?在整個科學領域,發表的研究結果中大約有15%是陰性。在生物醫學領域,這個比例是10%。在社會心理學領域,這個比例僅為5%。問題是,我們無法從這些數據中得知,這到底是因為心理學家更不可能發表陰性結果,還是因為他們選擇了更有可能産生陽性結果的實驗。我們真正想知道的不是陰性結果在發表的結果中占的比例,而是陰性結果被發表的比例。

但是,如何才能知道這個比例呢?我們必須想辦法調查所有未發表的實驗結果,但這些結果往往被扔進了抽屜裡。美國食品藥品監督管理局(FDA)的埃裡克·特納找到了一個巧妙的方法來解決這個問題。美國的法律規定,任何研究團隊,隻要進行臨床試驗(用人作為實驗對象來測試治療結果的試驗),都必須向FDA 登記報備,提交文件并解釋試驗是要測試什麼,試驗将如何進行,以及結果如何測量。一旦試驗完成,團隊還需要向FDA 報告試驗結果。不過,他們并沒有被要求必須在科學期刊上發表研究結果。

這個制度為特納和同事們統計某一特定研究領域已發表和未發表試驗提供了便利。特納列出了74 個評估12 種不同抗抑郁藥物療效的臨床試驗,其中51 個試驗的結果已經發表,包括48 個陽性結果(藥物有效)和3個陰性結果。看到這些已發表的文獻後,任何一名研究人員都會認為這些抗抑郁藥物通常是有效的。但在調查最初登記的所有實驗後,FDA發現情況并不是人們預想的那樣。一共74個試驗,其中38 個産生了陽性結果,12 個産生了可疑結果,24個産生了陰性結果。看到這些數字,我們有可能得出一個更悲觀的結論:似乎隻有一部分抗抑郁藥物在某些情況下可以起到一定作用。

這是怎麼回事?為什麼成功率為51% 的臨床試驗,最終在94% 的發表論文中被報告為成功呢?一個原因是,幾乎所有的陽性結果都被發表了,而可疑或陰性結果中隻有不到1/2被發表。另一個也是更重要的原因是,在已發表的14 個可疑或陰性結果中,有11 個被重新定義為陽性結果。

就像水手隻能看到冰山露出水面的部分一樣,研究人員在科學文獻中隻能看到陽性結果。因此,我們很難知道水底下有多少陰性結果。它們很難發表,即使得以發表,也常常被僞裝成陽性結果。如果藏在水下的結果不多,那麼我們強烈支持被測試的任何結果。但是, 如果隻能看到表面上的那些結果,而水底下還有大量的結果我們無法看到,我們就有可能受到嚴重誤導。

幸運的是,有一些方法可以估計水面下的冰山大小。元分析(同時查看多項研究)就是最有效的方法之一。通過元分析,我們就可以知道發表的文獻是否可能代表所有的試驗,知道它們是否反映了一些有問題的行為,比如p 值操縱、發表偏倚。如何有效地做到這一點,已經成為統計學研究的一個熱門領域。

撰文丨卡爾·伯格斯特龍(Carl T. Bergstrom)(美國華盛頓大學生物系教授)、傑文·韋斯特(Jevin D. West)(美國華盛頓大學信息學院副教授)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved