tft每日頭條

 > 生活

 > 文科統計學與理科統計學的區别

文科統計學與理科統計學的區别

生活 更新时间:2025-01-18 10:01:44

在純文科生的眼中,量化統計就是高大上的研究方法,可惜數理腦子不夠,一直望洋興歎。

文科統計學與理科統計學的區别(戲說統計文科生的統計學精華)1

偶然見到這本書《戲說統計》,副标題便是“文科生的量化方法”。作為純文科生,對于所有的看起來很科學的高大上方式都心馳神往。結果假期拜讀了一個星期,發現還是如幹啃饅頭一般難以下咽……

費了十來天的勁兒,合上書發現,讀這本書帶來了兩個收獲。

那些我們對量化的刻闆印象

第一個收獲是,這本書打破了我對量化的一些刻闆印象,比如:

1、有數據、有百分比就是我們需要的量化。

有數據的論文非常常見,但這隻是最最簡單的,沒怎麼用上量化真正的威力。

2、量化的就是科學的,是可以确定地告訴我們結論的。

量化其實隻能給出概率,哪怕結果是顯著的,也隻是代表概率高。而決定放棄任何一個概率時,也沒有一條絕對值來判斷低于多少的就可以舍棄,特别是在它所代表的選項被放棄後可能會帶來嚴重後果時。

3、定量分析比定性分析高級、準确。

第一,定性分析才是基礎,如果沒有定性分析找出的方向,定量分析将寸步難行;

第二,定量分析沒有那麼準确,很多時候數字上的相關不一定代表實質上的相關,而這樣的數據可以拿來蠱惑人心。我們需要定性分析幫助判斷,找出真正的影響因素。

第二個收獲是,提煉出了幾個比較有用的概念,跟純文科生們分享一下,也許下次看到的時候就會知道在說些什麼。

一、效度與信度

目前學校越來越多地采用網絡閱卷和成績分析成績分析中,時常會見到一個項目是分析某一題目的效度與信度分别是多少。那它們是什麼意思呢?

其實這兩個概念我還在大學裡的時候便接觸過,但是一直混淆,看了這本書才發現,也不全怪我,翻譯實在是有點問題。

效度(validity)可以理解為切實,測量的就是自己想知道的。想要測一個人的身高,卻搬來了一個體重秤,這個稱測出來的值效度就很低,因為你測出來的不是自己想要得到的數據。拿到測試裡就是,比如你想考學生的語言表達,結果題目裡要求學生背誦原文,那肯定不切實際,考不出來。也就是效度低。

信度(reliability)可以理解成可靠,即數據是真實可信的.比如一個體重秤,可信就是指測得準,比如你第1次第2次第3次站上去都是50公斤,那它就是可信的(可是我不信!),如果隔一會兒上去,數值就大幅擺動,那它就是不可信的。考試中如果很多人作弊,這場考試的信度就很低。

測試中高信度的題目是指,同一個人多次做這個題,得分率應該差不多。比如不要出現模糊的概念,讓學生猜,或是超過了學生的理解力,學生做時不得不每一次都是蒙。

效度、信度這兩個詞不好記,很大程度上是因為字面意思和所指的實際意思不太一緻,改成切實、可靠會好記不少。

小測試:

《紅樓夢》的作者是?

A. TFboys B. 蔡徐坤 C.語文老師 D.曹雪芹

請問這個題的效度和信度怎麼樣?

A 效度高,信度低

B 信度高,效度低

C 都高

D 都低

二、正态分布

正态分布(normal distribution)就是這樣的一個圖。

文科統計學與理科統計學的區别(戲說統計文科生的統計學精華)2

數字不重要,每個圖裡各不相同,形狀比較重要,有點像正弦函數的一部分。峰頂是這一屬性平均值的位置。

正态分布英文是normal distribution,可以理解成為正常分布,顧名思義,指的是,自然情況下,正态分布是萬物分布的常态。無論哪個屬性,都是多數人聚在平均值的周圍,遠遠高于平均值的很少,遠遠低于平均值的也很少。

生活中的很多數據都呈正态分布。比如成年人中身高很高或很矮的人很少,大部分人處在中間。智商也是如此,天才和傻子都不多,我們都是普通人。

這個圖可以引發特别多的哲學思考,作者拿了足足一整章來說這件事情。我從其中摘取幾句:

1、萬有不齊天地事,大道之行是中庸。

可以看出世間萬物變化衆多,天地不齊。但是大部分事物都聚集在平均值周圍,主流平平。這是對世界的基本認識。

2、安于平平,追求不平。

我們每個人必然在很多方面平平,要能坦然接受這一點。

但也有可能在少數方面不平,比如你若發現自己在某一方面幸運高配,那根據正态分布的圖像,你超過了平均值,就已經超過了很多人,這種時候要多多發揚對自己有利的屬性,不要暴殄天物。

三、回歸分析

回歸分析是一個困擾了我極久的概念。這一次拿着書研究了半天,終于發現,簡單來說,回歸就是分析一個事物出現,是由哪些因素怎麼帶來的。影響因素叫做自變項,結果叫作因變項。

回歸分析就是研究自變項和因變項之間的關系。回歸分析後,我們會得出這二者之間的回歸系數,就是根據一個變項的值去求另一個變項的值時要乘的那個數。

比如假設我們要研究某一學科的成績(單位為分)跟他每周在這一學科上花的時間(單位為小時)之間的關系,那花的時間就是自變項,學科成績就是因變項。

對它們進行回歸分析後,假設我們得到的回歸系數是4,意思就是,每周多花一個小時在這一學科上,這個學科就能提高4分。

但是,并非所有的回歸系數都是可靠的。要表示這個回歸系數可不可靠,常用的術語是“顯著”。

顯著意味着自變項影響因變項的可能性大,我們有可能根據自變項的變化,去推測因變項的變化。

再回到上面的例子,假如說經過對回歸系數的顯著度檢驗之後,這個4被認為顯著度很高,那就意味着各科老師要督促學生每周多花點時間在自己的學科上。如果被認為顯著度不高,那就有可能關系不大,我們需要找别的影響成績的原因

整體說來,這不算一本特别合理的科普書。總是默認讀者知道一些專有名詞,徒增閱讀難度。

文科統計學與理科統計學的區别(戲說統計文科生的統計學精華)3

居然還用了幾十頁來說怎麼學英語。

但是如果哪位同志最近有做量化研究的需求或想法,或是正在學習統計和量化,或是憋在家裡時間很多,想感受一下概率視角下的世界,這本書是個不錯的輔助~

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved