一、什麼是統計學
綜合來講,統計學就是收集、處理、分析、解釋數據并從數據中得出結論的科學。
比如說,我們想知道中國男性和女性誰的收入更高。全中國人民那麼多,即使是官方機構想要進行一個總體的統計都不太現實,更别提我們了。因此我們需要進行抽樣,并統計我們抽中的樣本的數據情況,對數據進行一些必要的處理(比如處理缺失值、異常值、重複數據等),然後對數據進行分析,并對分析結果進行解釋。最後,給出一個可靠的結論。
以上就是一項統計學任務的流程。其中,數據分析所使用的方法可以分為描述統計方法和推斷統計方法。
之後我們會詳細讨論兩者的更多細節。
二、統計數據的類型我們有必要先了解下數據的類型。
1. 按照計量尺度
2. 按照統計數據的收集方法
3. 按照被描述對象與時間的關系
三、統計中的一些基本概念
1. 總體和樣本
總體:population,包含所研究的全部個體的集合。比如當我們想要研究中國人民的人均身高時,全中國人民就是總體。總體分為有限總體和無限總體,對于有限總體來說,元素的數目是可數的,而無限總體中的元素則是無限、不可數的。在無限總體中,每次抽取一個單位,并不影響下一次的抽樣結果,這是因為無限總體去除上一次抽取的樣本後,剩下的仍然是一個無限總體。因此無限總體中的每次抽樣總可以看做是獨立的。反之,在有限總體中,多次無放回的抽樣之間并不是相互獨立的。
樣本:sample,從總體中抽取的一部分元素的集合,構成樣本的元素的數目成為樣本量。抽樣的目的是根據樣本提供的信息推斷總體的特征。比如我們統計中國人民的人均身高時,抽取了10000人的樣本來作為代表。那麼全中國人民是我們的總體,這10000人就是我們的樣本,樣本量是10000。
2. 參數和統計量
由于樣本已知,因此統計量可以輕松求得。抽樣的目的是根據樣本統計量來估計總體參數。比如用樣本标準差s估計總體标準差σ等。
一言以蔽之,參數相當于總體中的統計量,統計量相當于樣本中的參數,它們的含義一緻,隻是分别應用于總體和統計量,且樣本統計量可以直接通過描述統計得到,而總體參數往往是未知的,需要通過推斷統計來估計。
3. 變量
變量:variable,相信我們對變量都比較熟悉,我們最常使用的名稱有自變量和因變量,其中後者跟随前者的變化而變化。不過今天我們會從其他的角度對變量進行分類。
按照變量數據類型分類:
其他分類角度
這部分後續我們會接觸到。
以上内容是統計學的基礎,不難,但是必須要記清楚,避免以後在某些問題上産生混淆。
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!