tft每日頭條

 > 職場

 > 統計學基礎和數據分析

統計學基礎和數據分析

職場 更新时间:2024-11-23 01:25:01

統計學基礎和數據分析(學點統計學讓工作起飛)1

一、什麼是統計學

綜合來講,統計學就是收集、處理、分析、解釋數據并從數據中得出結論的科學。

比如說,我們想知道中國男性和女性誰的收入更高。全中國人民那麼多,即使是官方機構想要進行一個總體的統計都不太現實,更别提我們了。因此我們需要進行抽樣,并統計我們抽中的樣本的數據情況,對數據進行一些必要的處理(比如處理缺失值、異常值、重複數據等),然後對數據進行分析,并對分析結果進行解釋。最後,給出一個可靠的結論。

以上就是一項統計學任務的流程。其中,數據分析所使用的方法可以分為描述統計方法和推斷統計方法。

  • 描述統計:Descriptive Statistics,研究的是數據收集、處理、彙總、圖表描述、概括與分析等統計方法。
  • 推斷統計:Inferential Statistics,研究如何利用樣本數據來推斷總體特征的統計方法。

之後我們會詳細讨論兩者的更多細節。

二、統計數據的類型

我們有必要先了解下數據的類型。

1. 按照計量尺度

  • 分類數據:categorical data,能歸于某一類别的非數字型數據,它是對食物進行分類的結果,數據表現為類别,一般用文字來表述。比如人口分為男、女兩類等。為方便處理,我們經常會用數字代碼來代替文字。
  • 順序數據:rank data,能歸于某一有序類别的非數字型數據。比如考試成績可以分為優、良、中、及格、不及格,一個人的受教育程度可以分為小學、初中、高中、本科、碩士、博士等。
  • 數值型數據:metric data,按數字尺度測量的觀察值,其結果表現為具體的數值。數值型數據具體又可以分為等距數據和等比數據。在等距數據中,數據間的單位尺度是固定的,比如我們走路的步數,可以是1步、2步、……、100步,但是不會是1.1步,因此等距數據屬于離散數據;等比數據則是一種連續數據,它的加減乘除均有意義。

2. 按照統計數據的收集方法

  • 觀測數據:observational data,通過調查或觀測而收集到的數據,這類數據是在沒有人為操控的情況下得到的。
  • 實驗數據:experimental data,實驗中控制實驗對象而收集到的數據,這類數據是在人為操控的環境下得到的。

3. 按照被描述對象與時間的關系

  • 截面數據:cross-sectional data,在相同或近似相同的時間點上收集的數據。我們常常提到的橫向對比,事實上就是對同一時期收集到的截面數據進行對比。
  • 時間序列數據:time series data,在不同時間收集到的數據,這類數據是按照時間順序收集到的,用于描述現象随時間變化的情況。我們常常提到的縱向對比,就是指同一事物在不同時期的時間序列數據間的對比。時間序列分析可以單獨拆分為一門大學問,我們後續可能會單獨拆出一個系列來講解。

統計學基礎和數據分析(學點統計學讓工作起飛)2

三、統計中的一些基本概念

1. 總體和樣本

總體:population,包含所研究的全部個體的集合。比如當我們想要研究中國人民的人均身高時,全中國人民就是總體。總體分為有限總體無限總體,對于有限總體來說,元素的數目是可數的,而無限總體中的元素則是無限、不可數的。在無限總體中,每次抽取一個單位,并不影響下一次的抽樣結果,這是因為無限總體去除上一次抽取的樣本後,剩下的仍然是一個無限總體。因此無限總體中的每次抽樣總可以看做是獨立的。反之,在有限總體中,多次無放回的抽樣之間并不是相互獨立的

樣本:sample,從總體中抽取的一部分元素的集合,構成樣本的元素的數目成為樣本量。抽樣的目的是根據樣本提供的信息推斷總體的特征。比如我們統計中國人民的人均身高時,抽取了10000人的樣本來作為代表。那麼全中國人民是我們的總體,這10000人就是我們的樣本,樣本量是10000。

2. 參數和統計量

  • 參數:parameter,用來描述總體特征的概括性數字度量,它是研究者想要了解的總體的某種特征值。比如總體均值、總體标準差等。在統計中,總體參數通常用希臘字母表示,比如總體均值用μ表示,總體标準差用σ表示,總體比例用π表示等。
  • 統計量:statistic,用來描述樣本特征的概括性數字度量。樣本統計量常用英文字母來表示。

由于樣本已知,因此統計量可以輕松求得。抽樣的目的是根據樣本統計量來估計總體參數。比如用樣本标準差s估計總體标準差σ等。

一言以蔽之,參數相當于總體中的統計量,統計量相當于樣本中的參數,它們的含義一緻,隻是分别應用于總體和統計量,且樣本統計量可以直接通過描述統計得到,而總體參數往往是未知的,需要通過推斷統計來估計。

3. 變量

變量:variable,相信我們對變量都比較熟悉,我們最常使用的名稱有自變量和因變量,其中後者跟随前者的變化而變化。不過今天我們會從其他的角度對變量進行分類。

按照變量數據類型分類:

  • 分類變量:categorical variable,對應分類數據。
  • 順序變量:rank variable,對應順序數據。
  • 數值型變量:metric variable,對應數值型數據。可以進一步分為離散型變量(discrete variable)和連續性變量(continuous variable)。

其他分類角度

  • 随機變量和非随機變量
  • 經驗變量和理論變量

這部分後續我們會接觸到。

以上内容是統計學的基礎,不難,但是必須要記清楚,避免以後在某些問題上産生混淆。

統計學基礎和數據分析(學點統計學讓工作起飛)3

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关職場资讯推荐

热门職場资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved