tft每日頭條

 > 科技

 > 統計學适用于分類數據的分析方法

統計學适用于分類數據的分析方法

科技 更新时间:2024-05-17 07:14:27

要做好數據分析,除了自身技術硬以及數據思維靈活外,還得學會必備的統計學基礎知識!因此,統計學是數據分析必須掌握的基礎知識,即通過搜索、整理、分析、描述數據等手段,以達到推斷所測對象的本質,甚至預測對象未來的一門綜合性科學。統計學用到了大量的數學及其它學科的專業知識,其應用範圍幾乎覆蓋了社會科學和自然科學的各個領域,而在數據量極大的互聯網領域也不例外,因此紮實的統計學基礎是一個優秀的數據人必備的技能。

但是,統計學的知識包括了圖形信息化、數據的集中趨勢、概率計算、排列組合、連續型概率分布、離散型概率分布、假設檢驗、相關和回歸等知識,對于具體的知識點,本文就不一一介紹了,感興趣的同學請參考《深入淺出統計學》、《統計學:從數據到結論》等專業書籍。

統計學分為描述性統計學和推斷性統計學。

今天我們就先來看看描述性統計。

定義:使用特定的數字或圖表來體現數據的集中程度和離散程度。

1、集中趨勢集中趨勢是指一組數據所趨向的中心數值,用到的指标有:算數均數、幾何均數、中位數。

1) 算數均數:即為均數,用以反映一組呈對稱分布的變量值在數量上的平均水平。

2)幾何均數:常用以反映一組經對數轉換後呈對稱分布的變量值在數量上的平均水平。

3)中位數:适用于偏态分布資料和一端或兩端無确切的數值的資料,是第50百分位數。

4)百分位數:為一界值,用以确定醫學參考值範圍。

2、離散趨勢是反映數據的變異程度,常用指标有極差、四分位間距、方差與标準差、變異系數。

1)極差:為一組數據的最大值和最小值之差,但極差不能反映所有數據的變異大小,且極易受樣本含量的影響。常用以描述偏态分布。

2)四分位數間距:它是由第3四分位數與第1四分位數相減得到,常和中位數一起描述偏态分布資料的分布。

3)方差與标準差:反映一組數據的平均離散水平,消除了樣本含量的影響,常和均數一起用來描述一組數據中的離散和集中趨勢。

4)變異系數:也稱作異常值,多用于觀察指标單位不同時,可消除因單位不同而不能進行比較的困難。

例如箱線圖就可以很好反映其中部分重點統計值。

統計學适用于分類數據的分析方法(數據分析必備統計學入門基礎知識)1

3、抽樣方法和中心極限定理

#抽樣方法

我們在做産品檢驗的時候,不可能把所有的産品都打開檢驗一遍看是否合格,我們隻能從全部的産品中抽取部分樣本進行檢驗,依據樣本的質量估算整體的産品質量,這個就是抽樣,抽樣的定義是為了檢驗整體從整體中抽離部分樣本進行檢測,以樣本的檢測結果進行整體質量的估算的方法。

抽樣有多種方法,針對不同的目的和場景,需要運用不同的方法進行檢測,常見的抽樣方法有:

#概率抽樣

•簡單随機抽樣;

•分層抽樣;

•整群抽樣(先将總體中若幹個單位合并為組,這樣的組稱為群,再直接對群進行抽樣);

•系統抽樣(将總體中所有單位按一定順序排列,在規定的範圍内随機抽取一個單位作為初始單位,然後再按事先指定好的規則确定其他樣本單位);

•階段抽樣(先抽群,然後在群内進行二階段抽樣)。

#非概率抽樣

•方便抽樣(依據方便原則自行确定);

•判斷抽樣(依據專業知識進行判斷);

•自願樣本(調查者自願參加);

•滾雪球樣本(類似樹結構);

•配額樣本(類似分層抽樣);

#兩者抽樣方法之間的比較:

•非概率抽樣适合探索性的研究,為更深入的數據分析做準備,特點是操作簡便、時效快、成本低。而且對于抽樣中的統計專業技術要求不是很高;

•概率抽樣的技術含量更高,調查成本更高,統計學專業知識要求更高,适合調查目的為研究對象總體,得到總體參數的置信區間。

統計學适用于分類數據的分析方法(數據分析必備統計學入門基礎知識)2

#中心極限定理:若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分布近似服從正态分布,且樣本量越大,近似性越強。以30為界限,當樣本量大于30的時候符合中心極限定理,樣本服從正态分布;當樣本量小于30的時候,總體近似正态分布時,此時樣本服從t分布。樣本的分布形态決定了我們在假設檢驗中采用什麼方法去檢驗它。

預告:推斷性統計學。

1人點贊

數據說·夢想季

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved