tft每日頭條

 > 科技

 > 數據分析統計學如何學習

數據分析統計學如何學習

科技 更新时间:2024-11-25 14:05:13

如果你對數據分析感興趣,希望學習更多的方法論,希望聽聽經驗分享,

歡迎移步寶藏公衆号「小火龍說數據」,無廣告、無軟文、純幹貨,更多精彩原創文章與你分享!


00 序言

從起源角度來看,數據分析是「統計學」與「計算機」的交叉學科,統計知識應用其中;從工作角度來看,應用統計學知識,可以更為科學的度量數據對業務的價值。

因此,作為數據分析同學,掌握基礎的統計學知識是非常有必要的。下面,小火龍為大家總結了「工作中常用的10種統計學方法」

01 描述性統計「常用指數:5星」

描述性統計,通過概括性的數學方法及圖表方式,描述業務數據及其分布現狀,在工作中是最為常用的。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)1

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)2

02 假設檢驗「常用指數:5星」

假設檢驗,用于判斷樣本與樣本、樣本與總體之間的差異,是由抽樣誤差所導緻的,還是由于本身就存在差異。其中主要涵蓋「參數檢驗」和「非參數檢驗」,兩者的概念如下:

參數檢驗:假設數據服從某一分布(一般為正态分布),通過樣本參數的估計量對總體參數進行檢驗。

非參數檢驗:不考慮總體分布形式,直接對數據的分布進行檢驗。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)3

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)4

03 列聯表分析「常用指數:3星」

列聯表分析,用于判斷離散型變量之間是否存在明顯的相關性。例如:績效的等級與性别是否存在相關性。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)5

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)6

04 相關分析「常用指數:4星」

相關分析,用于判斷現象之間的某種關聯關系以及關聯程度,例如:正相關、負相關,在探索性分析中應用較為頻繁。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)7

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)8

05 方差分析「常用指數:2星」

方差分析(又稱F檢驗),用于度量兩個及兩個以上樣本均值差異的顯著性檢驗。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)9

06 回歸分析「常用指數:5星」

回歸分析,用于日常指标的拟合,以及對于未來趨勢的預測,在工作中應用較為廣泛。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)10

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)11

07 聚類分析「常用指數:4星」

聚類分析,用于将用戶/内容,在沒有先驗性指引的情況下,分門别類的進行劃分。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)12

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)13

08 判别分析「常用指數:4星」

判别分析(分類問題),通過研究對象的特征判斷所屬的類别。與聚類分析的差異在于,聚類分析在分析前,不知道類别有幾類以及是什麼,而判别分析是在總體類别已知的情況下,對新樣本判斷所屬群體。

涵蓋内容如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)14

工作中主要應用場景如下:

數據分析統計學如何學習(數據分析常用的10種統計學方法)15

09 主成分分析「常用指數:2星」

主成分分析(Principal Component Analysis,PCA),是将一組可能的相關性變量,轉化成為一組線性不相關的變量,轉化後的這組變量叫做主成分。

主成分分析最大的作用在于「降維」,也可用于「探索變量之間的關系」。簡單解釋一下,在搭建模型過程中,往往會選擇諸多變量作為特征,而這些變量之間也往往存在着相關性,這會引起「多重共線性問題」。因此,需要一種方式,将這些變量轉化為相對獨立且盡可能多的涵蓋原始變量的信息,主成分則是其中的一種方式,将原始變量轉化為幾個相互無關的新變量。

掃盲 - 多重共線性問題 自變量(特征)之間由于存在相關關系,從而使得模型估計失真 (結果不穩定,例如:随機森林特征貢獻度,多次運行出來的結果差異較大)。

10 因子分析「常用指數:2星」

因子分析的作用同主成分分析一樣,同樣是為了「降維」。原理是在多自變量之間,尋找潛在的因子,相似變量歸為一個因子,通過因子替代原有的自變量。

與主成分分析相同之處:起到清理原始自變量中内在關系的作用。

與主成分分析不同之處:主成分分析重在歸總變量的信息,而因子分析重在解釋變量的信息,主成分分析是因子分析的子集。

以上10種統計學方法在工作中較為常見,但方式不止于此,還包括:信度分析、生存分析、多重響應分析、距離分析等。有待你在工作中不斷探索、發掘場景,并将知識應用其中。


以上就是本期的内容分享

如果你也對數據分析感興趣,那就來關注我吧,更多「原創」文章,與你分享!!

小火龍說數據

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved