tft每日頭條

 > 科技

 > 數據分析數學基礎知識

數據分析數學基礎知識

科技 更新时间:2025-01-08 21:55:34

數據分析跟數據打交道,想想是需要大量的數學知識。其實在這個工具豐富的時代,知道一點基礎的數學知識,足矣。

把握全局的第一步:集中趨勢

把握全局的重點是什麼?有人可能會說方差、标準差這樣的比較精準的方法。

其實把握全局的重點就是一個字--快!想想看,股票價格已經快到底了,你還在各種噼裡啪啦量化分析,結果就錯過了時機。天下武功,唯快不破!

快的要訣就是要足夠簡單。這裡重點介紹三個概念:均值、中位數、衆數。你可能小學就學過這幾個概念,可是你真的理解了嗎?

均值

簡單來說,均值就是平均數的一般度量。

大家平時接觸最多的其實是平均數的概念。計算大量數據的平均數的一個方法是:将所有數字加起來,然後除以數字個數。這是均值的特例,因為每個數字的頻數都是1.

均值的符号:μ,這是一個希臘字母(讀作“缪(miu)”)

數據分析數學基礎知識(數據分析裡的基礎數學知識)1

均值公式

有一點确實很重要:在計算均值的時候,要把每個數的頻數考慮進去。為了确保自己不忽略這一點,我們可以把它寫入公式。

數據分析數學基礎知識(數據分析裡的基礎數學知識)2

加入頻數的均值公式

中位數

中位數是一組數據的中間值,表示典型值。

生活中,我們都會被典型所吸引,典型是區别于普通的重要标志。這就像芸芸衆生,人人都喜歡看帥哥、美女。

将n個數字按順序(升序或降序)排列,無論 n 為奇數還是偶數,中位數的位置都為 (n 1) / 2。

掌握中位數,是進階四分位數、百分位數的基礎。

衆數

衆數是數據集中的頻數最大的一個值(類别)。

通俗一點說就是點個數最多的那個。與均值和中位數不同,衆數必須是數據集中的一個值。有時候,數據的衆數可以不止一個。如果有一個以上的數值具有最大的頻數,則每一個這樣的數值都是衆數。如果一批數據有兩個衆數,則我們說這種數據是雙峰數據。

掌握着這三個數值,就能快速把握數據的整體情況。但是一定要記住,隻看這三個數值,是不能準确下結論的。

給數據下結論的關鍵信息:距和差

數據分析的核心是什麼?當然是下結論,尤其是能幫助業務現狀改善的結論。

這裡就要介紹另外三個概念:全距、四分位距、箱線圖。

全距

全距又叫極差,它能指出數據的擴展範圍。計算方法很簡單,全距=最大值-最小值。

平均數讓我們有辦法确定一批數據的中心,卻無法知道數據的變動情況。

全距提供了一種對數據集之間進行比較的方法——全距是度量數據分散程度既簡單又方便的方法。

數據分析數學基礎知識(數據分析裡的基礎數學知識)3

全距

四分位距

四分位距是中位數和全距的延伸。四分位,就是把數據集分成四等份;第一四分位數和第三四分位數之間的差值被稱為四分位距(IQR)。

全距的主要問題是:僅僅描述了數據的寬度,由于全距是通過數據極值計算得出的,很容易受到兩端極值的影響,産生較大偏差。而四分位距就很好地剔除了異常值影響。

數據分析數學基礎知識(數據分析裡的基礎數學知識)4

四分位距(IQR) = 上四分位數(Q3) - 下四分位數(Q1)

箱線圖

箱線圖可以清晰地繪制各種“距”,四分位距、十分位距、百分位距......是數據分析最常用的圖之一。一圖就能清晰準确的表達整個數據集,還可以輕而易舉地發現異常值。

數據分析數學基礎知識(數據分析裡的基礎數學知識)5

箱線圖是一種顯示各種“距”和四分位數的簡明方法

箱線圖看上去複雜,其實在Python裡,matplotlib或seaborn裡的boxplot()函數就能輕松實現。

掌握以上6個概念,基本上就算是數據分析入了門。當然有時,更進一步,我們還需要做預測,就需要一些概率論知識。(下回再介紹)

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved