數據分析跟數據打交道,想想是需要大量的數學知識。其實在這個工具豐富的時代,知道一點基礎的數學知識,足矣。
把握全局的第一步:集中趨勢
把握全局的重點是什麼?有人可能會說方差、标準差這樣的比較精準的方法。
其實把握全局的重點就是一個字--快!想想看,股票價格已經快到底了,你還在各種噼裡啪啦量化分析,結果就錯過了時機。天下武功,唯快不破!
快的要訣就是要足夠簡單。這裡重點介紹三個概念:均值、中位數、衆數。你可能小學就學過這幾個概念,可是你真的理解了嗎?
均值
簡單來說,均值就是平均數的一般度量。
大家平時接觸最多的其實是平均數的概念。計算大量數據的平均數的一個方法是:将所有數字加起來,然後除以數字個數。這是均值的特例,因為每個數字的頻數都是1.
均值的符号:μ,這是一個希臘字母(讀作“缪(miu)”)
均值公式
有一點确實很重要:在計算均值的時候,要把每個數的頻數考慮進去。為了确保自己不忽略這一點,我們可以把它寫入公式。
加入頻數的均值公式
中位數
中位數是一組數據的中間值,表示典型值。
生活中,我們都會被典型所吸引,典型是區别于普通的重要标志。這就像芸芸衆生,人人都喜歡看帥哥、美女。
将n個數字按順序(升序或降序)排列,無論 n 為奇數還是偶數,中位數的位置都為 (n 1) / 2。
掌握中位數,是進階四分位數、百分位數的基礎。
衆數
衆數是數據集中的頻數最大的一個值(類别)。
通俗一點說就是點個數最多的那個。與均值和中位數不同,衆數必須是數據集中的一個值。有時候,數據的衆數可以不止一個。如果有一個以上的數值具有最大的頻數,則每一個這樣的數值都是衆數。如果一批數據有兩個衆數,則我們說這種數據是雙峰數據。
掌握着這三個數值,就能快速把握數據的整體情況。但是一定要記住,隻看這三個數值,是不能準确下結論的。
給數據下結論的關鍵信息:距和差
數據分析的核心是什麼?當然是下結論,尤其是能幫助業務現狀改善的結論。
這裡就要介紹另外三個概念:全距、四分位距、箱線圖。
全距
全距又叫極差,它能指出數據的擴展範圍。計算方法很簡單,全距=最大值-最小值。
平均數讓我們有辦法确定一批數據的中心,卻無法知道數據的變動情況。
全距提供了一種對數據集之間進行比較的方法——全距是度量數據分散程度既簡單又方便的方法。
全距
四分位距
四分位距是中位數和全距的延伸。四分位,就是把數據集分成四等份;第一四分位數和第三四分位數之間的差值被稱為四分位距(IQR)。
全距的主要問題是:僅僅描述了數據的寬度,由于全距是通過數據極值計算得出的,很容易受到兩端極值的影響,産生較大偏差。而四分位距就很好地剔除了異常值影響。
四分位距(IQR) = 上四分位數(Q3) - 下四分位數(Q1)
箱線圖
箱線圖可以清晰地繪制各種“距”,四分位距、十分位距、百分位距......是數據分析最常用的圖之一。一圖就能清晰準确的表達整個數據集,還可以輕而易舉地發現異常值。
箱線圖是一種顯示各種“距”和四分位數的簡明方法
箱線圖看上去複雜,其實在Python裡,matplotlib或seaborn裡的boxplot()函數就能輕松實現。
掌握以上6個概念,基本上就算是數據分析入了門。當然有時,更進一步,我們還需要做預測,就需要一些概率論知識。(下回再介紹)
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!