最早接觸pearson相關系數時,是在大學《概率論與數理統計》課本中,後來從事數據分析挖掘相關的工作,經常會用到評價兩組數據之間的相關性,于是找到了皮爾森(pearson)相關系數。其實,還有一種相關系數斯皮爾曼(spearman)相關系數,肯德爾(kendall)相關系數。
在這三大相關系數中,spearman和kendall屬于等級相關系數亦稱為"秩相關系數",是反映等級相關程度的統計分析指标。今天先不介紹。
今天先聊一下比較常用的pearson相關系數。
用數學公式表示,皮爾森相關系數等于兩個變量的協方差除于兩個變量的标準差,先看一下公式:
pearson是一個介于-1和1之間的值,用來描述兩組線性的數據一同變化移動的趨勢。
當兩個變量的線性關系增強時,相關系數趨于1或-1;
當一個變量增大,另一個變量也增大時,表明它們之間是正相關的,相關系數大于0;
如果一個變量增大,另一個變量卻減小,表明它們之間是負相關的,相關系數小于0;
如果相關系數等于0,表明它們之間不存在線性相關關系。
pearson相關系數在python中的實現:
1,numpy庫中實現:
相關系數的對角矩陣
2,在scipy中實現,主要是在stats包中實現
得到的結果是一個元組,第一個元素是相關系數,第二個是P值,p-value越小,表示相關程度越顯著。
3,在pandas中運用,日常處理數據都是用pandas,這個當然少不了喽
得到的也是一個相關系數數據
皮爾遜相關系數的适用範圍:
當兩個變量的标準差都不為零時,相關系數才有定義,皮爾遜相關系數适用于:
1. 兩個變量之間是線性關系,都是連續數據。
2. 兩個變量的總體是正态分布,或接近正态的單峰分布。
3. 兩個變量的觀測值是成對的,每對觀測值之間相互獨立。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!