tft每日頭條

 > 科技

 > 相關系數和關聯系數

相關系數和關聯系數

科技 更新时间:2024-11-09 23:35:55

01

Pearson相關系數的問題

雖然看起來,Pearson相關系數簡直是完美無瑕了!其實不然,Pearson相關系數也存在一些問題。

首先,Pearson相關系數的前提條件是要兩個變量滿足近似正态分布。這要求在計算相關系數前,要作正态性檢驗。而且,多數情況下變量不一定滿足正态分布的,這就無法使用Pearson相關系數。

其次,Pearson相關系數是在方差和協方差的基礎上得到的,對離群值比較敏感。如下圖所示的散點圖,除右上角一個離群值外,其餘數據點呈明顯的線性相關關系,但真實計算出來的Pearson相關系數r=-0.283,P=0.214,顯然Pearson相關系數無法正确衡量X和Y的線性相關性。

相關系數和關聯系數(數據的相關系數種類你知道嗎)1

所以,為了解決這幾個問題,後來數據科學家們又定義了其它幾種相關系數公式。

02

相關系數種類

常用的相關系數主要有三種:Pearson相關系數、Spearman秩相關系數和Kendall τ相關系數。

相關系數和關聯系數(數據的相關系數種類你知道嗎)2

03

Pearson相關系數

相關系數和關聯系數(數據的相關系數種類你知道嗎)3

04

Spearman秩相關系數

Spearman Rank相關系數,即斯皮爾曼秩相關系數(Spearman Rank Order Correlation Coefficient,簡稱SROCC),是英國心理學家、統計學家斯皮爾曼根據積差相關的概念推導而來的。

在Peaarson相關系數中,所有的數據都要參與公式計算,特别是離群值的存在,導緻相關系數的計算不準确。為了避免離群值的影響,在Spearman等級相關系數公式中,并不是采用原始的數據對(xi,yi)來計算,而是利用數據的秩對(Ui,Vi)來定義相關系數。将Pearson相關系數的計算公式中的x和y用相應的秩代替即可得到Spearman相關系數,其公式如下:

相關系數和關聯系數(數據的相關系數種類你知道嗎)4

顯然,Spearman秩相關系數是利用兩變量的秩大小作線性相關分析,對原始變量的正态分布不作要求,屬于非參數統計方法;而且采用秩來計算,避免離群值對相關系數的影響,适用範圍要廣。

05

Kendallτ相關系數

Kendall Rank相關系數,即肯德爾秩相關系數(KROCC),常用希臘字母τ(tau)表示,也是用于度量定序型變量間的線性相關關系,與Spearman秩相關系數基本類似。

但與Spearman相關系數不同的是,Kendallτ相關系數使用秩的同序對(concordant pairs)數目U和異序對(discordant pairs)數目V來計算相關系數。

什麼叫做同序對?即兩個變量的秩同時增大的秩對。

如下所示,假定變量X和變量Y的秩如下,先将X秩按升序排列,然後觀察Y秩,顯然變量Y的秩随變量X的和失同步增大的Y的秩對有(2,3),(2,4),(2,5),(3,4),(3,5),(1,4),(1,5),(4,5),即同序對的數目U共有8對;而變量Y的秩未随變量X的秩同步增大的Y的秩對有(2,1),(3,1),即異序對V共有2對。

相關系數和關聯系數(數據的相關系數種類你知道嗎)5

Kendall 相關系數公式有三個,

相關系數和關聯系數(數據的相關系數種類你知道嗎)6

τa公式适用于數據集中不存在相同數值的情況(即秩是唯一的)。

τb公式适用于數據集中存在相同數值的情況(即秩有重複的)。如果數據集中不存在相同的數值,則τb公式等同于τa公式。

τc公式沒有考慮相同數值帶來的影響,适用于用表格表示的兩變量間相關系數的計算。

Kendall檢驗是一個無參數假設檢驗,使用計算而得的相關系數去檢驗兩個變量的相關顯著性,其顯著性檢驗的統計量為Z統計量,其數學定義為:

相關系數和關聯系數(數據的相關系數種類你知道嗎)7

在樣本容量n充分大時,Z統計量近似服從标準正态分布,即N(,1)。

06

相關系數選擇

如上所述,這三種相關系數計算的公式和原理是不相同的。

Pearson相關系數,适用于連續型變量,且要求兩變量呈正态分布,或接近正态分布,至少是單峰的對稱分布。

Spearman秩相關系數,适用于定序型變量,或者不滿足正态分布的連續型變量。

Kendallτ相關系數,适用場景與Spearman秩相關系數相同。

所以,當變量服從正态分布時,使用Pearson相關系數比其它系數要準确些。

Spearman相關系數和Kendall相關系數,是在數據的相對大小(等價于秩的相對大小)的基礎上得到的,是一種更為一般性的非參數方法,對離群值更穩健(即受離群值影響較小),度量的主要是變量之間的同步增長變化關系。可以這麼理解,即使不是線性相關,隻要是單調變化關系都可以用Spearman相關系數和Kendall相關系數計算。

Kendallτ相關系數,主要描述的是兩組數單調性特征,它不依賴于線性假說,任何一種單調變化(線性或非線性)的關系都可以采用Kendallτ來描述。

所以,在某種程度上,Spearman相關系數和Kendall相關系數比起Pearson相關系數來說更具有通用性。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved