tft每日頭條

 > 科技

 > 同時效度中皮爾遜積矩相關系數計算與應用

同時效度中皮爾遜積矩相關系數計算與應用

科技 更新时间:2024-09-27 11:28:14

在NSCA-CSCS測試中,同時效度是指測試得分與相同能力的其他公認的測試得分之間的相關程度,這種相關程度可以使用統計學上的皮爾遜積矩相關系數進行計算。例如,一種新的身體脂肪評估裝置得分和雙能X射線吸收儀器得分的皮爾遜積矩相關系數将提供了一種衡量測試同時效度的方法。

在統計學中,皮爾遜積矩相關系數(Pearson product-moment correlation coefficient,又稱作 PPMCCPCCs, 常用r或Pearson's r表示)用于度量兩個變量X和Y之間的相關(線性相關),其值介于-1與1之間。在自然科學領域中,該系數廣泛用于度量兩個變量之間的相關程度。它是由卡爾·皮爾遜從弗朗西斯·高爾頓在19世紀80年代提出的一個相似卻又稍有不同的想法演變而來。這個相關系數也稱作“皮爾森相關系數r”。

定義

兩個變量之間的皮爾遜相關系數定義為兩個變量之間的協方差和标準差的商: [1]

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)1

上式定義了總體相關系數,常用希臘小寫字母ρ(rho) 作為代表符号。估算樣本的協方差和标準差,可得到樣本相關系數(樣本皮爾遜系數),常用英文小寫字母 r 代表:

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)2

r 亦可由

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)3

樣本點的标準分數均值估計,得到與上式等價的表達式:

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)4

其中

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)5

分别是對

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)6

樣本的标準分數、樣本平均值和樣本标準差。

數學特性

總體和樣本皮爾遜系數的絕對值小于或等于1。如果樣本數據點精确地落在直線上(計算樣本皮爾遜系數的情況),或者雙變量分布完全在直線上(計算總體皮爾遜系數的情況),則相關系數等于1或-1。皮爾遜系數是對稱的:corr(X,Y)=corr(Y,X)。

皮爾遜相關系數有一個重要的數學特性是,因兩個變量的位置和尺度的變化并不會引起該系數的改變,即它該變化的不變量(由符号确定)。也就是說,我們如果把X移動到a bX和把Y移動到c dY,其中a、b、c和d是常數,并不會改變兩個變量的相關系數(該結論在總體和樣本皮爾遜相關系數中都成立)。我們發現更一般的線性變換則會改變相關系數:參見之後章節對該特性應用的介紹。

由于μX= E(X), σX= E[(X−E(X))] =E(X)−E(X),Y也類似, 并且

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)7

故相關系數也可以表示成

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)8

對于樣本皮爾遜相關系數:

同時效度中皮爾遜積矩相關系數計算與應用(同時效度中皮爾遜積矩相關系數計算與應用)9

以上方程給出了計算樣本皮爾遜相關系數簡單的單流程算法,但是其依賴于涉及到的數據,有時它可能是數值不穩定的。

數據分布的敏感度存在性

總體皮爾遜相關系數被定義成矩, 因此任意的雙變量概率分布是非零的, 也就是說總體協方差和邊緣總體方差是由定義的。 一些概率分布, 諸如柯西分布有未定義的方差,因此XorY如果服從這種分布,ρ便是未定義的。 在實際應用中, 如果有數據被懷疑服從重尾分布, 這個條件就需要引起重視。 然而, 相關系數的存在性通常并需要太介意; 例如, 如果分布是有界的, ρ 便總是有意義的。

大樣本的特性

在雙變量正态分布的案例中, 隻要邊緣均值和方差是已知的,總體相關系數描述的是便是聯合分布。 在其他的雙變量分布中,這個結論并不正确。 總之, 不論兩個随機變量的聯合分布是不是正态的,相關系數在研究的它們之間的線性依賴性都是有幫助的。樣本相關系數是對兩個正态分布變量總體相關系數的最大似然估計并且是漸進無偏的 和有效的, 這也就是說如果數據是正态的并且樣本容量是中等的或大量的,就不可能構造出一個比樣本相關系數更準确地估計。對于非正态的數據, 樣本相關系數大緻上是無偏的,但有可能是無效的。 隻要樣本均值、方差和協方差是一緻的(當大數定理可以應用的情況下),樣本相關系數是總體相關系數的一緻估計。

穩健性

與其他常用的統計指标相似的, 樣本指标r不是穩健的。因此如果由異常值,這個指标是有誤導性的。特别的, PMCC 既不是穩健分布的,也不是異常值穩健的(seeRobust statistics#Definition)。 對XY的散點圖的觀察可以很明顯的揭示出缺乏穩健性的情況,在這種情況下,采用的聯合的方法是比較明智的。 注意到,雖然大多數穩健的估計器從某種程度上說都是有統計依賴的, 它們總的來說,在總體相關系數的尺度上都是可辨的。

基于皮爾遜相關系數的統計推斷對數據分布式敏感的。 如果數據大緻是正态分布的,可以使用精确檢驗和基于Fisher變換的漸進檢驗,但是它們可能由誤導性。 在一些情況下,自助采樣可以用來構造置信區間。 同時,重複抽樣可以應用在假設檢驗中。 這些非參數化的方法在某些情況下,如雙變量正态分布不能保證時,可能得出更有意義的結論。 然而,這些方法的标準形式依賴于數據的可交換性。這也就意味着被分析的數據時沒有順序地和組别的。因為這有可能會影響估計相關系數的特性。

分層分析是一種容許缺少雙變量正态性的方法,或者說是用來隔離相互關聯因素的關聯結果。 如果W代表聚類成員或者其它需要被控制的因素,我們可以分離基于W的數據, 然後我們可以再每個層裡計算相關系數。 當我們控制變量W,我們便能在層的等級上估計與所有相關系數相關的各自的相關系數。

強噪聲條件下

強噪聲條件下,提取相關系數兩個随機變量之間的是平凡的,特别是在典型相關分析報告在退化的相關值的情況下,由于存在大量噪聲。一種概括的方法在其他地方給出。

維基百科中相關條目
  • 相關
  • 史匹曼等級相關系數
  • 相關
  • Disattenuation
  • Maximal information coefficient

參考資料:

  • 1. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59–66, February 1988.
,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved