相關系數是最早由統計學家卡爾·皮爾遜設計的統計指标,是研究變量之間線性相關程度的量。由于研究對象的不同,相關系數有多種定義方式,較為常用的是皮爾遜相關系數。
相關表和相關圖可反映兩個變量之間的相互關系及其相關方向,但無法确切地表明兩個變量之間相關的程度。相關系數是用以反映變量之間相關關系密切程度的統計指标。相關系數是按積差方法計算,同樣以兩變量與各自平均值的離差為基礎,通過兩個離差相乘來反映兩變量之間相關程度;着重研究線性的單相關系數。
需要說明的是,皮爾遜相關系數并不是唯一的相關系數,但是最常見的相關系數,以下解釋都是針對皮爾遜相關系數。
首先看相關系數如何導出。我們知道,兩個相互獨立的随機變量之和的方差,可以進行如下推導:
由此引出了協方差和相關系數的定義:
圖一
由圖一可以看出,當X,Y相互獨立時,由于其協方差為0,所以其相關系數也為0。當兩者線性相關時,也就是圖二中的各種情況,即當Y=kX b的時候,将其代入圖一中的相關系數進行計算後可以得出其結果為1和-1。
圖二
由圖一和圖二得出結論:當兩個随機變量相互獨立時,其相關系數為0;當兩者線性相關時,其相關系數為1或-1。這是相關系數的三個極端情況,那麼如何理解相關系數處于-1和1之間代表的意義呢?
圖三
圖三中Y=2X,屬于完全正線性相關,相關系數自然等于1。然後我們改變其中幾個數字:
圖四
相關系數變成0.91。繼續改變數字:
圖五
相關系數變成負的了。由此我們可以看出相關系數的含義了。其數值範圍由最大的正線性相關1可以慢慢變成負線性相關的-1。為什麼會出現這種情況呢?我們看圖一中相關系數的定義,其分子為
E{(X-E(X))(Y-E(Y)},再看圖三,其中X和Y的平均值分别為6和12,(X-E(X))和(Y-E(Y))要麼同時為正,要麼同時為負,所以圖三的相關系數最終是由6個正數相加而成,數值較大;而圖四中,當X=4,Y=14的時候,出現了(X-E(X))和(Y-E(Y))正負相反的情況,所以相關系數的最終結果出現了正負抵消的情況,數值出現了下降;圖五則是相關系數中{(X-E(X))(Y-E(Y)}兩者6個乘積的結果裡面負數的總和大于正數,所以相關系數最終結果值為負。
我們還要注意到,相關系數定義中的分母總是正的。
總的來看,相關系數是用來度量一對數組中相對應的兩個點圍繞其各自的平均值增加和減少方向一緻程度大小的量。
相關系數的概念比較重要,由相關系數引申出了信号分析中的相關函數、自相關函數和互相關函數等,也引申出了随機過程中的自相關遍曆等概念,所以準确把握相關系數的含義,對于進一步深入學習很有幫助。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!