相關系數是用來衡量兩個變量間的線性關系,取值範圍為-1~ 1。相關系數為正表示變量間正相關(一個增長,另一個也增長),為負則表示負相關(一個增加,則另一個減少),越接近于0則表示關系越弱。
兩個觀測值序列X與Y間的相關系數定義如下:
相關系數定義式
注:其中Cov表示協方差,std表示标準差
相關性 vs 協方差相關性是協方差标準化後的形式,在部分場合下兩者是可以互換的,但本質上還是不同的。
我們先來看看如何獲取兩個變量X,Y之間的協方差:
示例代碼
可以看到這裡通過'[0][1]‘來獲取了最終的結果,這裡就要引入協方差矩陣了,協方差矩陣包含了任意兩元素的協方差,正對角線上表示一個元素與其自身的協方差(也就是其方差,COV(X,X)=var(X)),據此,相關系數的表達式又可有如下的表示:
相關系數定義式變換
相關系數就是協方差使用X與Y的标準差進行标準化的結果,對應于協方差矩陣,也就存在對應的相關系數矩陣。
示例接下來我們通過構造數據來觀察下相關系數矩陣:
第一步,我們構造一個存在線性關系的X與Y來看一看
協方差矩陣與相關系數矩陣
注:可以看到最終相關系數矩陣中元素全部為1
繪制出的圖形中所有所有的店都在一條直線上
繪制圖形
第二步,我們在X上加入人為的噪聲數據,噪聲數據我們通過np.random.normal()函數生成一個均值為0,标準差為0.1的正态分布序列,從散點圖上可以看出,已經在線性的基礎上發生了一些偏離
加入噪聲數據後
此時,我們再計算一下相關系數矩陣:
引入噪聲後相關系數矩陣
注:可以看到X與Y的相關系數已經從1下降為0.94
第三步,我們将噪聲數據偏離程度再加大寫,标準差由0.1調整為0.2,再來看看現在的散點圖
加大噪聲數據後散點圖
可以看到線性關系變得更加不明顯,再次來計算下相關系數矩陣
噪聲加強後的相關系數矩陣
可以看到相關系數确實進一步降低了。
相關系數在金融中的應用一旦我們從序列數據中找出了關聯性,就可以利用其去預測未來的資産價格。通過蘋果公司(AAPL)與半導體制造商泛林(LRCX)股票價格數據,可以得到其之間明顯存在線性關系。
示例代碼
繪制出得散點圖也可看出明顯的線性關系:
散點圖
同時,在構建投資組合時,通常為了降低組合風險程度,保持組合收益的穩定性,需要引入非關聯性資産。
相關性分析使用限制相關性分析是金融分析中一個強有力的工具,但是其也有很多使用的限制
顯著性
很難嚴格地去斷定相關性是否顯著,尤其是變量不滿足正态分布時。例如上文中蘋果與泛林間相關系數很接近于1,可以認為在選定的時期内兩者的股價線性關聯很強,但是未來是否還會保持這種線性關系,不得而知。。我們如果引入标普500ETF的價格數據,可以發現蘋果、泛林都與其有很強的相關性,所以隻能說蘋果與泛林間的線性關系略高于普通股票而已。
示例代碼
非線性關系
相關系數可以有效的檢查兩個變量間的線性關系強弱,但是對于非線性關系則不能很好的處理,例如一個變量會随另一個變量變化,但存在時間上的延遲,這塊就需要專門的延時相關性分析去處理。
同時,相關性分析對于異常值還非常敏感,一旦出現異常值,會對最終結果造成很大的影響。
本篇就到這裡,感謝閱讀,歡迎訂閱:)
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!