概率論中有兩個數學算法「協方差」與「相關系數」,聽起來很深奧,其實很簡單,Challey将在本文中通過一個生活實例通俗易懂地解釋這兩個算法。
變量 A 與變量 B 有關系嗎?
如果我們有身高和體重數據,我們想分析這兩個變量之間的關系。答案是使用協方差和相關分析。
協方差
協方差可視化
協方差用于确定兩個變量是否相關。需要看的是這個值是正數還是負數。如果為正,則它們向同一方向移動(正協方差)。如果它是負的,則它們朝相反的方向移動(負協方差)。協方差值無法描述關系有多強。
協方差公式
在哪裡:
兩個變量 x 和 y 之間的協方差是每個項目的差異與其各自均值的乘積之和除以數據集中的項目數減一。
相關性
如果我們想知道兩個變量之間的關系有多強,我們可以使用相關性。協方差值可能會有所不同,因為數字的規模也不同。因此,相關性被用作将值從 -1 到 1 的協方差歸一化的結果。我們将協方差分别除以 x 和 y 的方差根,得到一個在 -1 到 1 之間變化的相關系數。
相關公式
COV ( x, y ) = 變量x和y的協方差σ 2 x = 變量x的樣本方差σ 2 y = 變量y的樣本方差
相關系數的意義
結語
如何解釋相關性?其實很簡答:相關性的方向可以從其值得知,正或負。正相關意味着一個變量的增加導緻另一個變量的附加值。反之則呈負相關。如果值接近 1 或 -1,則相關性很強。同時,越接近0,相關性越弱或不相關。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!