特征值和特征向量具有良好的性質,是線性代數中的重要概念之一,在多元統計分析方法中也具有重要的應用。
在數學上,特别是線性代數中, A為n階矩陣,若數λ和n維非0列向量v,滿足Av=λv,那麼數λ稱為A的特征值,v稱為A的對應于特征值λ的特征向量。
在多元統計中,特征值和特征向量主要在PCA主成分分析及FA因子分析中發揮作用。
在主成分分析中
- 特征向量正交化保證了主成分之間具有兩兩互不相關的性質
- 單位化使主成分表達式中線性組合的系數更加簡單;
- 主成分的方差等于構成線性組合的特征向量相應的特征值,特征值的總和與原始變量的方差的總和相等,表示所有的主成分恰好反映了所有原始變量的全部信息
- 特征值在選取主成分的過程中通過限定方差貢獻程度,控制包含較多信息的主成分。
特征向量之間是正交的。
特征值的總和=矩陣R的迹(主對角線元素的總和)=總方差。
特征值的乘積=矩陣的行列式值=廣義方差。
在因子分析中
- 特征值和特征向量用于對因子模型進行估計在對應分析中用于計算因子載荷矩陣。
進一步解釋特征值/向量的作用,本文假設一個雙變量模型。
給定相關系數矩陣R,從中得出2對特征值和特征向量。
特征向量描述了這個橢圓的兩條軸的方向。橢圓軸的半長和特征值的平方根是成比例的。所以,在2個變量時,特征值比較大的特征向量對應的就是長軸方向。因為這裡隻有2個維度,所以是一個平面圖形。
原坐标系中,每個樣本都對應了一個橫縱坐标。現在,有了特征向量後,我們順着特征向量的方向畫兩條新軸,也就是圍繞橢圓建立新軸。因為軸心沒有改變,所以每個樣本與軸心的距離是不會改變的。改變的隻有橫縱坐标。
因為軸的順序是按照特征值的大小排序的,所以在解釋樣本變異方向時,排序在前的軸重要性更高。
實例:如下圖,特征值總和都是2。但是每張圖有不一樣的特征值和特征向量。
左圖:兩個特征值很接近,因此橢圓的兩條軸長度就相近。因此,樣本的散落的位置接近于一個圓形。λ1稍微大一些,因此,紅軸重要性稍微更高一些,我們可以推測可能存在一些負相關性,但也非常微小,接近于0,幾乎不相關。
中間:λ1對應紅軸,負方向。λ2對應綠軸,正方向。λ1>λ2,推斷負相關是更加普遍的趨勢,但是正相關也是存在的,所以這描述的是程度中等的負相關關系。
右圖:λ1遠大于λ2。說明紅軸代表的正相關關系非常強烈,沿着綠軸可以發現,樣本變異程度很小,因此推斷,本樣本間仍然以正相關關系為主。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!