主成分分析(principal component analysis,PCA)是機器學習裡常用的無監督學習方法。這個方法利用正交變換,将由線性相關變量表示的觀測數據轉換為由少數幾個線性無關變量表示的數據,線性無關的變量稱為主成分。主成分的個數通常少于原始變量的個數,所以主成分分析屬于降維方法。
主成分分析這一方法主要用來分析數據的基本結構,即數據中變量之間的關系,是數據分析的有力工具,也可以用于其他機器學習方法的預處理,它是多元統計分析中的經典方法。
直觀解釋為什麼要求變量之間線性無關?
如果數據之中的某些維度之間存在較強的線性相關關系,那麼樣本在這些維度上提供的信息有就會一定地重複,所以希望數據各個維度之間是不相關的 (也就是正交的)。
如圖,考慮二維情形,假如x_1和x_2是兩個數據變量,圖中每個點表示一個樣本點,可以看出,這些數據分布在一個以原點為中心的橢圓中,很明顯這兩個變量是線性相關的,因為固定了一個變量後,另外一個變量的取值不是随機的。
主成分分析對數據做正交變換,具體地,對原坐标系進行旋轉變換,将數據在新的坐标系中表示。新的變量是y_1和y_2。可以看出,新的坐标系中,橢圓的長短軸分别對應兩個新的坐标軸。為什麼這樣做呢?因為主成分分析選擇方差最大的方向作為第一主成分,也就是長軸對應的方向;其次選擇方差第二大,且與第一主成分線性無關的方向,即正交的方向,作為第二主成分,即短軸。
在新的坐标系裡,數據中的變量是線性無關的。
樣本主成分分析求解主成分分析的思路就是求得原變量的一系列線性變換,使得新變量y_1(第一主成分)的方差最大,y_2(第二主成分)的方差是和y_1不相關的原變量的所有線性變換中方差最大的,然後在和y_1、y_2線性無關的條件下,分别求y_3,y_4...。
我們下面簡單介紹對樣本的主成分分析算法。
得到k個主成分後,就可以對主成分進行分析,可以通過計算主成分和原變量的相關系數(稱為因子負荷量),來分析哪個原變量和主成分的相關性最高。比如在考試成績的數據中,每個科目都是原變量,求得第一主成分後,假如物理和第一主成分的因子負荷量最高,說明物理對第一主成分影響最大。怎麼分析要結合具體的計算結果和具體的例子。
擴展可以通過核方法隐式地在高維空間中進行主成分分析,相關的方法是核主成分分析。
參考資料:《統計學習方法(第二版)》,李航,清華大學出版社;
歡迎大家在評論區讨論,如有錯誤,歡迎指正,多謝。
喜歡的可以關注一波小編哇,一起讨論,一起學習進步!您的支持,是小編創作的動力!
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!