tft每日頭條

 > 生活

 > pca主成分分析圖怎麼做

pca主成分分析圖怎麼做

生活 更新时间:2025-03-03 05:25:13

先放一張PCA圖

pca主成分分析圖怎麼做(主成分分析PCA)1

image.png

主成分分析(Principal Component Analysis)是不是聽起來就一臉懵,下面就讓我們來看看PCA是何方神聖!

01

降維?

主成分分析的字面意思就是用主成分來分析數據呗!闊是,什麼是主成分?這就不得不聊一個關于“降維”的故事了。

“學醫要考研,考研要複試,複試要…要…要…複試不僅讓考生心痛更讓導師眼花缭亂。”這不,A導就糾結着到底選5個複試學生裡的哪一個來當自己的關門弟子?

A導最終決定用數據說話!設置了“績點,考研分數,科研能力,筆試成績,面試表現,英語水平,獎學金,學科競賽,部門任職”9個指标(相當于從9個維度去評價這5位考生)。9個指标=9個變量=9個維度

pca主成分分析圖怎麼做(主成分分析PCA)2

image.png

pca主成分分析圖怎麼做(主成分分析PCA)3

image.png

我的三維大腦是搞不定的看來9維是不行了,那怎麼把維度降低,用簡單的方法表示複雜的數據分析?

當然是用降維了!降維是通過減少數據中的指标(或變量)以化簡數據的過程。這裡的減少指标,并不是随意加減,而是用複雜的數理知識,得到幾個“綜合指标”來代表整個數據。

PS:降維的原理涉及複雜數理知識且大多由計算機完成

那麼問題來了!這個“綜合指标”是什麼?為什麼它們就可以代表整個數據?

02

Why

主成分?

綜合指标=主成分

你沒有看錯,這個綜合指标就是我們今天的重點:主成分。它不是原來的指标中的任何一個,而是由所有原有指标數據線性組合而來。

比如A導的故事中的主成分就可這樣表示:

pca主成分分析圖怎麼做(主成分分析PCA)4

image.png

認識了“主成分”以後,PCA的概念就很容易理解了!

PCA——就是以“降維”為核心,把多指标的數據用少數幾個綜合指标(主成分)替代,還原數據最本質特征的數據處理方式。

可是,主成分為什麼拽到可以代替所有數據?認真看看可以發現部分指标其實是相互關聯的!(比如獎學金也可以反映績點情況),這就會造成數據冗餘。而降維就可以幫助我們去除這些指标中重疊、多餘的信息,把數據最本質和關鍵的信息提取出來。

A導終于可以一眼就區分這5位考生的水平并“理智”地做出選擇了!

pca主成分分析圖怎麼做(主成分分析PCA)5

image.png

03如何計算

将學生成績表示為矩陣形式,一行代表一個學生,每一列代表一門課的成績

假設找到了一個線性組合(命名為特征矩陣(Yn, k)),其中k<n得到一組新變量Pm, k = Xm, nYn, k,并且新變量的協方差矩陣(Dm, m)為對角陣。設我們有m個n維數據記錄,将其按列排成n乘m的矩陣X,設

pca主成分分析圖怎麼做(主成分分析PCA)6

image.png

,則C是一個對稱矩陣,其對角線分别個各個特征的方差,而第i行j列和j行i列元素相同,表示i和j兩個特征之間的協方差。設X的協方差矩陣為C(C為對角陣),P的協方差矩陣為D,且Pm, k = Xm, nYn, k ,那麼C與D是什麼關系呢。

pca主成分分析圖怎麼做(主成分分析PCA)7

image.png

pca主成分分析圖怎麼做(主成分分析PCA)8

image.png

優化目标變成了尋找一個矩陣Y,滿足YTCY是一個對角矩陣,并且對角元素按從大到小依次排列,那麼Y的前K列就是要尋找的基,用Y的前K列組成的矩陣乘以X就使得X從M維降到了K維并滿足上述優化條件。

pca主成分分析圖怎麼做(主成分分析PCA)9

image.png

A導可是隻有5位考生,9個指标而已!在我們醫學中!那可是上千的樣本量,上萬的基因數據......在醫學領域中,我們可以用PCA圖來進行疾病危險因素分析,腸道菌群聚類分析,推斷腫瘤亞群之間的進化關系......還用它來觀察樣本的分組、趨勢、剔除異常數據。

所以PCA圖在文獻中出現率還是蠻高的!!!不過遇到它我們怎麼看?深入了解PCA識圖秘籍

樣本點連線距離長 =樣本之間差異性大

樣本點連線距離短 =樣本之間差異性小

pca主成分分析圖怎麼做(主成分分析PCA)10

image.png

通過主成分分析方法(PCA)分析9種食物的蛋白質消耗量(變量)與25個歐洲國家(樣本)之間的關系由圖可得,大部分歐洲國家蛋白攝入習慣是:吃雞蛋、紅肉(豬牛羊等畜肉)、白肉(禽、魚肉及水産品),喝牛奶。詳細的解析來了!

1、各樣本點連線的距離:體現各國家蛋白攝入習慣的相似性。

2、主成分與原變量之間的關系:箭頭對應的原始變量在投影到水平和垂直方向上後的值,可以分别體現該變量與PC1和PC2的相關性(正負相關性及其大小)(例如,Eggs對PC1具有較大的貢獻,而Nuts則與PC1之間呈較大的負相關性)。

3、樣本點和箭頭之間的距離:反映樣本與原始變量的關系。(對于圖中用藍色粗箭頭所指的樣本點而言,該國的蛋白質來源主要為Fruits and Vegetables)。怎麼樣?有沒有一種豁然開朗的感覺?

什麼?還是懵?

沒關系,繼續看例子

pca主成分分析圖怎麼做(主成分分析PCA)11

image.png

pca主成分分析圖怎麼做(主成分分析PCA)12

image.png

pca主成分分析圖怎麼做(主成分分析PCA)13

image.png

R語言PCA分析代碼

R語言主成分分析(PCA)加“置信橢圓” - 簡書

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved