先放一張PCA圖
image.png
主成分分析(Principal Component Analysis)是不是聽起來就一臉懵,下面就讓我們來看看PCA是何方神聖!
01
降維?
主成分分析的字面意思就是用主成分來分析數據呗!闊是,什麼是主成分?這就不得不聊一個關于“降維”的故事了。
“學醫要考研,考研要複試,複試要…要…要…複試不僅讓考生心痛更讓導師眼花缭亂。”這不,A導就糾結着到底選5個複試學生裡的哪一個來當自己的關門弟子?
A導最終決定用數據說話!設置了“績點,考研分數,科研能力,筆試成績,面試表現,英語水平,獎學金,學科競賽,部門任職”9個指标(相當于從9個維度去評價這5位考生)。9個指标=9個變量=9個維度
image.png
image.png
我的三維大腦是搞不定的看來9維是不行了,那怎麼把維度降低,用簡單的方法表示複雜的數據分析?
當然是用降維了!降維是通過減少數據中的指标(或變量)以化簡數據的過程。這裡的減少指标,并不是随意加減,而是用複雜的數理知識,得到幾個“綜合指标”來代表整個數據。
PS:降維的原理涉及複雜數理知識且大多由計算機完成
那麼問題來了!這個“綜合指标”是什麼?為什麼它們就可以代表整個數據?
02
Why
主成分?
綜合指标=主成分
你沒有看錯,這個綜合指标就是我們今天的重點:主成分。它不是原來的指标中的任何一個,而是由所有原有指标數據線性組合而來。
比如A導的故事中的主成分就可這樣表示:
image.png
認識了“主成分”以後,PCA的概念就很容易理解了!
PCA——就是以“降維”為核心,把多指标的數據用少數幾個綜合指标(主成分)替代,還原數據最本質特征的數據處理方式。
可是,主成分為什麼拽到可以代替所有數據?認真看看可以發現部分指标其實是相互關聯的!(比如獎學金也可以反映績點情況),這就會造成數據冗餘。而降維就可以幫助我們去除這些指标中重疊、多餘的信息,把數據最本質和關鍵的信息提取出來。
A導終于可以一眼就區分這5位考生的水平并“理智”地做出選擇了!
image.png
03如何計算
将學生成績表示為矩陣形式,一行代表一個學生,每一列代表一門課的成績
假設找到了一個線性組合(命名為特征矩陣(Yn, k)),其中k<n得到一組新變量Pm, k = Xm, nYn, k,并且新變量的協方差矩陣(Dm, m)為對角陣。設我們有m個n維數據記錄,将其按列排成n乘m的矩陣X,設
image.png
,則C是一個對稱矩陣,其對角線分别個各個特征的方差,而第i行j列和j行i列元素相同,表示i和j兩個特征之間的協方差。設X的協方差矩陣為C(C為對角陣),P的協方差矩陣為D,且Pm, k = Xm, nYn, k ,那麼C與D是什麼關系呢。
image.png
image.png
優化目标變成了尋找一個矩陣Y,滿足YTCY是一個對角矩陣,并且對角元素按從大到小依次排列,那麼Y的前K列就是要尋找的基,用Y的前K列組成的矩陣乘以X就使得X從M維降到了K維并滿足上述優化條件。
image.png
A導可是隻有5位考生,9個指标而已!在我們醫學中!那可是上千的樣本量,上萬的基因數據......在醫學領域中,我們可以用PCA圖來進行疾病危險因素分析,腸道菌群聚類分析,推斷腫瘤亞群之間的進化關系......還用它來觀察樣本的分組、趨勢、剔除異常數據。
所以PCA圖在文獻中出現率還是蠻高的!!!不過遇到它我們怎麼看?深入了解PCA識圖秘籍
樣本點連線距離長 =樣本之間差異性大
樣本點連線距離短 =樣本之間差異性小
image.png
通過主成分分析方法(PCA)分析9種食物的蛋白質消耗量(變量)與25個歐洲國家(樣本)之間的關系由圖可得,大部分歐洲國家蛋白攝入習慣是:吃雞蛋、紅肉(豬牛羊等畜肉)、白肉(禽、魚肉及水産品),喝牛奶。詳細的解析來了!
1、各樣本點連線的距離:體現各國家蛋白攝入習慣的相似性。
2、主成分與原變量之間的關系:箭頭對應的原始變量在投影到水平和垂直方向上後的值,可以分别體現該變量與PC1和PC2的相關性(正負相關性及其大小)(例如,Eggs對PC1具有較大的貢獻,而Nuts則與PC1之間呈較大的負相關性)。
3、樣本點和箭頭之間的距離:反映樣本與原始變量的關系。(對于圖中用藍色粗箭頭所指的樣本點而言,該國的蛋白質來源主要為Fruits and Vegetables)。怎麼樣?有沒有一種豁然開朗的感覺?
什麼?還是懵?
沒關系,繼續看例子
image.png
image.png
image.png
R語言PCA分析代碼
R語言主成分分析(PCA)加“置信橢圓” - 簡書
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!