PCA(Principal Component Analysis)是一種常用的數據分析方法。PCA通過線性變換将原始數據變換為一組各維度線性無關的表示,廣泛應用于數據降維度。
PCA-最直觀認識首先,讓我們通過一個生活中的例子,告訴你PCA的精髓!
請看下面這張漫畫,你發現是哪位明星了嗎?
猜猜漫畫畫的是誰?
很明顯,就是趙薇!其實這張漫畫和趙薇本人并不完全像。但是,大部分人卻能夠輕易的聯系到趙薇。
這是為什麼呢?因為你抓住了這張圖片中人數的主要特征,就是大眼睛。而演員趙薇本人最具辨識度的特征也就是這個大眼睛了。
其實你在記人臉的時候,并沒有記住臉上的所有特征,而是選擇主要特征進行記憶。
趙薇本人
你根本不知道趙薇有多少根睫毛吧!!!因為睫毛這種東西,基本不是人臉上的主要特征。或者說,睫毛的變異程度是比較小的,想象一下睫毛長度在人群中的方差大概是多少,不會太大。而眼睛、嘴巴這些就不一樣了。所以我們用五官端正來形容一個人長得不錯,因為五官就是人臉的五個主要特征。
那麼,從這個例子出發,我們來看看PCA是什麼。
統計分析時(就像我們研究人臉時),變量個數太多就會增加研究複雜性(數睫毛、數毛孔,這種細節對于判斷一個人長得好不好看的幫助比較小,而且浪費時間)。根據實際需要從中可以取出幾個較少的綜合變量(把五官挑出來)盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,是用來降維的一種方法。
定義:利用正交變換來對一系列可能相關的變量的觀測值進行線性變換,從而投影為一系列線性不相關變量的值,這些不相關變量稱為主成分(Principal Components)。
理論基礎:最大方差理論在信号處理中認為信号具有較大的方差,噪聲有較小的方差,信噪比就是信号與噪聲的方差比,越大越好。
PCA就是找出數據裡最主要的方面(信号),用數據裡最主要的方面來代替原始數據(去掉噪聲)。通過這種方法,既能夠減少數據集的維數,也能保持數據集中的對方差貢獻最大的特征。
從黑色坐标軸,到紅色坐标軸,圖中數據經過了從原始空間(黑色坐标系)到新空間(紅色坐标系)的轉換,聯系到數學中的線性代數,PCA的轉化過程可以視作對原始數據進行線性變換。
使得數據變換到一個新的坐标系統後,數據在第一個坐标(稱為第一主成分)上投影的方差最大,在第二個坐标(第二主成分)上投影的方差第二大,依次類推。
步驟PCA方法主要是通過對協方差矩陣進行特征分解,以得出數據的主成分(即特征向量)與它們的權值(即特征值)。
樣本數據-矩陣
協方差矩陣乘以系數
映射新坐标系
下标c表示協方差矩陣
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!