tft每日頭條

 > 科技

 > 主成分分析法案例講解

主成分分析法案例講解

科技 更新时间:2024-10-05 09:56:54

PCA(Principal Component Analysis)是一種常用的數據分析方法。PCA通過線性變換将原始數據變換為一組各維度線性無關的表示,廣泛應用于數據降維度。

PCA-最直觀認識

首先,讓我們通過一個生活中的例子,告訴你PCA的精髓!

請看下面這張漫畫,你發現是哪位明星了嗎?

主成分分析法案例講解(數據分析基礎-主成分分析PCA)1

猜猜漫畫畫的是誰?

很明顯,就是趙薇!其實這張漫畫和趙薇本人并不完全像。但是,大部分人卻能夠輕易的聯系到趙薇。

這是為什麼呢?因為你抓住了這張圖片中人數的主要特征,就是大眼睛。而演員趙薇本人最具辨識度的特征也就是這個大眼睛了。

其實你在記人臉的時候,并沒有記住臉上的所有特征,而是選擇主要特征進行記憶。

主成分分析法案例講解(數據分析基礎-主成分分析PCA)2

趙薇本人

你根本不知道趙薇有多少根睫毛吧!!!因為睫毛這種東西,基本不是人臉上的主要特征。或者說,睫毛的變異程度是比較小的,想象一下睫毛長度在人群中的方差大概是多少不會太大。而眼睛、嘴巴這些就不一樣了。所以我們用五官端正來形容一個人長得不錯,因為五官就是人臉的五個主要特征。

那麼,從這個例子出發,我們來看看PCA是什麼。

主成分分析法案例講解(數據分析基礎-主成分分析PCA)3

統計分析時(就像我們研究人臉時),變量個數太多就會增加研究複雜性(數睫毛、數毛孔,這種細節對于判斷一個人長得好不好看的幫助比較,而且浪費時間)。根據實際需要從中可以取出幾個較少的綜合變量(把五官挑出來)盡可能多地反映原來變量的信息的統計方法叫做主成分分析或稱主分量分析,是用來降維的一種方法。

定義:利用正交變換來對一系列可能相關的變量的觀測值進行線性變換,從而投影為一系列線性不相關變量的值,這些不相關變量稱為主成分(Principal Components)。

理論基礎:最大方差理論

在信号處理中認為信号具有較大的方差,噪聲有較小的方差,信噪比就是信号與噪聲的方差比,越大越好。

PCA就是找出數據裡最主要的方面(信号),用數據裡最主要的方面來代替原始數據(去掉噪聲)。通過這種方法,既能夠減少數據集的維數,也能保持數據集中的對方差貢獻最大的特征。

主成分分析法案例講解(數據分析基礎-主成分分析PCA)4

從黑色坐标軸,到紅色坐标軸,圖中數據經過了從原始空間(黑色坐标系)到新空間(紅色坐标系)的轉換,聯系到數學中的線性代數,PCA的轉化過程可以視作對原始數據進行線性變換

使得數據變換到一個新的坐标系統後,數據在第一個坐标(稱為第一主成分)上投影的方差最大,在第二個坐标(第二主成分)上投影的方差第二大,依次類推。

步驟

PCA方法主要是通過對協方差矩陣進行特征分解,以得出數據的主成分(即特征向量)與它們的權值(即特征值)。

  1. 中心化處理數據後,我們希望
  • 方差盡可能大,滿足下式:

主成分分析法案例講解(數據分析基礎-主成分分析PCA)5

  • 降維後的各特征之間互不相關,協方差=0:

主成分分析法案例講解(數據分析基礎-主成分分析PCA)6

  1. 觀察到的數據,協方差矩陣為:

主成分分析法案例講解(數據分析基礎-主成分分析PCA)7

樣本數據-矩陣

主成分分析法案例講解(數據分析基礎-主成分分析PCA)8

協方差矩陣乘以系數

  1. 轉化後的數據矩陣Y滿足:

主成分分析法案例講解(數據分析基礎-主成分分析PCA)9

映射新坐标系

主成分分析法案例講解(數據分析基礎-主成分分析PCA)10

下标c表示協方差矩陣

  1. 計算得出基向量P
,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关科技资讯推荐

热门科技资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved