主成分分析後的數據如何處理-tft每日頭條

主成分分析後的數據如何處理

科技更新时间:2026-02-26 01:54:51

主成分分析後的數據如何處理（五步掌握主成分分析法）1

本文的目的是為主成分分析（PCA）提供一個完整且簡單的解釋，特别是其運作方式，以增進大家對該分析法的理解并加以利用，而不必具有強大的數學背景。

PCA實際上是網上廣泛提及的一種方法，很多文章都有涉及。但是，隻有極少數文章能直接切入主題，并在不過多鑽研技術細節的前提下解釋PCA的工作原理以及“為什麼”。這就是這篇文章的目的：以更簡單的方式解釋主成分分析法。

在開始解釋之前，本文提供了PCA在每一步驟的運作原理的邏輯解釋，簡化了其背後的數學概念，如标準化，協方差，特征向量和特征值，而暫未關注如何運算的問題。

主成分分析後的數據如何處理（五步掌握主成分分析法）2

什麼是PCA？

PCA是一種常用于減少大數據集維數的降維方法，把大變量集轉換為仍包含大變量集中大部分信息的較小變量集。

減少數據集的變量數量，自然是以犧牲精度為代價的，降維的好處是以略低的精度換取簡便。因為較小的數據集更易于探索和可視化，并且使機器學習算法更容易和更快地分析數據，而不需處理無關變量。

總而言之，PCA的概念很簡單——減少數據集的變量數量，同時保留盡可能多的信息。

主成分分析後的數據如何處理（五步掌握主成分分析法）2

逐步解釋

第1步：标準化

這一步的目的是把輸入數據集變量的範圍标準化，以使它們中的每一個均可大緻成比例地分析。

更具體地說，在使用PCA之前必須标準化數據的原因是PCA對初始變量的方差非常敏感。也就是說，如果初始變量的範圍之間存在較大差異，那麼範圍較大的變量将占據範圍較小的變量（例如，範圍介于0和100之間的變量将占據0到1之間的變量），這将導緻主成分的偏差。因此，将數據轉換為可比較的比例可避免此問題。

在數學上，這一步可以通過減去平均值，再除以每個變量值的标準偏差來完成。

主成分分析後的數據如何處理（五步掌握主成分分析法）4

隻要标準化完成後，所有變量都将轉換為相同的範圍[0,1]。

第2步：協方差矩陣計算

這一步的目的是：了解輸入數據集的變量是如何相對于平均值變化的。或者換句話說，是為了查看它們之間是否存在任何關系。因為有時候，變量間高度相關是因為它們包含大量的信息。因此，為了識别這些相關性，我們進行協方差矩陣計算。

協方差矩陣是p×p對稱矩陣（其中p是維數），其所有可能的初始變量與相關聯的協方差作為條目。例如，對于具有3個變量x，y和z的三維數據集，協方差矩陣是以下的3×3矩陣：

主成分分析後的數據如何處理（五步掌握主成分分析法）5

由于變量與其自身的協方差是其方差（Cov（a，a）= Var（a）），因此在主對角線（左上角到右下角）中，實際上有每個起始變量的方差。并且由于協方差是可交換的（Cov（a，b）= Cov（b，a）），協方差矩陣的條目相對于主對角線是對稱的，這意味着上三角形部分和下三角形部分是相等的。

作為矩陣條目的協方差告訴我們變量之間的相關性是什麼呢？

協方差的重要标志如下：

· 如果為正，則兩個變量同時增加或減少（相關）

· 如果為負，則一個減少，另一個增加（不相關）

好了，現在我們知道協方差矩陣隻不過是一個表，彙總了所有可能配對的變量間相關性。讓我們繼續下一步。

第3步：計算協方差矩陣的特征向量和特征值，用以識别主成分

特征向量和特征值都是線性代數概念，需要從協方差矩陣計算得出，以便确定數據的主成分。開始解釋這些概念之前，讓我們首先理解主成分的含義。

主成分是由初始變量的線性組合或混合構成的新變量。該組合中新變量（如主成分）之間彼此不相關，且大部分初始變量都被壓縮進首個成分中。所以，10維數據會顯示10個主成分，但是PCA試圖在第一個成分中得到盡可能多的信息，然後在第二個成分中得到盡可能多的剩餘信息，以此類推。

例如，假設你有一個10維數據，你最終将得到的内容如下面的屏幕圖所示，其中第一個主成分包含原始數據集的大部分信息，而最後一個主成分隻包含其中的很少部分。因此，以這種方式組織信息，可以在不丢失太多信息的情況下減少維度，而這需要丢棄攜帶較少信息的成分。

主成分分析後的數據如何處理（五步掌握主成分分析法）6

要認識到一件重要的事情是，既然新變量被構造為初始變量的線性組合，它們将更加難以解釋，并且對我們沒有任何實際意義。

從幾何學上講，主成分代表了解釋最大方差量的數據方向，也就是說，它們是捕獲數據中大部分信息的線。在這裡，方差和信息間的關系是，線所承載的方差越大，數據點沿着它的分散也越大，沿着線的散點越多，它所攜帶的信息也越多。簡單地說，隻要把主成分看作是提供最佳角度來觀察和評估數據的新軸，這樣觀測結果之間的差異就會更明顯。

PCA如何構建主成分？

由于主成分的數量，如同數據中存在的變量一樣多，因此主成分根據第一主成分占數據集中最大可能方差的方式進行構造。例如，假設我們的數據集的散點圖如下所示，可以猜出第一個主成分嗎？是的，就是大緻與紫色标記匹配的線。因為它穿過原點，并且它是點（紅點）的投影最分散的線。或者從數學上來講，它是方差最大化的線（從投影點（紅點）到原點的平方距離的平均值）。

主成分分析後的數據如何處理（五步掌握主成分分析法）7

第二主成分以相同的方式計算，條件是它與第一主成分并不相關（即垂直），并且它占第二高方差。

直到計算出p個主成分數量，等于原始變量數。

現在我們理解了主成分的含義，讓我們回到特征向量和特征值。首先，你需要知道的是它們總是成對出現，因此每個特征向量都有一個特征值，它們的數量等于數據的維數。例如，對于三維數據集，存在3個變量，因此存在3個具有對應特征值的特征向量。

不用多說，上面解釋的所有“魔法”都是特征向量和特征值，因為協方差矩陣的特征向量實際上是方差最多的軸的方向（或最多的信息），我們稱之為主成分。并且，特征值隻是附加到特征向量上的系數，它們給出了每個主成分中攜帶的方差量。

通過特征值的順序對特征向量進行排序，從最高到最低，你就得到了按重要性排序的主成分。

舉例：

假設我們的數據集是2維的，有2個變量x，y，并且協方差矩陣的特征向量和特征值如下：

主成分分析後的數據如何處理（五步掌握主成分分析法）8

如果我們按降序對特征值進行排序，則得到λ1>λ2，這意味着與第一主成分（PC1）對應的特征向量是v1，而與第二成分（PC2）對應的特征向量是v2。

在有了主成分之後，為了計算每個成分所占的方差（信息）百分比，我們将每個成分的特征值除以特征值的總和。如果我們把這個計算法應用到上面的例子中，我們會發現，PC1和PC2分别攜帶了96％和4％的數據方差。

第4步：特征向量

正如我們在上一步中所看到的，計算特征向量并按其特征值依降序排列，使我們能夠按重要性順序找到主成分。在這個步驟中我們要做的，是選擇保留所有成分還是丢棄那些重要性較低的成分（低特征值），并與其他成分形成一個向量矩陣，我們稱之為特征向量。

因此，特征向量隻是一個矩陣，其中包含我們決定保留的成分的特征向量作為列。這是降維的第一步，因為如果我們選擇隻保留n個特征向量（分量）中的p個，則最終數據集将隻有p維。

舉例：

接着上一步的例子，我們可以用v1或v2向量來形成一個特征向量。

主成分分析後的數據如何處理（五步掌握主成分分析法）9

或者丢棄重要性較小的向量v2,僅用v1形成一個特征向量。

主成分分析後的數據如何處理（五步掌握主成分分析法）10

丢棄特征向量v2将使維數減少1，并且将導緻最終數據集中的信息丢失。但鑒于v2僅攜帶4％的信息，因此損失并不重要，我們仍将擁有v1所攜帶的96％的信息。

因此，正如我們在例子中看到的那樣，你可以選擇是保留所有成分還是丢棄不重要的成分，具體取決于你要查找的内容。如果你不追求降維，隻是想利用不相關的新變量（主成分）描述你的數據，則不需要保留重要性較次的成分。

最後一步：沿主成分軸重新繪制數據

在前面的步驟中，除了标準化之外，你不需要更改任何數據，隻需選擇主成分，形成特征向量，但輸入數據集時要始終與原始軸統一（即初始變量）。

這一步，也是最後一步，目标是使用協方差矩陣的特征向量去形成新特征向量，将數據從原始軸重新定位到由主成分軸中（因此稱為主成分分析）。這可以通過将原始數據集的轉置乘以特征向量的轉置來完成。

主成分分析後的數據如何處理（五步掌握主成分分析法）11

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技人臉識别終端生産廠家
, 2022-10-20
科技隐藏文件夾方法
隐藏文件夾方法?在需要隐藏操作右鍵，選擇“屬性”，今天小編就來聊一聊關于隐藏文件夾方法?接下來我們就一起去研究一下吧!隐藏文件夾方法在需要隐藏操作右鍵，選擇“屬性”。在彈出的屬性界面窗口中，找到并勾選“隐藏”，之後文件就被隐藏了。想要查看被... 2022-06-22
科技 oppo手機内存中其他指的是什麼?
oppo手機内存中其他指的是什麼?“其他”裡是指除音樂、視頻、圖片、文檔、安裝包、壓縮包以外所占用的存儲空間，如手機下載程序遺留下來的緩沖文件或無法識别的文件，以及手機系統、程序等運行自動自成的緩存文件，接下來我們就來聊聊關于oppo手機内... 2022-06-15
科技深圳南方科技大學最新排名
作為我國經濟大省，廣東地區的發展始終得到了人們的高度關注。在過去的很長一段時間内，廣東地區都有着較為優質的教育資源，而在近幾年内，随着社會發展形勢的變化，廣東地區的教育資源更是達到了全新高度。廣東地區的高等教育資源得以穩定提升通過對我國近幾... 2022-12-23
科技榮耀官網商城榮耀平闆
榮耀官網商城榮耀平闆?【手機中國新聞】日前，榮耀官方旗艦店迎來周年慶，并帶動銷量增長1月11日，@榮耀HONOR在微博上發布“榮耀官方旗艦店周年慶戰報”：1月9日，榮耀斬獲天貓手機品牌官方旗艦店銷量&銷售額雙冠軍、天貓平闆品牌官方旗艦店銷量... 2022-10-03
科技快速壓縮音頻大小
MP3音頻文件是我們大家在日常生活中經常使用的一種音頻文件的格式，很多小夥伴都想要嘗試對MP3格式的音頻文件進行變速，感受不一樣的音樂樂趣。今天給大家帶來了兩種不同的音樂變速相關的方法，幫助大家簡單的解決以上的mp3音樂變速問題。如何對MP... 2023-01-13
科技微信能一鍵轉發朋友圈嗎
微信發布了最新的内測版，較之前的主要變化是支持微信朋友圈的一鍵轉發。很多網友對此一臉懵，朋友圈之前不也能轉發嗎？的确，之前确實能夠轉發，但沒有那麼方便，這個新版本可以實現一鍵轉發，相比較之前要快捷了很多。但網友似乎對此并不是很買單，倒不是說... 2022-11-14
科技 opporeno4内部主闆結構
由于這款OPPOReno8機型比較新，網上沒有相關的維修資料，而且各個芯片都在屏蔽罩底下，肉眼直接看難以看到哪一個芯片在什麼位置，導緻維修工作很難進行。所以今天就發布一個主闆各芯片位置圖，希望對大家有幫助，有幫助的話就點贊轉發支持一下。re... 2023-01-25
科技 excel管理會員信息怎麼做
不用掏那冤枉錢了，一套excel會員管理系統就搞定了。現在很多線下的門店為了管理會員的數據，會專門購買一個會員管理的軟件，但很多這樣的軟件都是包月收費的，軟件帶設備還得花不少錢。對于很多個體商戶來說，不是很值當。（文末可抱走）今天我就給大家... 2022-12-04
科技軟件測試工程師35歲了
最近很多人私聊我說，對自己的年紀格外焦慮，比如好多人說程序員的工作黃金年紀也就到35歲，而軟件測試工程師40歲的時候是不是也要下崗了？松勤軟件測試小編想和大家說：請各位放寬心，軟件測試行業是工作年限越久就越吃香。而且你要明白的一件事是：你要... 2023-01-16
科技電腦頑固垃圾怎麼删除
清除電腦中的頑固垃圾經常玩電腦的人，都會自己維護電腦。最簡單的就是用安全衛士清理垃圾，殺毒，或是修補漏洞。這些我基本上每天都做，可是電腦還是還是越來越慢！還總卡。原因之一和電腦裡下載的軟件多了有關系（我的電腦裡有好多各種功能強大的學習軟件，... 2022-11-15
科技小米電子黑闆的原理
家裡的孩子上小學四年級，平常作業也不少，對數學和美術作業來說，需要經常做驗算和畫畫，比較耗費紙張，進入科技環保時代，更多的電子學習産品也出現在我們生活當中。尤其是夜景小黑闆不僅可以反複擦寫，同時也容易上手，深受不少家長和孩子的歡迎，因此我也... 2022-11-27
科技從零開始學cad怎麼學
很多小夥伴們會選擇利用閑暇的時間學習一些技能提升自己充實自己，不少人選擇學習CAD，不過很多小夥伴在剛開始的時候都一臉懵逼，不知道從何學起，也不知道如何自學，那麼今天小編就來給大家推薦一些适合零基礎的小夥伴們自學的免費網站，希望對大家都有所... 2022-11-04
科技 vivo的t1版和2版外觀一樣嗎
10月18日消息，vivo官宣家族再添猛将，全新vivoT1系列，10月19日帶勁上場。據了解，vivo旗下有多個産品系列，主打機型vivoX系列，vivoS系列，vivoY系列，以及Z系列、U系列，此前還有主打高端的Xplay系列、NEX... 2023-01-11
科技怎麼搭建一個自己的博客
每當看到其他設計師或者設計工作室的網站的時候，總想着能有一個屬于自己的網頁，可以做一些關于個人生活的記錄、筆記，還可以同步自己的設計、繪畫、攝影作品，那麼求職的時候發過去自己的網頁，還有什麼比這個更贊的嗎？今天我們分享的就是通過《Gride... 2022-12-10
科技 excel各種圖表在數據分析中的作用
為産品在市場中所占份額作一個調查，确定它們的市場開發前景，并制訂相關的銷售報告可能并不是一件簡單的工作。幸運的是，如果您有過去的産品銷售調查數據，則可以使用MicrosoftOfficeExcel2007中強大的圖表工具幫助您輕松分析産品的... 2022-10-23
科技熱門大型網絡遊戲排行榜前十
說起武俠，咱們都不陌生，都想着在裡面可以快意恩仇，路見不平，拔刀相助，整出一場英雄救美的戲碼，在現實中咱們享受不了武俠世界的精彩，而在遊戲裡咱們可以體會到武俠世界賺錢的心酸，給大家推薦十款武俠類網遊，不但能快意江湖，還能賺點銀子。能簡單賺錢... 2022-11-24
科技電腦顯示屏亮度怎麼調
電腦顯示屏亮度怎麼調?右鍵雙擊打開“網絡”打開“網絡和共享中心”，下面我們就來聊聊關于電腦顯示屏亮度怎麼調?接下來我們就一起去了解一下吧!電腦顯示屏亮度怎麼調右鍵雙擊打開“網絡”。打開“網絡和共享中心”。單擊打開控制面闆”。點擊“顯示”。點... 2022-06-10
科技手機号碼多久可以更改歸屬地
手機号碼多久可以更改歸屬地?“手機号碼歸屬地能否取消，新能源汽車電池能否統一标準，通信基站惡意低價競标如何整治，環保設備能否讓企業選得放心”随着全社會重視實體經濟、發展工業和信息化的氛圍更加濃厚，在人民網《領導留言闆》上，網友對制造強國和網... 2022-11-09
科技貴的東西都是免費的
如同我們時時刻刻呼吸的空氣一樣，Wi-Fi已在不知不覺中成為邁入了「生活必需品」行列。今天，我們找來了WiFi萬能鑰匙、WiFi伴侶、暢無線等3款應用進行一個簡單的對比測試。測試的目的并不在于比出「免費Wi-Fi哪家強」，而是希望你可以通過... 2022-11-03
科技成都網站建設的步驟
成都網站建設的步驟?網站建設：專業網站建設是這樣的，我來為大家科普一下關于成都網站建設的步驟?以下内容希望對你有幫助!成都網站建設的步驟網站建設：專業網站建設是這樣的現階段簡單的網站建設已經不能滿足企業的需要，企業需要更專業的網站建設服務來... 2023-01-17
科技益生菌能降低奶中的脂肪嗎
益生菌（Probiotics）是指“以适當劑量服用時對宿主（人或動物）健康有益的活體微生物制劑”，這一概念是由聯合國糧食與農業組織（FAO）和世界衛生組織（WHO）共同定義的。目前應用于人類的益生菌種類主要有乳杆菌，雙歧杆菌等。益生菌可作為... 2023-01-07
科技堅果pro3怎麼分屏
堅果pro3怎麼分屏?堅果3沒有分屏功能堅果3采用高通骁龍625處理器，搭載4GB運行内存+32GB/64GB/128GB三種存儲方案，屬于中低檔産品的标準配置該款手機采用三攝像頭，前置800萬像素，後置雙1200萬像素，同時采用主副為f/... 2022-06-07
科技問道手遊官服版登錄界面
問：我是從《問道》手遊官網下的客戶端，請問應該有什麼賬号登陸呢?答：感謝您選擇官方客戶端體驗遊戲，參與測試是需要使用“雷霆通行證賬号”的唷。目前有三種方式可以注冊到“雷霆通行證”賬号：1)通過PC端或手機端直接訪問《問道》手遊官網，通過官網... 2022-12-01
科技固态硬盤和普通硬盤有啥區别
随着固态硬盤逐漸普及的今天，越來越多的電腦都配備了固态硬盤，那麼固态硬盤和普通硬盤有什麼區别呢？❂固态硬盤速度更快使用過固态硬盤的人都知道，固态硬盤最主要的一個優點就是速度快！簡單給大家解釋一下原因：首先，大家要知道普通硬盤其實叫機械硬盤，... 2022-11-20
科技 iphonexr與iphone11參...
iphonexr與iphone11參數對比?iPhone11和iPhoneXR在屏幕上沒有區别，畢竟采用了一代也不可能換那麼快，所有參數都是完全一緻的，接下來我們就來聊聊關于iphonexr與iphone11參數對比?以下内容大家不妨參考一... 2022-10-03
科技呼倫貝爾互聯網建設
新華網北京7月2日電（秦雪璠）“天蒼蒼，野茫茫，風吹草低見牛羊”——提到内蒙古，人們腦海中時常浮現這樣的印象。然而，在烏蘭察布市，這種印象正在被改變。當地的服務外包産業以及大數據、雲計算産業集聚區正在加速發展，“草原矽谷”的藍圖正在一步步變... 2022-11-25
科技三防智能手機哪一款好
如今，手機的發展越來越迅速的同時，機身外觀也做得越來越輕薄，高價購買的手機常常都會有同樣的問題——容易因為碰撞跌落，或是進水而出現損壞，高昂的維修費讓人心累，後悔沒有好好保管好手機。但是對于出行頻繁的當代生活，每天工作或是休閑時間的戶外運動... 2023-01-11
科技朵唯m30手機是山寨的嗎
知名博主“科技小辛”公開爆料，其通過某短視頻平台購買網紅“二驢”夫婦直播間朵唯手機，發現實物與直播間介紹原價“4999元”産品硬件差異極大，外觀、攝像頭、内存等都有造假嫌疑。一石激起千層浪，網友紛紛對該視頻平台和二驢夫妻發起聲讨，随後朵唯官... 2023-01-07
科技計算機軟件相關崗位
計算機軟件相關崗位?計算機軟件相關崗位羅列如下：企業信息化主管：負責信息化建設中的目标與方案決策，信息化建設中的方向研究；，今天小編就來說說關于計算機軟件相關崗位?下面更多詳細答案一起來看看吧!計算機軟件相關崗位計算機軟件相關崗位羅列如下：... 2022-06-03

tft每日頭條

> 科技

> 主成分分析後的數據如何處理

主成分分析後的數據如何處理

相关科技资讯推荐

热门科技资讯推荐

网友关注