數據挖掘主成分分析實驗-tft每日頭條

數據挖掘主成分分析實驗

科技更新时间:2025-07-04 10:31:45

數據挖掘主成分分析實驗（數據科學小白起步系列）1

主成分分析(PCA)被認為是一種特别成功的特征提取和降維算法。通常用于使數據易于探索和可視化。它的原理是，利用對原來的變量進行線性組合而得到新的變量(主成分)，這些變量之間的方差最大。因為數據原來的變量之間有可能差距不大，描述的内容差不多，故效率低下。換句話說，我們可能說了很多話，但是卻在講同一件事情。由于方差在數據中描述的變量之間的差距，故方差最大也就意味着新的變量之間有比較大的差距。這樣，就可以以較高的效率描述數據。

一、維度降低算法

維數降低有兩種主要算法：主成分分析（PCA）和線性判别分析（LDA），當然，還有其他降維技術，如線性判别分析（Linear Discriminant Analysis、因子分析（Factor Analysis）、等距映射算法（Isomap）等。線性判别分析和主成分分析這兩者之間的基本區别在于，線性判别分析使用類的信息來查找新特征，以便最大化類可分性，而主成分分析使用每個特征的方差來做同樣的事情。主成分分析将高維數據以盡可能少的信息損失投影到低維空間，以達到簡化數據的目的。線性判别分析可以被認為是監督算法，而主成分分析是無監督算法。

二、為什麼我們需要總結數據呢？

讓我們考慮一下這個例子：我們有一個帶有一組汽車屬性的數據集。這些屬性通過其尺寸、顔色、形狀、緊湊車型、座位數量、門數、行李箱尺寸大小、油箱大小、底盤高度等來描述每輛車。但是，許多這些功能将測量相關屬性，因此将是多餘的。因此，我們應該删除這些冗餘。這正是主成分分析的目标。例如，考慮車輪數量作為汽車和公共汽車的特征。幾乎每個類的每個例子都有四個輪子，因此我們可以看出這個特征的差異很小（一些罕見的公共汽車有n個輪子），所以這個功能将使公共汽車和汽車看起來一樣，但它們實際上是非常不同的。接着，考慮高度作為特征，汽車和公共汽車有不同的值，從最低的小汽車到最高的觀光巴士，差異很大。顯然，車輛的高度是不同汽車的特征。同時，主成分分析不考慮類的信息，它隻是查看每個特征的方差，因為可以合理地假設呈現高方差的特征更有可能在類之間進行良好的分割。

通常，人們最終會誤以為主成分分析會從數據集中選擇某些功能并丢棄其他功能。該算法實際上基于舊的屬性的組合構造新的屬性集。從數學上講，主成分分析執行線性變換，将原始特征集移動到由主成分組成的新空間。這些新功能對我們來說沒有任何實際意義，因此不要認為主成分分析會找到從未想過可能存在的新功能。許多人仍然相信機器學習算法是神奇的，他們直接将數以千計的輸入投入到算法中，并希望為他們的業務找到所有的見解和解決方案。不要被欺騙。數據科學家的工作是通過使用機器學習算法作為一組工具而不是劉謙的魔術棒，讓工作成為見證奇迹的時刻。通過對數據進行良好的探索性分析，來找到對業務的見解與洞察也是非常重要的。

三、主成分空間

在新的特征空間中尋找一些在類别中存在很大差異的屬性。正如前面的示例中所講，一些呈現低方差的屬性沒有用，找不出區别。另一方面，主成分分析尋找的屬性可以顯示盡可能多的類，以構建主成分空間。該算法使用方差矩陣，協方差矩陣，特征向量和特征值對的概念來執行主成分分析，從而提供一組特征向量及其各自的特征值。

那麼，我們應該如何處理特征值和特征向量？非常簡單，特征向量表示主成分空間的新軸集，特征值帶有每個特征向量具有的方差值信息。因此，為了減小數據集的維數，選擇具有更大方差的那些特征向量，并丢棄具有更小方差的那些特征向量。

四、例子

（1）2維例子

首先，僅考慮兩個維度的數據集，如（高度，重量）。該數據集可以繪制為平面中的點。但是如果我們想要梳理變異，PCA會找到一個新的坐标系，其中每個點都有一個新的（x，y）值。

數據挖掘主成分分析實驗（數據科學小白起步系列）2

（2）3維例子

有了三個維度，PCA更有用，因為很難看透數據雲。在下面的示例中，原始數據以3D形式繪制，但您可以通過與查找攝像機角度相同的變換将數據投影到2D：旋轉軸以找到最佳角度。要查看“官方”PCA轉換，請單擊“顯示PCA”按鈕。PCA變換确保水平軸PC1具有最大變化，垂直軸PC2具有最大變化，并且第三軸PC3具有最小變化。

數據挖掘主成分分析實驗（數據科學小白起步系列）3

數據挖掘主成分分析實驗（數據科學小白起步系列）4

數據挖掘主成分分析實驗（數據科學小白起步系列）5

（3）17維的例子

表中列出了英國每個國家每人每周17種食物的平均消費量。

數據挖掘主成分分析實驗（數據科學小白起步系列）6

該表顯示了不同食物類型的一些有趣變化，但總體差異并不那麼顯着。讓我們看看PCA是否可以消除維度以強調各國的差異。

數據挖掘主成分分析實驗（數據科學小白起步系列）7

這是第一個主成分的數據圖。我們已經可以看到北愛爾蘭的情況有所不同。

看到第一和第二組，我們認為北愛爾蘭是一個主要的異常值。一旦我們回頭看看表中的數據，這是有道理的：北愛爾蘭人吃更多的新鮮馬鈴薯和新鮮水果，奶酪，魚和酒精飲料則更少。這是一個很好的迹象，可視化的結構反映了現實世界地理的一個重要事實：在四個不在大不列颠島的國家中，北愛爾蘭飲食非常特殊。（完）

數據挖掘主成分分析實驗（數據科學小白起步系列）8

親愛的數據

出品：譚婧

美編：陳泓宇

數據挖掘主成分分析實驗（數據科學小白起步系列）9

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

科技 plc 與dcs 有哪些區别
DCS（DistributedContorlSystem），集散控制系統，又稱分布式控制系統。FCS（FieldBusContorlSyestem），現場總線控制系統.PLC（ProgramLogicControl）,可編程邏輯控制器.下面... 2023-02-14
科技蘋果ios系統哪個更好
蘋果手機IOS操作系統的優點的确有，但并沒有像很多人描述的那麼誇張，生活中任何事情都經不住人傳人，因為無論什麼事隻要經過人傳人之後真相的性質就變了，因為事情的真相在傳話的過程中會受到他人的主觀意識和描述完整性等因素影響而失真，有人把蘋果品牌... 2023-01-14
科技華為手機殼可以讓4g變5g嗎
【文/觀察者網呂棟】“因為這兩年多美國四輪制裁，限制我們5G手機，所以現在隻能用4G，我們的5G芯片隻能當4G用。”大約一年前，當華為終端業務CEO餘承東在發布會上說出這句話時，關心和支持華為的用戶無不為之歎息。在2022年的當下，不支持5... 2023-02-04
科技手機處理器會有瓶頸嗎
最近智能手機領域非常熱鬧，天玑1000、天玑800、天玑820、麒麟985、麒麟820、骁龍768G等5GSoC你方唱罷我登場，為5G手機的全面普及貢獻力量。雖然5GSoC可以決定一款手機的性能強弱，但就大家更加關心的拍照表現而言，還得看C... 2022-10-27
科技陰陽師贈予式神對新手有什麼要求
陰陽師式神贈予系統目前正在體驗服進行測試，不少玩家都對于這個系統感到十分好奇，作為已經有了碎片祈願系統的陰陽師，這個式神贈予有什麼用處呢？下面我們就來一起了解一下吧。一、式神贈予系統介紹這個新的贈送系統跟祈願是完全不同了，贈予式神系統有着獨... 2023-03-21
科技如何在word制作紅頭文件
公文是法定機關或其他社會組織在公務活動中，具有法律效力和規範的文體。凡是從事行政事務，都要學會通過公文來傳達政令政策、處理公務，以保證協調各種關系，決定事務使工作正确地、高效地進行。而公文如何制作和排版，是每位發文工作者必須熟悉掌握的技能，... 2023-01-02
科技怎樣才能消掉抖音水印
1首先在我們的手機桌面上找到抖音短視頻并點擊它，如下圖所示。2然後随便點擊一視頻右側的分享圖标，如下圖所示。3接着點擊複制鍊接，如下圖所示。4然後點擊微信中的小程序，如下圖所示。5接着輸入抖音短視頻去水印小工具并點擊搜索，如下圖所示。6然後... 2022-11-01
科技超聲波風速風向傳感器
近年來我國強對流天氣引發的大風災害例如雷暴大風、龍卷風等有多發趨勢。為有效防範和減輕大風災害，氣象部門将加強科技創新，夯實基層能力，構建監測精密、預報準确、服務精細、聯動有效的強對流（大風）監測服務體系，滿足不同的行業或者用戶的氣象需求。在... 2023-01-10
科技 1tb固态硬盤推薦筆記本
過去，機械硬盤一直都是筆記本電腦的标配。後來，傳輸速率更快的固态硬盤開始推行，純固态輕薄本以及混合硬盤式的遊戲本紛紛亮相。然而，在很長的一段時間裡，128G、256GSSD仍然是主流筆記本常态容量，它們大多也就是充當于系統盤使用，而緊張的容... 2022-11-09
科技 win7電腦待機模式
小編給大家淺析win7系統電腦設置不待機的方法，使用win7系統過程中，默認情況下，當電腦進入待機後，電腦會自動斷網，應用也會停止運行，因此一些用戶想設置為不待機，不知如何設置的用戶，可參照以下的方法進行設置。使用電腦的過程中，如果需要挂一... 2023-02-26
科技電腦突然關機excel沒保存
做Excel表格的時候會遇到斷電、自動關機、死機等情況導緻文件沒有保存，辛辛苦苦做了很久的數據因為某些意外白做了，這很讓人火大，下面說一下遇到意外情況沒有保存文件可以恢複的方法。如果在做Excel的過程遇見突發情況忘記保存文件，那麼不要擔心... 2023-01-31
科技大數據分析廣告投放準嗎
大數據分析廣告投放準嗎?大數據釋放出的巨大價值，幾乎給每個行業都帶來了颠覆，企業可以利用大數據分析用戶消費習慣，創造更大的商業價值，尤其是在廣告業，我來為大家講解一下關于大數據分析廣告投放準嗎?跟着小編一起來看一看吧!大數據分析廣告投放準嗎... 2022-11-20
科技 win10系統激活與不激活
經常遇到一大批小夥伴喊着自己的Win10激活不了，也不了解出現的原因是什麼導緻的，完全拿它沒辦法，讓人生氣讓人郁悶。殊不知，電腦上預裝了win10系統，這個激活密鑰寫在主闆上，所以我們預裝的系統恢複鏡像是可以直接激活的，但是小夥伴又出現激活... 2023-01-13
科技江西應用科技職業技術學院地址
“赫赫熱浪吹，炎炎夏日徂”。酷暑六月，當我來到江西應用科技學院時，發現這裡卻是“曲徑翠林綠，花木滿地香”的另一番景象，走進綠蔭深處，漫步校舍之外，享受着“涼風習習吹，幽客時時憩”的快意。這是一個鬧市邊上的世外桃源，又是一個郊外甯靜的求學秘境... 2023-03-16
科技男子收藏萬部手機
綜合外媒報道，斯洛伐克一位男子收藏了3500多個手機，這些手機中的大部分都是一些老手機，甚至有很多是一般人不曾看過的，在過去的20年裡，他一直深深着迷于其中，他收藏的這些手機幾乎是見證了手機曆史的發展變遷，在他所有收藏的手機當中，幾乎有一半... 2022-12-12
科技 iphone15個使用技巧
有一些人用iPhone覺得很順手，什麼快捷鍵都會用，但是，一部分用戶不會用的話，還是覺得不順手。那麼，iPhone中的一些基本快捷鍵是什麼呢？１、開關機這肯定是最基本的快捷鍵了，雖然各代的開關機所用的電源鍵位置不同，但是，操作卻是一樣的。開... 2023-01-03
科技系統門窗品牌排名前十
系統門窗是如今比較主流的産品，随着消費者水平升級，在選擇産品的時候都會優先對比名氣高市場份額較高的品牌，畢竟這會涉及到我們的家居體驗，目前市面上打着十大品牌的系統門窗有很多，産品結構上看起來都大同小異，到底哪些才是真正的系統門窗品牌呢？今天... 2023-02-24
科技電腦裝機都用哪種工具
我發現已經很久沒有分享PC軟件了。今天就給大家推薦5款電腦裝機必備軟件，一個比一個厲害，用過之後就離不開了。懶人目錄：萬能文件打開器（秒開文件）Everything（極速搜索工具）OCR文字識别（識别文檔）7zip（無廣告解壓縮軟件）極客卸... 2022-12-07
科技韻達快遞到了物流取件碼怎麼看
很多的小夥伴們還不知道要怎麼在查詢韻達快遞詳細物流信息的同時設置快遞的參數，那今天小編就來給打擊安利一個可以快速查詢和設置的簡單方法，快一起來瞧瞧吧！首先大家在浏覽器搜索下載一個“固喬快遞查詢助手”，這個軟件可以批量查詢大量的快遞，還可以篩... 2022-11-09
科技 iphone全面屏指紋識别
iPhone6的标語是“豈止于大”，的确，在大屏智能機流行的當下，就連一向開創流行的蘋果公司也無法阻擋這股潮流，終于在去年九月推出了4.7英寸和5.5英寸的iPhone6及6S。當然，iPhone6之大并不僅是簡簡單單地放大，蘋果公司在其各... 2022-12-29
科技 windows遊戲程序設計基礎
北京麟卓主要從事國内操作系統研發和互聯網應用基礎服務。公司是非虛拟化跨端集成技術的實踐者和領導者，緻力于豐富國内平台的應用生态。該公司在近期發布了兆懿移動應用運行平台，表明該應用運行平台可以“讓更多PC用戶體驗到跨端生态融合的便捷和樂趣”。... 2022-11-26
科技電子檔案管理系統的基本操作
3月31日，财政部突然發布重磅文件《關于規範電子會計憑證報銷入賬歸檔的通知》。3月初電子專票試點開始運行，3月末電子會計檔案就已經落實。可以看出，國家在稅務信息化建設上的步伐非常快。下面我們将對本次通知進行重點解讀，同時也為所有企業提供一個... 2022-12-21
科技 ViVOY3的手機分辨率在哪裡調?
ViVOY3的手機分辨率在哪裡調?在手機設置中修改分辨率，具體步驟：，下面我們就來聊聊關于ViVOY3的手機分辨率在哪裡調?接下來我們就一起去了解一下吧!ViVOY3的手機分辨率在哪裡調在手機設置中修改分辨率，具體步驟：在手機上找到“設置”... 2022-06-16
科技城市排水系統的排水體制有哪幾種
城市排水系統的排水體制有哪幾種?排水體制分為合流制和分流制兩種排水體制是指收集、輸送污水和雨水的方式，現在小編就來說說關于城市排水系統的排水體制有哪幾種?下面内容希望能幫助到你，我們來一起看看吧!城市排水系統的排水體制有哪幾種排水體制分為合... 2022-08-18
科技諾基亞727手機
記得在2004年前後，諾基亞的外觀設計鬼才們搗鼓出了一系列以幾何線條組合為主基調，配色前衛時尚的機器，它們就是抽象藝術與工業設計的集合體——諾基亞7200、7260、7270、7280手機。而其中7260、7270、7280它們也被稱為“絕... 2022-11-27
科技正弦定理的重點
正弦定理的重點?1.正弦定理在一個三角形中，各邊的長和它所對的角的正弦的比相等，即在△ABC中，，下面我們就來說一說關于正弦定理的重點?我們一起去了解并探讨一下這個問題吧!正弦定理的重點1.正弦定理在一個三角形中，各邊的長和它所對的角的正弦... 2023-01-07
科技捷途x70測評最新
伴随着汽車行業競争的日益激烈，傳統式的品牌市場競争區域逐漸被打破。在品牌概念逐漸模糊不清的背景下，品質和價格已成為消費升級時代消費者最在意的因素。大型汽車企業也推出了具備成本效益的超價值車型，以符合消費者的喜好，搶占市場。讓我們一起來看看現... 2023-01-13
科技華為手機如何拍攝證件照
你是否不還在為拍證件照發愁？有人說，網上大把的證件照軟件。可是這些這證件照軟件都是收費的。其實，小米手機的朋友早已用上了自帶的證件照app，好用又免費；那我們的華為手機或其它品牌是否有一個好用又可以白嫖的軟件呢？答案是肯定的。下面，小編為你... 2023-01-21
科技紅薯怎樣育苗
紅薯怎樣育苗?紅薯不僅地裡能培育，在家裡也可以，家裡天台上或者自己的小院裡騰出一塊地方，就能種植了，紅薯不像花卉那麼嬌氣，一般的環境和簡單的照顧就可以長的很茂盛了，在家裡種出的紅薯自己吃着心裡也美滋滋的，我來為大家講解一下關于紅薯怎樣育苗?... 2022-10-16
科技金剛菩提一開始怎麼清理
金剛菩提到手後清理小技巧，需要什麼工具？清理完之後如何盤玩？首先我們先說一下清理金剛菩提的工具，那就是刷子，刷子也有很多種類，不同的刷子也有它不同的作用。鋼絲刷是清理金剛菩提必不可少的神器，前期它發揮了極大的作用，它主要能夠在通貨狀态下清理... 2023-03-29

tft每日頭條

> 科技

> 數據挖掘主成分分析實驗

數據挖掘主成分分析實驗

相关科技资讯推荐

热门科技资讯推荐

网友关注