在保聖ENOSE電子鼻軟件中,主成分分析是最基層也是最常用的方法。
主成分分析或PCA 是一種統計過程,它允許您通過更易于可視化和分析的較小“彙總索引”集合來彙總大型數據表中的信息内容。例如,基礎數據可以是描述生産樣品、化學化合物或反應、連續過程的過程時間點、批次過程中的批次、生物個體或 DOE 協議試驗的特性的測量值。
使用 PCA 可以幫助識别數據點之間的相關性,例如北歐國家冷凍魚和脆面包等食品的消費之間是否存在相關性。
當今的主成分分析是最流行的多元統計技術之一。 它已廣泛應用于模式識别和信号處理領域,是一種廣義上稱為因子分析的統計方法。
PCA 是 MVDA 的母方法PCA 構成了基于投影方法的多元數據分析的基礎。PCA 最重要的用途是将多元數據表表示為較小的變量集(彙總索引),以觀察趨勢、跳躍、集群和異常值。該概述可能會揭示觀察值和變量之間以及變量之間的關系。
PCA 可以追溯到 Cauchy,但首先由 Pearson 在統計學中提出,他将分析描述為尋找“最接近空間點系統的線和平面”[Jackson, 1991]。
PCA 是一種非常靈活的工具,可以分析可能包含例如多重共線性、缺失值、分類數據和不精确測量的數據集。目标是從數據中提取重要信息,并将這些信息表示為一組稱為主成分的彙總指标。
從統計上講,PCA 在 K 維空間中找到盡可能接近數據的線、平面和超平面,以最小二乘的方式進行。作為一組數據點的最小二乘近似的線或平面使線或平面上的坐标的方差盡可能大。
PCA算法原理
PCA 創建數據的可視化,以最小化最小二乘意義上的殘差方差并最大化投影坐标的方差
PCA 的工作原理在之前的文章中,我們解釋了為什麼需要對 PCA 數據進行預處理。現在,讓我們使用幾何方法來看看 PCA 是如何工作的。
考慮一個有N 行(又名“觀察”)和 K 列(又名“變量”)的矩陣 X。對于這個矩陣,我們構造了一個變量空間,其維度與變量的數量一樣多(見下圖)。每個變量代表一個坐标軸。對于每個變量,長度已根據縮放标準标準化,通常通過縮放到單位方差。您可以在上一篇博客文章中找到有關縮放到單位方差的更多詳細信息。
PCA算法原理
一個 K 維變量空間。為簡單起見,僅顯示三個變量軸。每個坐标軸的“長度”已根據特定标準标準化,通常是單位方差縮放。
在下一步中,将 X 矩陣的每個觀測值(行)放置在 K 維變量空間中。因此,數據表中的行在該空間中形成了一組點。
PCA算法原理
數據矩陣 X 中的觀測值(行)可以理解為變量空間(K 空間)中的一組點。
均值居中接下來,均值居中涉及從數據中減去變量平均值。 平均值向量對應于 K 空間中的一個點。
PCA算法原理
在均值居中過程中,您首先計算變量平均值。 這個平均值向量可以解釋為空間中的一個點(此處為紅色)。該點位于點群的中間(在重心處)。從數據中減去平均值對應于坐标系的重新定位,使得平均點現在是原點。
PCA算法原理
平均定心過程對應于移動坐标系的原點以與平均點重合(此處為紅色)。
第一主成分
在均值居中和縮放到單位方差之後,數據集已準備好計算第一個彙總指标,即第一個主成分 (PC1)。該分量是 K 維變量空間中最接近最小二乘意義上的數據的線。這條線穿過平均點。現在可以将每個觀測值(黃點)投影到這條線上,以獲得沿 PC 線的坐标值。這個新的坐标值也稱為分數。
PCA算法原理
第一個主成分 (PC1) 是最能說明點群形狀的線。它表示數據中的最大方差方向。每個觀察(黃點)都可以投影到這條線上,以便獲得沿着 PC 線的坐标值。該值稱為分數。
第二主成分通常,一個彙總指标或主成分不足以對數據集的系統變化進行建模。 因此,計算了第二個彙總指數——第二個主成分 (PC2)。第二個 PC 也由 K 維變量空間中的一條線表示,它與第一個 PC 正交。這條線也通過了平均點,并盡可能地提高了 X 數據的近似值。
PCA算法原理
第二主成分 (PC2) 的方向使其反映數據中第二大變化源,同時與第一主成分正交。PC2 也通過平均點。
兩個主成分定義了一個模型平面當導出了兩個主成分時,它們一起定義了一個位置,一個進入 K 維變量空間的窗口。通過将所有觀察結果投影到低維子空間并繪制結果,可以可視化研究數據集的結構。在這個平面上觀察的坐标值稱為分數,因此這種投影配置的繪圖稱為分數圖。
PCA算法原理
兩台 PC 組成一個平面。該平面是進入多維空間的窗口,可以用圖形進行可視化。每個觀察結果都可以投影到這個平面上,并為每個觀察結果打分。
建模數據集現在,讓我們考慮一下使用不同歐洲國家普遍食用的食物數據集的情況。 下圖顯示了前兩個主成分的得分圖。這些分數稱為 t1 和 t2。分數圖是 16 個國家的地圖。相近的國家有相似的食品消費概況,而相距較遠的國家則不同。北歐國家(芬蘭、挪威、丹麥和瑞典)一起位于右上角,因此代表了一組在食品消費方面具有一定相似性的國家。比利時和德國靠近地塊的中心(原點),這表明它們的屬性一般。
ENOSE電子鼻自帶PCA分析結果圖
關于食物消費概況的數據集的前兩台PC 的 PCA 得分圖。這提供了一個國家如何相互關聯的地圖。第一個成分解釋了 32% 的變化,第二個成分解釋了 19%。按相應首都的地理位置(緯度)着色。
如何解釋分數圖在具有兩個組件的 PCA 模型中,即 K 空間中的一個平面,哪些變量(食品供應)負責觀察(國家)中看到的模式?我們想知道哪些變量是有影響的,以及這些變量是如何相關的。這些知識由主成分載荷給出(下圖)。這些加載向量稱為 p1 和 p2。
下圖同時顯示了所有 20 個變量之間的關系。貢獻相似信息的變量被組合在一起,也就是說,它們是相關的。脆面包 (crips_br) 和冷凍魚 (Fro_Fish) 是兩個正相關變量的示例。當一個變量的數值增加或減少時,另一個變量的數值有以相同方式變化的趨勢。
當變量負相關(“反向”)相關時,它們位于圖原點的相對兩側,在對角線 0pposed 象限中。例如,變量大蒜和甜味劑是負相關的,這意味着當大蒜增加時,甜味劑減少,反之亦然。
ENOSE電子鼻自帶PCA分析結果圖
前兩個主要成分(p2 與 p1)的 PCA 加載圖比較消耗的食物。
如果兩個變量正相關,當一個變量的數值增加或減少時,另一個變量的數值有以相同方式變化的趨勢。
此外,到原點的距離也傳達了信息。 變量離繪圖原點越遠,該變量對模型的影響就越大。這意味着,例如,變量脆面包 (Crisp_br)、冷凍魚 (Fro_Fish)、冷凍蔬菜 (Fro_Veg) 和大蒜 (Garlic) 将四個北歐國家與其他國家區分開來。北歐四國的特點是前三項規定值高(高消費),大蒜消費低。此外,模型解釋表明,意大利、葡萄牙、西班牙以及一定程度上的奧地利等國家的大蒜消費量較高,而甜味劑、罐頭湯(Ti_soup)和罐頭水果(Ti_Fruit)的消費量較低。
在幾何上,主成分載荷表示模型平面在 K 維變量空間中的方向。PC1 相對于原始變量的方向由角度 a1、a2 和 a3 的餘弦給出。這些值表示原始變量 x1、x2 和 x3 如何“加載”到 PC1 中(即貢獻給 PC1)。因此,它們被稱為載荷。
第二組加載系數表示 PC2 相對于原始變量的方向。因此,給定兩個 PC 和三個原始變量,需要六個加載值(角度的餘弦)來指定模型平面在 K 空間中的定位方式。
主成分載荷揭示了 PCA 模型平面是如何插入到變量空間中的。載荷用于解釋分數的含義。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!