tft每日頭條

 > 生活

 > 機器學習算法的不确定性

機器學習算法的不确定性

生活 更新时间:2025-02-25 12:06:42

之前我們曾經講過,無監督學習是一種不使用标記數據(無目标變量)的機器學習。因此,算法的任務是在數據本身中尋找模式。無監督機器學習算法的兩種主要類型分别是使用主成分分析的降維算法和聚類算法(包括K-Means和層次聚類算法)。下面将依次介紹這些内容。

主成分分析

降維是一種重要的無監督學習方法,在實踐中得到了廣泛的應用。當數據集中有許多特征時,可視化地表示數據或将模型拟合到數據中可能會變得非常複雜。在這種情況下,可能需要降維。降維的目的是通過一組更小的特征來表示具有許多(通常存在相關性)特征的數據集,這些特征仍然可以很好地描述數據。

主成分分析(PCA)是一種最常見降維統計方法。PCA将高度相關的多個數據特征減少到幾個主要的、不相關的複合變量。複合變量是将兩個或多個在統計上緊密相關的變量組合在一起的變量。PCA涉及到特征的協方差矩陣的變換,在這裡會有兩個關鍵的概念:特征向量和特征值。特征向量定義了新的、相互不相關的複合變量,它們是原始特征的線性組合。作為一個向量,一個特征向量也代表着一個方向。與每個特征向量相關的是一個特征值。一個特征值給出了初始數據中總方差的比例,該比例由每個特征向量來解釋。PCA算法根據特征值将特征向量從高到低排序——也就是說,根據它們在解釋初始數據的總方差方面的有用性程度排序。主成分分析選擇解釋數據集中變化比例最大的特征向量(特征值最大的特征向量)作為第一個主成分。第二主成分解釋了在第一主成分之後的下一個最大的方差比例;接着是第三、第四和其後的主要成分。由于主成分是初始特征集的線性組合,通常隻需要幾個主成分就可以解釋初始特征協方差矩陣中大部分的總方差。 下表顯示了一個具有三個特征的假設數據集,因此它是沿着x、y和z軸在三維空間中繪制的。每個數據點都有一個測量值(x、y、z)。首先我們将數據進行标準化,以便每個系列(x、y、z)的均值為0,标準偏差為1。假設我們通過PCA,得出了前兩個主成分,PC1和PC2。對于PC1,每個數據點到PC1的垂線距離表示投影誤差,平行于PC1方向上的每個數據點之間的距離表示數據沿PC1的變化或延伸。PCA算法通過選擇所有數據點的投影誤差之和最小,所有數據點之間的距離之和最大的直線來找到PC1。

作為結果,PC1是唯一的向量,它在初始數據的方差中占了最大比例。剩下的方差中,第二大部分由PC2來解釋,它與PC1成直角,因此與PC1不存在相關關系。現在,數據點由前兩個主成分表示。這個例子演示了PCA算法在降維方面的有效性。

機器學習算法的不确定性(無監督機器學習算法)1

機器學習算法的不确定性(無監督機器學習算法)2

了解需要保留多少主成分非常重要,我們需要在複雜數據集的維度數量、信息丢失程度之間進行權衡。碎石圖(Scree plots),顯示了每個主成分解釋的數據中總方差的比例。在實踐中,應該保留的主成分的最小數量可以根據碎石圖判斷,一般要求所有主成分解釋初始數據總方差的85%到95%。

案例 DLC 500和VLC 30股票指數收益的主成分分析碎石圖

在本案例中,研究人員使用碎石圖發現,三個主成分足以解釋過去10年期間DLC 500和VLC 30股票指數的回報率。DLC 500是涵蓋所有行業大盤股的多元化指數,VLC 30則是30家最大的上市公司的指數。數據集包括指數價格和2000多種特征。特征之間的多重共線性是最重要的幹擾因素,因為許多特征或特征組合往往存在着重疊問題。為了解決這個問題,我們使用PCA來捕獲數據中的信息和差異。下面的碎石圖顯示,在生成的20個主成分中,前3個主成分共解釋了DLC 500和VLC 30指數的90%和86%的方差。從碎石圖可以看出,在第5個主成分之後,解釋數據方差的增量貢獻都很小。因此,這些不太有用的主成分可以被忽略,不會丢失太多信息。

機器學習算法的不确定性(無監督機器學習算法)1

機器學習算法的不确定性(無監督機器學習算法)4

機器學習算法的不确定性(無監督機器學習算法)5

主成分分析的缺點是,由于主成分是數據集的初始特征的組合,它們不能被分析人員輕松地解釋。與已經被定義好的變量數據相比,PCA的結果可能會被視為“黑箱”。

即使處理隻有10個左右特征的數據集時,将特征的數量減少到最相關的幾個也非常有用。另外,降維有助于在二維或三維空間中可視化地表示數據。

主成分分析通常作為數據分析的一部分執行,然後用來訓練另一個監督或非監督學習模型。這樣,機器學習模型訓練的速度更快,傾向于減少過拟合的情況。

本文由“邊際實驗室”原創,轉載請務必注明出處。如果喜歡本文,請點轉發讓更多人看到。

原創不易,感謝您的支持!

更多原創文章:

有監督學習算法介紹:K近鄰與決策樹(分類與回歸樹)懲罰回歸算法與支持向量機有監督學習中防止過拟合的方法算法的性能評估及過拟合

機器學習算法的不确定性(無監督機器學習算法)6

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2025 - www.tftnews.com All Rights Reserved