無監督學習是一組統計工具,用于隻有一組特征而沒有目标的情景。因此,我們無法進行預測,因為每個觀察都沒有相關的響應。我們感興趣的是找到一種有趣的方法來可視化數據或發現類似觀察的子組。
無監督學習往往更具挑戰性,因為分析沒有明确的目标,而且往往是主觀的。此外,很難評估獲得的結果是否良好,因為沒有公認的機制來對獨立機器學習數據集執行交叉驗證或驗證結果,因為我們不知道真正的答案。
本文将重點介紹兩種技術:主成分分析和聚類。
主成分分析(PCA)PCA指的是計算主成分并用于更好地理解機器學習數據集中數據的過程。PCA也可用于可視化。
什麼是主成分?
假設你希望用一組p特性(作為探索性數據分析的一部分)對n個觀測值進行可視化。我們可以一次檢查2個特征的2D散點圖,但是如果有很多預測因子,就會很難可視化。
通過PCA,我們可以找到一個低維空間的數據集,它包含了盡可能多的變化。我們将獲得最感興趣的特征。
如何找到主要成分?
第一主成分方程
符号Φ稱為loadings。loadings必須最大化:
聚類方法(Clustering methods)
聚類是指用于在數據集中查找子組或clusters的一組廣泛技術。這有助于我們将觀察分成不同的組,以便每個組包含彼此相似的觀察。例如,在乳腺癌的情景中,分組可以代表腫瘤級别。在市場細分的市場營銷中,它也非常有用,因為它可以識别出更容易接受某種産品的人群。
有許多聚類方法,但我們将專注于k-means聚類和層次聚類。在k-means聚類中,我們希望将數據劃分為預先指定的數量為K的聚類。另一方面,通過層次聚類,我們不知道需要多少個聚類,我們想要一個樹狀圖,它允許我們查看每個可能數量的聚類獲得的所有聚類。
k - means聚類
該方法簡單地将觀測數據分離為K個聚類。假設:
此外,每個聚類内的變化最小化。
如何根據指定聚類的數量對觀察進行聚類
這是通過最小化聚類内每個觀測值之間的歐幾裡德平方距離的總和來實現的:
k - means聚類的優化函數
為了最小化,我們遵循以下算法:
1.随機選取K個種子點。這些用作觀測的初始聚類分配。
2.叠代直到聚類分配停止更改:
請注意,上述算法将找到局部最小值。因此,獲得的結果将取決于初始随機聚類分配。因此,多次運行算法很重要。
層次聚類k-means聚類的潛在缺點是它需要人工輸入來指定聚類的數量。層次聚類不需要初始數量的聚類。
最常見的層次聚類類型是自下而上的。這指的是樹形圖是從葉子開始生成的,并将聚類組合到樹幹上。
樹形圖的例子
該算法實際上非常簡單。它首先定義每對觀測值之間的不同度量值開始,如歐氏距離。然後,它首先假設每個觀測都屬于它自己的聚類。然後,融合兩個最相似的聚類,所以有n-1個聚類。然後,融合其他兩個相似的聚類,産生n-2個聚類。叠代地重複該過程,直到所有觀測結果都是單個聚類的一部分。
雖然簡單,但有些問題沒有得到解決。如何定義聚類之間的不相似性度量呢?最常見的四種連接方式如下表所示:
最常見的四種連接方式
Complete,Average和Centroid是最常用的連接類型,因為single 接傾向于産生不平衡的樹狀圖。請注意,得到的樹狀圖很大程度上取決于所用連接的類型。
連接對最終樹狀圖的影響
此外,選擇合适的不同度量也很關鍵。如果兩個特征高度相關,則認為兩個特征是相似的。
Observation 1 and 2是高度相關的
例如,假設在線零售商有興趣根據過去的購物曆史對購物者進行聚類。目标是确定類似購物者的子群,以便向他們展示可能感興趣的廣告。使用歐幾裡德距離,那些購買了少量物品的購物者将聚集在一起,這可能不是理想的情況。使用基于相關性的距離,具有相似偏好的購物者(他們購買物品A和B,但沒有購買物品C和D)将被聚集在一起。
在所有情況下,我們仍然需要人工輸入來确定層次聚類完成後要使用的集群的最終數量。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!