tft每日頭條

 > 生活

 > 機器學習是怎麼學的

機器學習是怎麼學的

生活 更新时间:2024-07-27 03:10:51

“西瓜書”(《機器學習》,清華大學出版社)和“花書”(《深度學習》,人民郵電出版社)分别是目前國内機器學習、深度學習領域最受歡迎的教材。大家公認它們的質量是很高的,但一個尴尬的現狀是:因為數學基礎不紮實,很難入門并徹底掌握核心知識。

學好機器學習,需要哪些數學知識?

我們先看典型的機器學習算法所用到的數學知識點,如下表所示。

限于篇幅,這裡沒有列出強化學習、機器學習理論、自動化機器學習(AutoML)等内容所用的數學知識。

機器學習是怎麼學的(需要哪些數學知識)1

機器學習是怎麼學的(需要哪些數學知識)2

從這張表可以看出來,頻繁用到的知識點就是向量和矩陣的運算,梯度下降法等優化算法,概率,信息論中的模型概念

整體來說,就是下面這幾門課的内容:

  • 微積分
  • 線性代數
  • 概率論
  • 最優化方法
  • 信息論
  • 随機過程
  • 圖論

下面這張圖列出了這些知識的整體結構。其中線性代數與微積分是基礎,其他的課程都是建立在它們之上的。最優化方法嚴重依賴于微積分的知識,信息論與随機過程是概率論的延伸。

機器學習是怎麼學的(需要哪些數學知識)3

下面我們分别來介紹這幾門課在機器學習中到底用到了哪些内容。

微積分

微積分可分為一元函數微積分、多元函數微積分兩部分,它是整個高等數學的基石。

通常情況下,機器學習需要得到一個函數(模型,或者說假設),既然是函數,那自然就離不開微積分了。微積分為我們研究函數的性質,包括單調性、凹凸性、以及極值提供了理論依據。同時它也是學習概率論、信息論、最優化方法等後續課程的基礎。

總體來說,機器學習中所用的微積分知識,工科微積分教材基本上已經講了,除了下面這些内容:

1. 上/下确界 2. 李普希茨連續性 3. 雅克比矩陣 4. Hessian矩陣 5. 多元函數的凹凸性 6. 多元函數的極值 7. 多元函數的泰勒公式 8. 多重積分的換元法

如果你真的學好了本科微積分,上面這些内容并不難理解。

對于微分學習,重點是下面這張圖中的内容。包括函數的求導法則(尤其是鍊式法則),以及泰勒公式。泰勒公式中的一階導數項和二階導數項決定了函數的極值,這對後續的梯度下降法,牛頓法,拟牛頓法等優化算法的推導至關重要!

機器學習是怎麼學的(需要哪些數學知識)4

積分學的重點是理解下面這種圖中的公式。包括定積分和多重積分的計算,以及積分的換元法。

機器學習是怎麼學的(需要哪些數學知識)5

線性代數

線性代數對于機器學習是至關重要的。機器學習算法的輸入、輸出、中間結果通常為向量、矩陣、張量。

使用線性代數可以簡化問題的表達,用一個矩陣乘法,比寫成多重求和要簡潔明了得多。線性代數是學習後續數學課程的基礎。它可以與微積分結合,研究多元函數的性質。

線性代數在概率論中也被使用,比如随機向量,協方差矩陣。線性代數在圖論中亦有應用-如圖的鄰接矩陣,拉普拉斯矩陣。在随機過程中同樣有應用-如狀态轉移矩陣。

機器學習中所用的線性代數知識,有不少超出了一般線性代數乃至高等代數教材的範疇,對于很多讀者來說說陌生的。這包括:

1. 向量的範數 2. 矩陣的範數,包括譜範數 3. Householder變換 4. QR算法 5. 廣義特征值 6. 瑞利商 7. 矩陣的條件數 8. 矩陣分解,包括Cholesky分解,QR分解,奇異值分解(SVD)等

這些知識在機器學習教材和相關論文中頻繁出現。

概率論

概率論對于機器學習來說也是至關重要的,它是一種重要的工具。

如果将機器學習算法的輸入、輸出看作随機變量/向量,則可以用概率論的觀點對問題進行建模。使用概率論的一個好處是可以對不确定性進行建模,這對于某些問題是非常有必要的。另外,它還可以挖掘變量之間的概率依賴關系,實現因果推理。

概率論為某些随機算法-如蒙特卡洛算法、遺傳算法,以及随機數生成算法-包括基本随機數生成、以及采樣算法提供了理論依據和指導。最後,概率論也是信息論,随機過程的先導課程。

下面這張圖清晰的列出了概率論的核心知識。

機器學習是怎麼學的(需要哪些數學知識)6

工科的概率論與數理統計教材,已經講述了機器學習所需的大部分概率論知識,隻有以下的知識點除外:

1. 條件獨立性 2. Jensen不等式 3. 某些概率分布,如多項分布,拉普拉斯分布,t分布等 4. 概率分布變換 5. 多維正态分布 6. 多維概率分布變換 7. 某些參數估計方法,包括最大後驗概率估計,貝葉斯估計等 8. 随機數生成算法,包括逆變換采樣,拒絕采樣等算法

最優化方法

最優化方法在機器學習中處于中心地位,遺憾的是很多讀者并沒有系統地學過這門課程,包括線性規劃,凸優化,非線性規劃。在一般的數值分析課程中,隻講述了最優化方法的小部分内容。

幾乎所有機器學習算法最後都歸結于求解最優化問題,從而确定模型參數,或直接獲得預測結果。

  • 前者的典型代表是有監督學習,通過最小化損失函數或優化其他類型的目标函數确定模型的參數;
  • 後者的典型代表是數據降維算法,通過優化某種目标函數确定降維後的結果,如主成分分析。

下面這張圖列出了最優化方法的核心知識。

機器學習是怎麼學的(需要哪些數學知識)7

信息論

信息論是概率論的延伸,在機器學習與深度學習中通常用于構造目标函數,以及對算法進行理論分析與證明。這同樣是很多讀者沒有學習過的課程。

在機器學習尤其是深度學習中,信息論的知識随處可見:

  1. 決策樹的訓練過程中需要使用熵作為指标
  2. 在深度學習中經常會使用交叉熵、KL散度、JS散度、互信息等概念
  3. 變分推斷的推導需要以KL散度為基礎
  4. 距離度量學習、流形降維等算法也需要信息論的知識

總體來說,在機器學習中用得最多的是熵,交叉熵,KL散度,JS散度,互信息,條件熵等。

下面這張圖列出了信息論的核心知識。

機器學習是怎麼學的(需要哪些數學知識)8

随機過程

随機過程同樣是概率論的延伸,這也是大部分讀者沒有學習過的課程。

在機器學習中,随機過程被用于概率圖模型、強化學習、以及貝葉斯優化等方法。不理解馬爾可夫過程,你将對MCMC采樣算法一頭霧水。

下面這張圖列出了機器學習中随機過程的核心知識。

機器學習是怎麼學的(需要哪些數學知識)9

在機器學習中所用的主要是馬爾可夫過程和高斯過程。隐馬爾可夫過程,馬爾可夫決策過程都是它的延伸。同時,平穩分布、細緻平衡條件也是理解MCMC采樣的核心基礎。

圖論

圖論似乎隻有計算機相關專業在本科時學過,而且還不完整,比如譜圖理論。在機器學習中,概率圖模型是典型的圖結構。流形降維算法與譜聚類算法均使用了譜圖理論。計算圖是圖的典型代表,圖神經網絡作為一種新的深度學習模型,與圖論也有密切的關系。因此補充圖論的知識也是很有必要的。

如何解決機器學習的數學問題?《機器學習的數學》是你的一個好選擇!

機器學習是怎麼學的(需要哪些數學知識)10

這本書用最小的篇幅精準地覆蓋了機器學習、深度學習、強化學習所需的核心數學知識。章節結構設計科學合理,不需要的東西,統統不講,這樣可以有效地減小讀者的學習成本。

堅持讀完這本書,基本上可以掃清你學西瓜書,花書的數學障礙。當你看到數學符号和公式的時候不再會有陌生感,對于這些數學知識如何用到機器學習和深度學習中,也有一個清晰的認識。

這将有效地提高你在職場上的競争力,如果你想從事學術研究,也可以為你打下良好的數學基礎。

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved