“西瓜書”(《機器學習》,清華大學出版社)和“花書”(《深度學習》,人民郵電出版社)分别是目前國内機器學習、深度學習領域最受歡迎的教材。大家公認它們的質量是很高的,但一個尴尬的現狀是:因為數學基礎不紮實,很難入門并徹底掌握核心知識。
學好機器學習,需要哪些數學知識?我們先看典型的機器學習算法所用到的數學知識點,如下表所示。
限于篇幅,這裡沒有列出強化學習、機器學習理論、自動化機器學習(AutoML)等内容所用的數學知識。
從這張表可以看出來,頻繁用到的知識點就是向量和矩陣的運算,梯度下降法等優化算法,概率,信息論中的模型概念。
整體來說,就是下面這幾門課的内容:
下面這張圖列出了這些知識的整體結構。其中線性代數與微積分是基礎,其他的課程都是建立在它們之上的。最優化方法嚴重依賴于微積分的知識,信息論與随機過程是概率論的延伸。
下面我們分别來介紹這幾門課在機器學習中到底用到了哪些内容。
微積分微積分可分為一元函數微積分、多元函數微積分兩部分,它是整個高等數學的基石。
通常情況下,機器學習需要得到一個函數(模型,或者說假設),既然是函數,那自然就離不開微積分了。微積分為我們研究函數的性質,包括單調性、凹凸性、以及極值提供了理論依據。同時它也是學習概率論、信息論、最優化方法等後續課程的基礎。
總體來說,機器學習中所用的微積分知識,工科微積分教材基本上已經講了,除了下面這些内容:
1. 上/下确界
2. 李普希茨連續性
3. 雅克比矩陣
4. Hessian矩陣
5. 多元函數的凹凸性
6. 多元函數的極值
7. 多元函數的泰勒公式
8. 多重積分的換元法
如果你真的學好了本科微積分,上面這些内容并不難理解。
對于微分學習,重點是下面這張圖中的内容。包括函數的求導法則(尤其是鍊式法則),以及泰勒公式。泰勒公式中的一階導數項和二階導數項決定了函數的極值,這對後續的梯度下降法,牛頓法,拟牛頓法等優化算法的推導至關重要!
積分學的重點是理解下面這種圖中的公式。包括定積分和多重積分的計算,以及積分的換元法。
線性代數
線性代數對于機器學習是至關重要的。機器學習算法的輸入、輸出、中間結果通常為向量、矩陣、張量。
使用線性代數可以簡化問題的表達,用一個矩陣乘法,比寫成多重求和要簡潔明了得多。線性代數是學習後續數學課程的基礎。它可以與微積分結合,研究多元函數的性質。
線性代數在概率論中也被使用,比如随機向量,協方差矩陣。線性代數在圖論中亦有應用-如圖的鄰接矩陣,拉普拉斯矩陣。在随機過程中同樣有應用-如狀态轉移矩陣。
機器學習中所用的線性代數知識,有不少超出了一般線性代數乃至高等代數教材的範疇,對于很多讀者來說說陌生的。這包括:
1. 向量的範數
2. 矩陣的範數,包括譜範數
3. Householder變換
4. QR算法
5. 廣義特征值
6. 瑞利商
7. 矩陣的條件數
8. 矩陣分解,包括Cholesky分解,QR分解,奇異值分解(SVD)等
這些知識在機器學習教材和相關論文中頻繁出現。
概率論概率論對于機器學習來說也是至關重要的,它是一種重要的工具。
如果将機器學習算法的輸入、輸出看作随機變量/向量,則可以用概率論的觀點對問題進行建模。使用概率論的一個好處是可以對不确定性進行建模,這對于某些問題是非常有必要的。另外,它還可以挖掘變量之間的概率依賴關系,實現因果推理。
概率論為某些随機算法-如蒙特卡洛算法、遺傳算法,以及随機數生成算法-包括基本随機數生成、以及采樣算法提供了理論依據和指導。最後,概率論也是信息論,随機過程的先導課程。
下面這張圖清晰的列出了概率論的核心知識。
工科的概率論與數理統計教材,已經講述了機器學習所需的大部分概率論知識,隻有以下的知識點除外:
1. 條件獨立性
2. Jensen不等式
3. 某些概率分布,如多項分布,拉普拉斯分布,t分布等
4. 概率分布變換
5. 多維正态分布
6. 多維概率分布變換
7. 某些參數估計方法,包括最大後驗概率估計,貝葉斯估計等
8. 随機數生成算法,包括逆變換采樣,拒絕采樣等算法
最優化方法在機器學習中處于中心地位,遺憾的是很多讀者并沒有系統地學過這門課程,包括線性規劃,凸優化,非線性規劃。在一般的數值分析課程中,隻講述了最優化方法的小部分内容。
幾乎所有機器學習算法最後都歸結于求解最優化問題,從而确定模型參數,或直接獲得預測結果。
下面這張圖列出了最優化方法的核心知識。
信息論
信息論是概率論的延伸,在機器學習與深度學習中通常用于構造目标函數,以及對算法進行理論分析與證明。這同樣是很多讀者沒有學習過的課程。
在機器學習尤其是深度學習中,信息論的知識随處可見:
總體來說,在機器學習中用得最多的是熵,交叉熵,KL散度,JS散度,互信息,條件熵等。
下面這張圖列出了信息論的核心知識。
随機過程
随機過程同樣是概率論的延伸,這也是大部分讀者沒有學習過的課程。
在機器學習中,随機過程被用于概率圖模型、強化學習、以及貝葉斯優化等方法。不理解馬爾可夫過程,你将對MCMC采樣算法一頭霧水。
下面這張圖列出了機器學習中随機過程的核心知識。
在機器學習中所用的主要是馬爾可夫過程和高斯過程。隐馬爾可夫過程,馬爾可夫決策過程都是它的延伸。同時,平穩分布、細緻平衡條件也是理解MCMC采樣的核心基礎。
圖論圖論似乎隻有計算機相關專業在本科時學過,而且還不完整,比如譜圖理論。在機器學習中,概率圖模型是典型的圖結構。流形降維算法與譜聚類算法均使用了譜圖理論。計算圖是圖的典型代表,圖神經網絡作為一種新的深度學習模型,與圖論也有密切的關系。因此補充圖論的知識也是很有必要的。
如何解決機器學習的數學問題?《機器學習的數學》是你的一個好選擇!
這本書用最小的篇幅精準地覆蓋了機器學習、深度學習、強化學習所需的核心數學知識。章節結構設計科學合理,不需要的東西,統統不講,這樣可以有效地減小讀者的學習成本。
堅持讀完這本書,基本上可以掃清你學西瓜書,花書的數學障礙。當你看到數學符号和公式的時候不再會有陌生感,對于這些數學知識如何用到機器學習和深度學習中,也有一個清晰的認識。
這将有效地提高你在職場上的競争力,如果你想從事學術研究,也可以為你打下良好的數學基礎。
,更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!