本期繼續連載數學基礎的最後一部分:概率論,包括基礎概念、似然、最大似然估計、概率分布衡量等。至此數學基礎知識就介紹完啦,下次開始介紹具體的模型算法。
《機器學習基礎知識手冊》總結了更多的問題,歡迎訪問github地址:httul>方差:随機變量X的方差用來定義它的概率分布的離散程度,定義為: 方差的性質:
概率和似然的區别與聯系概率表達的是給定下樣本随機向量的可能性,而似然表達了給定樣本下參數為真實值的可能性。似然函數的形式是,其中代表的是條件概率或者條件分布,因此似然函數是在已知樣本随機變量的情況下,估計參數空間中的參數的值,因此似然函數是關于參數的函數,即給定樣本随機變量後,估計能夠使的取值成為的參數的可能性;而概率密度函數的定義形式是,即概率密度函數是在“已知”的情況下,去估計樣本随機變量出現的可能性。似然函數可以看做是同一個函數形式下的不同視角。以函數為例,該函數包含了兩個變量,和,如果已知為2,那麼函數就是變量的二次函數,即 ;如果已知為2,那麼該函數就是變量b的幂函數,即。同理,和也是兩個不同的變量,如果的分布是由已知的刻畫的,要求估計的實際取值,那麼就是的概率密度函數;如果已知随機變量的取值,而要估計使取到已知的參數分布,就是似然函數的目的。最大似然估計和最大後驗概率的區别對于函數有兩種情況:保持不變,為變量,此時函數為概率函數,表示的是出現的概率;是變量,是變量,此時為似然函數,表示不同下出現的概率最大似然估計嘗試求解使得出現概率最高的。對于m次實驗,由于每次都是獨立的,我們可以将中每一次實驗結果的似然函數全部乘起來,那麼,使得該式取得最大值的,即為的最大似然估計:最大似然估計方法嘗試求解來最大化似然函數,顯然計算出來的參數完全取決于實驗結果。最大後驗概率能夠很大程度解決這個問題。該方法嘗試最大化後驗概率: 是已知的,隻需最大化分子部分。和最大化似然的唯一區别是增加了先驗概率
KL散度、JS散度、Wasserstein距離KL散度(不對稱),也叫相對熵,衡量分布之間的差異性。KL散度并不是一個真正的距離,KL散度不滿足對稱性(即)和三角不等式(即不滿足) 将KL散度展開可得,其中為熵,為交叉熵。KL散度實際上衡量的是兩者之間的信息損失
KL散度的缺點:無界不對稱若兩個分布無重疊部分可能得到的結果無意義 關于分布不重合時的情況舉例,對于如下的分布,P1在AB上均勻分布,P2在CD上均勻分布,控制着兩個分布的距離遠近。可得:
JS散度:解決了KL散度非對稱的問題。KL散度和JS散度都有一個問題,即當兩個分布和離得很遠沒有重疊時,KL散度是無意義的,JS散度是個常數。Wasserstein距離: 是分布組合起來的所有可能的聯合分布的集合。對于每一個可能的聯合分布,可以從中采樣得到一個樣本x和y,并計算出這對樣本的聚類,所以可以計算該聯合分布下,樣本對距離的期望值。在所有可能的聯合分布中能夠取到這個期望值的下界的就是wasserstein距離。直觀上可以理解為在這個路徑規劃下把土堆挪到土堆所需要的消耗。而Wasserstein距離就是在最優路徑規劃下的最小消耗,也叫做Earth-mover距離。
機器學習面試題精選連載(1)——模型基礎
機器學習面試題精選連載(2)——微積分與線性代數
機器學習面試題精選連載(3)——線性代數
,
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!