梯度下降算法可以解決啥問題-tft每日頭條

梯度下降算法可以解決啥問題

圖文更新时间:2025-11-11 08:07:17

梯度下降算法可以解決啥問題（理解梯度下降一）1

梯度下降算法可以解決啥問題（理解梯度下降一）2

數學準備

雅可比矩陣（Jacobian）：向量對向量的偏導數所構成的矩陣，考慮函數從空間映射到另一個空間(

梯度下降算法可以解決啥問題（理解梯度下降一）3

)，則雅可比矩陣形成一個m行n列的矩陣，矩陣元标記為

梯度下降算法可以解決啥問題（理解梯度下降一）4

。
海森矩陣（Hessian）：一階導數的雅可比矩陣，因為二階偏導的連續性，可以交換偏導的先後順序，所以海森矩陣也是實對稱矩陣。
方向導數（direction derivative）:某個标量對特定方向d（單位向量）上的導數，度量了該标量沿着該方向的變化率，是一個向量。
梯度（Gradient）：變化率最大的方向導數。
鞍點（saddle point）：Hessian正定，對應局部極小值，Hessian負定，對應局部最大值，Hessian不定，對應鞍點（注意，這是充分非必要條件）直觀來看，鞍點就是一個方向上是極大值，另一方向卻是極小值。
厄米矩陣（Hermitian）：對稱矩陣的複數域擴展，實對稱矩陣是厄密矩陣的特例。厄米矩陣可以被對角化。
特征值：矩陣做對角化變換前後，特征向量被縮放的比例。特征向量和特征值是矩陣的固有屬性。

梯度下降算法可以解決啥問題（理解梯度下降一）2

在開始深度學習之前，我們要對深度學習和統計學習的重要工具——優化算法——做一個全面深刻的剖析，首先我們要問：機器學習為什麼要使用優化算法呢？舉個例子，普通最小二乘的最佳參數表達為：

梯度下降算法可以解決啥問題（理解梯度下降一）6

雖然我們可以獲得解析表達，但是當數據量變得非常龐大的時候，連計算矩陣的逆都會變得非常慢。同時在很多情況下，我們無法獲得參數的解析表達，就需要采用叠代的方式逼近最佳的參數值。

叠代的方式有很多種，比如坐标下降法（coordinate descent），它的想法很簡單，将變量分組然後針對每一組變量的坐标方向最小化Loss，循環往複每一組變量，直到到達不再更新Loss的坐标點。但即便這樣，坐标下降法仍然叠代的非常緩慢，很大一部分原因在于它的搜索方向是固定的，隻能沿着坐标的方向，而這樣的方向并不能保證是最快的。同時，坐标下降需要假設變量之間的影響非常微弱，一個變量的最優不會影響到另一個變量的更新，但這一條件往往很難滿足。

梯度下降算法可以解決啥問題（理解梯度下降一）7

圖為坐标下降應用到兩個參數構成的Loss，我們可以發現，參數隻在兩個垂直的方向上進行更新，這是因為我們看到的contour就處在兩個參數構成的直角坐标系中，分别對應着坐标的方向。

相較于坐标下降，基于梯度是所有方向導數中變化最快的，梯度下降（gradient descent）也被叫做最速下降，對機器學習有些許了解的同學會很容易寫出梯度下降的公式：

梯度下降算法可以解決啥問題（理解梯度下降一）8

首先，Loss function一般都是标量，它的雅可比矩陣就是一個列向量，其梯度指明了下降的方向，說明沿Loss梯度方向更新參數會得到最大程度的改變，學習率是一個标量，與梯度相乘，指明了下降的幅度。

梯度下降算法可以解決啥問題（理解梯度下降一）9

圖為梯度下降在兩參數構成的Loss，可以發現，參數會沿着垂直于contour的方向進行更新，垂直于contour的方向正是梯度的方向。

Hessian中包含了Loss function的曲率信息，因為Hessian可以理解為梯度的雅可比，一個函數的導數衡量的是函數的變化率，所以Hessian衡量的就是梯度的變化率。同時Hessian矩陣由于是厄米矩陣，可以被對角化，它的特征值和特征向量可以分别定義為：

梯度下降算法可以解決啥問題（理解梯度下降一）10

如果特征向量被正交歸一化，那麼特征向量d就是基，那麼特征值就是該方向上的二階導數，兩邊同時乘以特征向量的轉置，就可以得到：

梯度下降算法可以解決啥問題（理解梯度下降一）11

比如對于鞍點，某個特征向量所對應的特征值就是負的，就意味着是這個方向上的極大值點，而另一特征向量所對應的特征值就是正的，意味着同時也是另一方向上的極小值點。從數學上來說，鞍點的來源是極大值極小值都要通過導數為零得到，但不同的方向導數定義在了不同的維度上。

梯度下降算法可以解決啥問題（理解梯度下降一）12

如圖，AB方向和CD方向，二階導數的正負并不一緻，産生了X這樣一個鞍點。

其餘的方向的二階導數就可以通過特征向量來計算，因為特征向量可以構成一組基（完備正交），所有向量都可以用這組基進行線性表示，任意方向f可以被表示為：

梯度下降算法可以解決啥問題（理解梯度下降一）13

所以，任意方向的二階導數都可以得到:

梯度下降算法可以解決啥問題（理解梯度下降一）14

Hessian能夠告訴我們非常重要的一點，随着參數點的不斷更新，梯度會如何變化。舉個例子，在很多教材上都會講學習率的設定，學習率如果過大，就會在很大的Loss附近震蕩，如果太小，需要叠代的次數又太多。

梯度下降算法可以解決啥問題（理解梯度下降一）15

如圖，不同的學習率會對梯度下降的性能造成影響。

那麼，多大的學習率才合适呢？具體到這個例子上，這明顯是一個凸函數（特指向下凸），代表着梯度會變得越來越小，也就是說固定好學習率的前提下，随着參數點的下降，我們下降的會越來越慢，我們将Loss function做泰勒展開：

梯度下降算法可以解決啥問題（理解梯度下降一）16

假設從

梯度下降算法可以解決啥問題（理解梯度下降一）17

到

梯度下降算法可以解決啥問題（理解梯度下降一）18

，我們執行了一次梯度下降，那麼就有關系：

梯度下降算法可以解決啥問題（理解梯度下降一）19

将梯度

梯度下降算法可以解決啥問題（理解梯度下降一）20

表示為g，其帶入泰勒展開式，可以得到：

梯度下降算法可以解決啥問題（理解梯度下降一）21

如果我們将後面兩項寫作一項：

梯度下降算法可以解決啥問題（理解梯度下降一）22

如果中括号裡面的項大于零，那麼Loss 總會減小，比如Hessian的特征值均為負，其實對應着極大值點，那麼無論學習率多小，Loss總會下降很大。但是，如果Hessian特征值均為正，而且非常大，就意味着極小值附近的曲率非常大，那麼執行梯度下降反而會導緻Loss的上升。如果我們希望Loss能下降最多，其實就是希望中括号項越大越好，在Hessian特征值為正的情況下，在我們将看作變量，令其一階導數為零，這樣就求到了極大值(因為在Hessian特征值為正的前提下，二階導數小于零)：

梯度下降算法可以解決啥問題（理解梯度下降一）23

就可以得到：

梯度下降算法可以解決啥問題（理解梯度下降一）24

就給出了我們的最優步長。同時，我們可以将Loss function做泰勒展開，展開到二階：

梯度下降算法可以解決啥問題（理解梯度下降一）25

考慮到一階導數為零的點對應着極值點，我們對上式求一階導數，并令其為零可得：

梯度下降算法可以解決啥問題（理解梯度下降一）26

這樣就得到了牛頓法（Newton method）的更新公式。牛頓法已經默認使用了一階導數為零的信息，理想情況下，它隻需要從初始參數點叠代一次就可以找到極小值點。同時，它利用了Hessian中的曲率信息，一般而言也要比梯度更快，在下降方向上并不是梯度的方向，從數學上可以看出Hessian乘以梯度，本質上會得到Hessian特征向量的線性疊加，如果梯度恰好作為了Hessian的特征向量，那麼牛頓法和梯度下降的下降方向才會一緻。

梯度下降算法可以解決啥問題（理解梯度下降一）27

如圖，紅線表示梯度下降的路徑，綠線表示牛頓法的路徑。

梯度下降算法可以解決啥問題（理解梯度下降一）28

讀芯君開扒

課堂TIPS

這裡着重強調：優化算法的快慢和計算代價是兩回事情。優化至局部最小值所需要的叠代次數越少，就可以說優化地越快。梯度下降比坐标下降快，牛頓法比梯度下降更快，但我們可以非常容易的看到，在每次叠代時，梯度下降需要計算全部樣本的梯度，牛頓法甚至需要計算全部樣本的Hessian，雖然叠代次數減少了，但每次的計算代價卻增加了。

梯度下降算法可以解決啥問題（理解梯度下降一）28

作者：唐僧不用海飛絲

如需轉載，請後台留言，遵守轉載規範

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

圖文有低血糖要注意什麼
對于糖尿病人來說，總是想法子如何降低血糖，但是對于另一些人來說，總是低血糖卻是個很頭疼的問題，低血糖應該怎麼辦？怎麼才能快速補充血糖？葡萄糖好不好經常低血糖，如果随身攜帶一瓶葡萄糖水是不是更有效呢？其實，葡萄糖并不是一個預防低血糖的好措施，... 2022-11-14
圖文支付寶顯示蘋果id被盜
支付寶顯示蘋果id被盜?某iPhone用戶被盜刷的錢，被用于遊戲消費，下面我們就來說一說關于支付寶顯示蘋果id被盜?我們一起去了解并探讨一下這個問題吧!支付寶顯示蘋果id被盜某iPhone用戶被盜刷的錢，被用于遊戲消費。某iPhone用戶收... 2022-10-13
圖文輔助生殖歐洲國家
兩年前，著名女星徐靜蕾自曝赴美冷凍自己的卵子，以備将來後悔曾不想要孩子，并稱此舉是找到“世界上唯一的後悔藥”，這一消息“鼓舞”了很多大齡單身女性。有人稱，這意味着女性可以自由選擇生育時間從而充分享受生活。但是從目前來看，冷凍卵子最終成功妊娠... 2023-01-22
圖文唐詩十首簡短五言律詩
鋁城新貌花磚鋪地面，道路拓展寬。夜晚燈光亮，牆圍式樣翻。門房真顯眼，古色古香檐。物業抓環保，鋁城換美顔。玫瑰，玫瑰嬌顔浪漫花，愛戀語纏綿。傾注芳菲去，朵朵沁入田。折得花贈獻，散放異香甜。靓麗姿妍綻，花開滿院繁。夜來香月下花兒眠，香發夜來香。... 2022-11-02
圖文 3個瘦臉小動作幫你7天換臉
來源:家庭醫生在線|2015-04-0207:48:37臉胖就算你身材再瘦也沒用，因為視覺第一眼就會感覺你胖嘟嘟的，其實想瘦臉一點兒也不難，平時臉部做一下運動就能瘦，下面就一起來學學幾招簡單瘦臉小方法，輕松瘦出巴掌臉。消除雙下巴1。仰起頭部... 2022-12-01
圖文哪個王不叫皇
文/林岩01西夏國第四任皇帝，夏崇宗李乾順在位時期，有個叫任得敬的漢人，憑借進獻美人獲得皇帝寵信。此後一發而不可收，從都統軍一直做到了一國之相，最終完全操控了西夏朝廷。任得敬雖然姓“任”，卻沒辦過幾件“人”事兒，稱其為人渣也不算過分。任得敬... 2022-11-27
圖文原神靖世之柱少了石頭怎麼辦
▌PART01：祈願介紹祈願說明：通過消耗「糾纏之緣」抽取，每十連必得一個紫色品級（四星）的角色或武器（不包括出金的十連），每80連必得一個金色品級（五星）的武器，獲取後重置保底次數。單次祈願消耗160原石。*PS：其中「弓·終末嗟歎之詩」... 2023-02-18
圖文大數據人工智能時代ppt
當人們談論矽谷科技巨頭公司利用人工智能（AI）改善現有産品的是，首先想到的一般都會是谷歌。在最近的I/O大會上，谷歌表示AI與機器學習将在未來變得非常重要，另外Android最新推出的每一樣東西幾乎都可以算是都配備了一定的AI元素。不過蘋果... 2022-12-10
圖文趙孟頫寫五字
趙孟頫寫五字?析趙孟頫“高、豪、花、古、歌”五字，今天小編就來說說關于趙孟頫寫五字?下面更多詳細答案一起來看看吧!趙孟頫寫五字析趙孟頫“高、豪、花、古、歌”五字作者：呂為群趙孟頫認為，學書有二，一曰筆法，二曰字法。筆法弗精，雖善尤惡。字形弗... 2022-10-12
圖文無氧運動多長時間比較好
無氧運動多長時間比較好?該文為原創作品，抄襲視侵權舉報，下面我們就來說一說關于無氧運動多長時間比較好?我們一起去了解并探讨一下這個問題吧!無氧運動多長時間比較好該文為原創作品，抄襲視侵權舉報！現在人為了減肥、瘦身、塑型，還有的為了身體健康，... 2022-10-12
圖文 lol中哪個英雄最系統的台詞
英雄聯盟中現在擁有着144個英雄，每一個英雄都有屬于自己的特色，LOL也為每一位英雄量身打造了專屬台詞。而這些英雄的台詞中，有很多的台詞都是充滿人生哲理的。艾克：“時間不在于擁有多少，而在于你如何使用。”艾克是一個可以控制時間的英雄，而他這... 2022-12-12
圖文 mdi膠闆材和生态闆哪個好
膠合闆是家具制造常用的材料之一，也是人造闆三大闆之一。近年來，膠合闆逐漸成為了我國人造闆中的主導産品，與此同時，它也是我國人造闆中起步最早、發展最快、且擁有較強國際競争力的一種闆材。膠合闆中的甲醛含量，一直是消費者關注的焦點問題。衆所周知，... 2022-10-25
圖文 30個不可思議的冷知識
12個說出來你可能不信，但卻真實存在的冷知識1.我們大部分人其實比豬胖正常男性的體脂率為15-18%，正常女性的體脂率為20-25%，而豬的平均體脂率才15%。所以不要再說自己胖的像隻豬了，你可能比豬還胖。加油吧！減肥人！2.酒窩其實是一種... 2022-09-29
圖文七夕怎麼選鮮花
螞蟻莊園：在花瓶中加入什麼，可以延長鮮花的花期?A、少量糖B、少量魚露。螞蟻莊園：我國古代女性曾用哪種物品作為“粉底”的原料?A、米粒B、香灰。螞蟻新村：大豆發源地和主産國是?A、中國B、美國。在花瓶中加入什麼，可以延長鮮花的花期?我國古代... 2022-10-29
圖文有苦味的荠菜能吃嗎
有苦味的荠菜能吃嗎?野火燒不盡，春風吹又生當春寒依然在料峭的時候，荠菜就早早的冒出頭，從南往北依次遞進，為吃貨朋友們奉獻上一道新春的美味如果，你在農村的，田間地頭上，看到有人提着個小筐，三三兩兩，說說笑笑，尋尋覓覓，那八成就是挖荠菜的沒錯，... 2022-10-13
圖文鄭州東區有幾個花卉市場
在鄭州，除了逛商場、逛公園，你還知道哪些好“逛”的地方？在市區的西北區域，有這樣一家花卉市場，内部分布着很多大棚，大棚内十分溫暖。其中，售賣有各類鮮花、苗木、多肉植物、花盆、園藝工具。此外，市場也有花鳥、貓狗、倉鼠兔子等寵物。這處花木基地，... 2022-10-30
圖文二十不惑周尋和姜小果在一起嗎
, 2023-02-18
圖文實習期快滿一年可以扣分嗎
【卡車之家原創】4月1日起，最新版《機動車駕駛證申領和使用規定》和《道路交通安全違法行為記分管理辦法》開始正式實施，相比此前的版本，有不少新變化，都和我們卡友們日常運營息息相關。從法規發布至今，我們卡車之家為大家帶來了詳細的解讀，今天再來帶... 2022-11-04
圖文戶外登山必備好物品有哪些
最近假日熱門兩大戶外活動，一為露營、二為登山，露營的人喜歡自己動手完成一件事的感覺，而喜歡登山的人，就是喜歡接觸大自然那種無悠的感覺。我們時常喜歡相邀三五好友一起登山徒步，但時常忽略最重要的登山裝備清單，有人說帶錯登山裝備絆手絆腳、帶對登山... 2023-04-04
圖文喋血複仇用不用加速器
熱門大作《喋血複仇》10月13日正式上線，已經預購豪華版的玩家已經可以開玩了。作為一款剛剛上線的國外網遊，對國内玩家來說，出現延遲高，卡頓問題也是正常現象。斧牛加速器已經針對喋血複仇進行了多次網絡優化，有效解決玩家遊戲過程中存在的網絡問題，... 2022-12-28
圖文 13人火鍋店消費1000元逃單
來源：浙江法制報“雪糕刺客”近日成熱詞之一，近日，何女士向甯波市海曙區消保委投訴說，她在火鍋店消費時遭遇了“飲料刺客”，“服務員向我推薦飲料時，沒有告知價格，也沒有對推薦的飲料明碼标價，結賬時，3瓶水收費177元……”被何女士投訴的火鍋店名... 2022-12-21
圖文土地流轉和農業規模化發展情況
土地流轉和農業規模化發展情況?來源：新華社來源：3月15日《新華每日電訊》，下面我們就來聊聊關于土地流轉和農業規模化發展情況?接下來我們就一起去了解一下吧!土地流轉和農業規模化發展情況來源：新華社來源：3月15日《新華每日電訊》作者：新華每... 2022-10-04
圖文設計用地容積率控制
設計用地容積率控制?說到規劃條件，它是實現政府規劃意圖的一個約束性文件，作為土地出讓合同或者土地劃撥決定書的構成要件，為土地使用方指明開發利用過程中具體的要求，我來為大家科普一下關于設計用地容積率控制?下面希望有你要的答案，我們一起來看看吧... 2022-11-14
圖文古玩的規矩和忌諱
古玩的規矩和忌諱?導讀：在古玩行裡，老藏友、老玩家動辄冒出一兩句隐語行話，讓他們不明就裡為此，整理翻譯出部分隐語行話，以飨藏友，我來為大家科普一下關于古玩的規矩和忌諱?下面希望有你要的答案，我們一起來看看吧!古玩的規矩和忌諱導讀：在古玩行裡... 2022-10-11
圖文秋天吃柚子有哪些要注意的
導語：秋天正是吃柚子的季節，這時正是柚子大量上市的季節，柚子清香酸甜，而且營養價值豐富，受到很多人的歡迎。柚子中含有豐富的蛋白質，糖類、維生素B1、維生素B2、維生素c、維生素P、胡蘿蔔素、鉀、磷、鎂，鈉，有機酸，枸橼酸，類胰島素等多種營養... 2022-11-07
圖文迷你世界怎麼建造吸血樓梯
迷你世界是一款具有創造力和想象力的沙盒遊戲，在遊戲中玩家們總是能造出各種好玩的東西，尤其是在生存模式裡，小夥伴最喜歡造一些陷阱，畢竟陷阱不但可以幫助玩家捕捉獵物，還能對付一些其他玩家。而今天我們要來瞧瞧的就是4種吸血樓梯的制作方法，要知道很... 2023-01-16
圖文如何煮豬肚雞使湯白白的
一隻豬肚半隻雞，教你做豬肚雞湯，鮮美濃白營養高，年夜飯必備豬肚和雞肉，看似不搭的兩種食材，在廣東人的眼裡卻是那樣的搭配。每年的秋冬季節，衆多廣東人，總喜歡拿豬肚和雞肉，一起炖一鍋豬肚雞湯，口感鮮美湯汁濃白，營養也極為豐富，滋補效果絕佳。喝完... 2022-12-14
圖文初級會計增值稅免稅和零稅率項目
談及企業稅費，小編相信大部分人腦海中閃現的都是“增值稅“三個字，增值稅是企業日常經營活動中一定會涉及的一個稅種，與各行各業的生命周期相一緻，所以作為一個會計從業人員，學會增值稅的賬務處理是十分必要的，接下來就跟着小編來了解增值稅的相關知識吧... 2023-01-12
圖文李清照十首最好詩詞
歡迎關注好詞佳賞——一個有内涵的詩詞公衆号。李清照是兩宋之交最傑出的詞人，也是中國古代最著名的才女，号稱“千古第一才女”。前段時間熱播的電視劇《知否知否，應是綠肥紅瘦》的主題曲，即是李清照的詞作。李清照詞風清新典雅，細膩動人，一生為我們留下... 2022-09-29
圖文騰訊再成功注冊2類歡樂鬥地主商标
近日，騰訊科技（深圳）有限公司申請注冊的食品類和方便食品類“歡樂鬥地主”商标狀态變更為“已注冊”等，商标申請于2021年4月。值得一提的是，加上此前注冊成功的商标，目前該公司已注冊成功數十個國際分類的“歡樂鬥地主”商标。, 2022-12-16

tft每日頭條

> 圖文

> 梯度下降算法可以解決啥問題

梯度下降算法可以解決啥問題

相关圖文资讯推荐

热门圖文资讯推荐

网友关注