交叉熵損失函數的原理-tft每日頭條

交叉熵損失函數的原理

生活更新时间:2025-08-16 15:28:57

0. 總結 （本文目的是讨論理解一下相對熵（KL）與交叉熵（cross-entropy）的關系，以及相應的損失函數）

交叉熵損失函數的原理（交叉熵損失函數）1

熵的本質：信息量 log(1/p)的期望的期望。

交叉熵損失函數的原理（交叉熵損失函數）2

交叉熵：

物理意義：用模拟分布Q去編碼真實分布P所需要的平均編碼長度（比特個數底數為2時

交叉熵損失函數的原理（交叉熵損失函數）3

交叉熵損失函數:

交叉熵損失函數的原理（交叉熵損失函數）4

（這裡的連加sigma 是把一個樣本分布的所有概率下的信息量進行的連加，例如我們就求一句話分類的損失，假設類别有3個，那麼就會連加3次，屬于第一個類别的概率。。輸入第二個類别的概率。。）

相對熵：

物理意義：用模拟分布Q去編碼真實分布P所需要的額外比特個數。

交叉熵損失函數的原理（交叉熵損失函數）5

熵的重要性質：（摘錄）

**單調性**，即發生概率越高的事件，其所攜帶的信息熵越低。極端案例就是“太陽從東方升起”，因為為确定事件，所以不攜帶任何信息量。從信息論的角度，認為這句話沒有消除任何不确定性。 **非負性**，即信息熵不能為負。這個很好理解，因為負的信息，即你得知了某個信息後，卻增加了不确定性是不合邏輯的。 **累加性**，即多随機事件同時發生存在的總不确定性的量度是可以表示為各事件不确定性的量度的和。

1.重點

1. 信息熵 2. 交叉熵 3. 相對熵 4. 交叉熵與相對熵關系 5. 相對熵與交叉熵的損失函數

2. 自信息與信息熵：

信息熵：

交叉熵損失函數的原理（交叉熵損失函數）6

(E表示期望)

交叉熵損失函數的原理（交叉熵損失函數）7

物理意義：編碼一個變量分布的最少比特數（期望比特數）。實際意義：事件發生的概率越高，信息熵越小。例如 p(xi) 的概率是1，對于X的取值隻能是xi ，則H(x)=0.

為什麼是log？log的底應該是多少？

底為2，因為計算機中是0,1編碼，但是底設置為多少都可以根據需求而定

例子：

交叉熵損失函數的原理（交叉熵損失函數）8

投擲一次，要确定是不是A需要詢問1次，确定是不是B需要問2次（先問是不是A再問是不是B）詢問C問3次，詢問D也是3次所以編碼有 1*1/2 2*1/4 3/8 3/8 = 7/4 （該例子原理引用自知乎某文因為是之前看過記憶下來的沒有找到reference地址抱歉）

3.交叉熵

交叉熵損失函數的原理（交叉熵損失函數）9

物理意義：

用模拟分布Q去編碼真實分布P所需要的平均編碼長度比特個數

例子：

假設 X~(A,B,C,D) 數據集，真實分布(1/2,1/2,0,0) 那麼 H(X)=1/2*log(1/0.5) 1/2*log(1/0.5)=1 如果我們模型預測的分布Q滿足 (1/4,1/4,1/4,1/4) ，用這個分布去模拟真實分布:

交叉熵損失函數的原理（交叉熵損失函數）10

這裡是2其實我們自然希望我們的模型的分布去編碼真實分布時可以最小，但是最小并不一定是0，在這個例子裡我們就希望最小為1（當然也不可能比1小). 那麼在很多時候交叉熵損失函數為什麼都要逼近0呢？那是因為在這時候我們的H(p)=0 例如P滿足分布(1,0,0)是一個3分類問題，這時候H(P)=(1*log(1/1) 0 0)=0。可以看到上例中根據非真實分布q得到的平均編碼長度H(p,q)大于根據真實分布p得到的平均編碼長度H(p)。那麼H(p,q)-H(p)的物理意義就是當用模拟分布預測的編碼長度減去真實編碼長度就是相對熵。（相對熵：用錯誤分布去編碼真實分布所消耗的額外比特數）

3.1 交叉熵損失函數：

交叉熵損失函數的原理（交叉熵損失函數）11

假如樣本用來描述積極與消極，p真實樣本符合(1,0)也就是p(積極)=1，p(消極=0) 模型預測分布時(0.6,0.4) q(積極)=0.6 q(消極)=0.4則有損失函數如下

交叉熵損失函數的原理（交叉熵損失函數）12

其中 M：表示類别的數量。 p：表示真實樣本分布， q：表示模型預測分布。上式中 p(x1) 表示當前樣本輸入第一個類目的概率，（例如判斷一句話是積極，消極還是中性，那麼M就是3 表示每個樣本有3種分布）（注意發現有些同學誤以為這裡的sigma是把很多句話的損失連加起來，不是哈，這裡連加是把一句話所屬的不同分布的信息熵連加得到了一句話的損失，如果有很多句話，進來是一個矩陣，每一行代表一句話，出去應該是一個列向量，每一個元素代表每一句話的損失，然後再求個平均損失即可。）

當然上面二分類問題的損失函數等同于下面多分類的損失函數，隻不過是把下面的$\Sigma$進行了展開。例如判斷一句話：真實分布P X~{1,0} 而我們預測分布Q X~{1/2，1/2}

交叉熵損失函數的原理（交叉熵損失函數）13

當然了我們也可以設置真實分布時P X~{1/2,1/2} 預測分布Q 是(1,0)帶入公式會得到 -log(0) 趨于無線大。

4.相對熵： Kullback-Leibler divergence,KLD KL散度

交叉熵損失函數的原理（交叉熵損失函數）14

相對熵：用錯誤分布（或者是模型分布）去編碼真實分布所消耗的額外比特數。根據Gibbs' inequality可知，H(p,q)>=H(p)恒成立，當q為真實分布p時取等号。我們将由q得到的平均編碼長度比由p得到的平均編碼長度多出的bit數稱為相對熵。意義：它表示2個函數或概率分布的差異性：差異越大則相對熵越大，差異越小則相對熵越小，特别地，若2者相同則熵為0

相對熵的性質：

4.1. 相對熵損失函數：

交叉熵損失函數的原理（交叉熵損失函數）15

為啥不常用呢？其實主要是因為很多時候我們的真實分布都是分類問題例如： p樣本符合分布(1,0,0,0) 4分類問題，此時H(P)=0 所以相對熵損失函數在很多問題上相對熵就是交叉熵損失函數。（大家可以想一想H(p)=0的場景）

5. 損失函數的應用例子：

為了方便理解機器學習中損失函數輸入，輸出以及計算過程，這裡給出一個自己假設的案例。場景：我們要對句子進行情感分類，一個句子可以分成3個不同類目:{積極，中性，消極} 一個batch有2個句子，matrix(batch,embedding)經過一系列網絡（例如lstm ）再經過一個softmax之後得到如下矩陣：Q=

交叉熵損失函數的原理（交叉熵損失函數）16

交叉熵損失函數的原理（交叉熵損失函數）17

交叉熵損失函數:

交叉熵損失函數的原理（交叉熵損失函數）18

相對熵損失函數:

交叉熵損失函數的原理（交叉熵損失函數）19

結論：

其實我們用的是相對熵損失函數，隻不過在很多情況下，H(P)=0 簡化成了交叉熵。但是理論上來看，我們更關注的是模型分布編碼真實分布與真實分布編碼真實分布的差距，這個差距是相對熵也就是KL div

由于匆忙尚有幾個問題沒有整理放出來：

為什麼選用log？
如何證明相對熵>=0 恒成立,關于jenson不等式的探讨.
交叉熵與極大似然

歡迎讨論，指正，引用（請注明出處）。

交叉熵損失函數的原理（交叉熵損失函數）20

交叉熵損失函數的原理（交叉熵損失函數）21

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活正在派件是什麼意思
1、正在派件的意思是：快遞包裹已經到達用戶所在城市且快遞員已經出發準備派送了。“正在派件”是物流信息... 2023-07-04
生活村的由來
在原始社會初期，人類依靠采集、漁獵為生，逐水草、居巢穴，無村落。到了原始社會的中期，約在新石器時代，人類掌握了農業生産技術，有了耕種土地、照管作物、飼養畜禽等生産活動，人類開始定居下來，從而出現了最早的村落。原始村落是以血緣關系形成的氏族部落的聚居之地，實行原始公有制，按自然分工進行生産活動，平均分... 2023-07-04
生活畢生一定要去的：中國十大最美城市
天晴而心不晴，去一個美麗的古老小鎮，踏遍千山萬水，看遍世間美景，嘗遍人間美食，又有着什麼不開心的呢？這些城市往往都是驢友們最愛的地方，更是一年年登上旅遊榜。那麼，本期來看看這些最美的中國十大城市。還想... 2023-07-04
生活一眼根本看不夠的美景——伊春回龍灣
随着中國的經濟建設的腳步，不斷加快，但是這其中帶來的隐患便是：過渡的侵占自然資源，所以如今的人們更願意追求回歸自然的感覺。而走進森林是最直接方式，在伊春文化中就有着得天獨厚優勢，尤其是那一眼根本看不夠... 2023-07-04
生活泡腳會上火嗎
1、正常來說泡腳不會導緻人體上火，反而可以幫助促進人體血液循環，加速血液流速，可以加速人體排出體内的... 2023-07-04
生活低碳方法是指什麼
1、低碳方法就是低能量,低消耗的生活方式。簡單理解,低碳生活就是返璞歸真地去進行人與自然的活動，因此... 2023-07-04
生活野外生存如何做弓箭陷阱
1、地面爬行，洞動物陷阱。取桶狀中空材料如竹子，将材料斜埋如地下底部封口，與地面成60度，在竹子1/... 2023-07-04
生活爽膚水的使用方法
1、洗手：在用爽膚水之前，應該要清洗你的雙手。最好用洗手液洗下你的雙手，反複揉搓。之後再去擦臉。2、... 2023-07-04
生活瓷器中的名品：鑒定德化窯瓷器方法
德化窯瓷器一直都是國際上被高度評價的物品。德化陶瓷盛行于明清時期。因其造型生動，而且晶瑩潔白，所以一直都受大衆歡迎，也有很多私人收藏以及博物館的收藏，但是會發現還是存在一些假貨，那麼應該如何分辨德化窯... 2023-07-04
生活 2016年國慶節去哪玩人少，八個地方...
國慶節是大家的黃金周，可以到處遊玩，感受祖國大好河山。是的，對每個人來說都是這樣，每個地方都變得人擠人，已經不能好好感受風景了。想知道國慶節可以去哪裡好玩，人又很少的地方嗎？一起從城市文化中去看看。可... 2023-07-04
生活特産禮物，越南牛角梳有什麼好處
牛角梳是以牛角為原料，采用傳統的工藝手工制作而成。越南為農業大國，氣候為熱帶，水牛角自然比較大。正是因為有牛角，越南人也開發了牛角制品。那麼，我們來越南特産看看越南牛角梳到底有什麼好處呢？越南牛角梳牛... 2023-07-04
生活地下室潮濕怎麼解決
1、地下室潮濕,可以使用特殊的防潮液來解決這個問題,需要準備一個噴壺和防潮液。2、步驟：首先，在噴防... 2023-07-04
生活 2032年小行星撞地球是真是假？
人們總是喜歡把看到的事情，經自己的口誇大一些，在傳播出去。那麼關于有關新聞報道的2032年小行星撞地球事件，到底是真是假？概率又有多少呢？接下來，小編帶大家去天文現象看看吧！還想要了解》》奧運的起源小... 2023-07-04
生活 ps如何去水印
1、ps去水印的方法：打開Photoshop，點擊文件，打開所需圖片。用套索工具圈出水印部分，進行編... 2023-07-04
生活濟南清真南大寺開放嗎，濟南清真南大寺...
大家都知道在中國著名景點中山東是一個民族文化底蘊厚重的地方，在濟南有著名的趵突泉還有就是《還珠格格》中紫薇提到大大明湖，但是大家知道有這麼一個地方嗎它始建的年代已經無法考究了。唯獨知道他是元代元貞元年... 2023-07-04
生活牛肉炖玉米做法
1、牛肉在水中浸泡1個小時，泡去血水，切成小塊。2、泡好的牛肉，切成小塊。3、放入高壓鍋加入姜片和料... 2023-07-04
生活承載紀念的大洋路
公路，是交通工具以及行人可以通過的公用道路，給生活帶來了極大的方便。在世界上有着許許多多的公路，細細欣賞，會發現這些公路也有着屬于它們自己的美。現在就讓城市文化帶你一起來欣賞一下全球十大最美公路中的大... 2023-07-04
生活學美甲怎麼樣
1、首先，市場肯定有的，中國13億人口，一半是女生，就相當于有幾億用戶，一般的美甲能保留一個月的時間就已經很不錯了，隻要你技術學到位，回購率在80%以上！2、其次，美甲的收費最便宜的也要幾十元，最貴的幾百上千，成本呢，真的很低，最主要要的投入就是你的手藝，所以，這一行的行情還是很不錯。3、還有就是學... 2023-07-04
生活路亞線組怎麼連接
淡水路亞線組的連接方法如下：1、材料：淡水路亞線組一個。先将兩根線組互相纏繞，纏繞15-20圈左右。... 2023-07-04
生活 2016年國際标準時間日是幾月幾日？
一直都隻是看着時間，雖然知道時間對我們的重要性，但是卻不知道還有國際标準時間這一個節日，也是到最近才知道，那麼本期城市文化，就跟小編一起來看看，2016年國際标準時間日是幾月幾日？1884年，國際天文... 2023-07-04
生活法國錢币叫什麼？法國貨币的曆史
貨币本質上是一種所有者與市場關于交換權的契約，根本上是所有者相互之間的約定。無論是在什麼時候，當貨币一出現，它就成為一個國家經濟流通中最重要的手段。那麼，今天我們要通過法國文化看看法國錢斌的名稱和它的... 2023-07-04
生活 60歲生日簡短賀詞
1、月不饒人,長輩的生日到了,又老了一歲,在此特送上老人生日祝福語,願您健康長壽。2、姥爺,祝您永遠... 2023-07-04
生活粽子煮熟怎麼保存
1、冷凍保存端午期間天氣炎熱悶濕，溫度偏高，因此煮熟的粽子最好放在冰箱冷凍層保存，在0℃-4℃的冷藏... 2023-07-04
生活 12字人生格言
1、憂勞可以興國，逸豫可以亡身。2、天才在于積累，聰明在于勤奮。3、人誰無過，過而能改，善莫大焉。4... 2023-07-04
生活上海迪士尼有什麼項目，上海迪士尼遊樂...
上海迪士尼樂園還未開業就已經在人群中掀起了一股熱潮，上海市民更是躍躍欲試，據相關人員透露上海迪士尼預計2015年年底開業。那麼上海迪士尼裡面都有些什麼項目呢？下面和小編一起來上海文化看看吧！還想要了解... 2023-07-04
生活強對流天氣注意事項
1、注意關閉門窗，預防雷電直擊室内或者防止側擊雷和球雷的侵入。2、人不要站立在電燈下。3、盡量不要撥... 2023-07-04
生活最大的佛像，樂山大佛的傳說
樂山大佛景區位于樂山市郊，岷江、青衣江、大渡河三江彙流處，與樂山城隔江相望。景區由淩雲山、麻浩岩墓、烏尤山、巨形卧佛等組成。山上茂林修竹終年蔥茏，山下三江彙聚，享有西南山水之冠的美譽，為曆代文人墨客所... 2023-07-04
生活中國最珍貴的郵票你收藏了幾套
在1840年的時候，世界首次發行了黑便士郵票，随之世界上其他的一些國家也開始發行郵票，而且越來越精美。也成了當時的一種時尚，至今郵票也是一種藝術品，本期城市文化，讓我們一起來看看中國最珍貴的郵票是哪些... 2023-07-04
生活愛國華僑陳嘉庚的名句——言簡意深
陳嘉庚先生說過的名言非常多，但是總是圍繞一個主題，“救國，國家的發展”這幾句名言言簡意深，把國家的發展事業當成本職。可見它的愛國情懷。本期的嘉庚文化為你介紹言簡意深的陳嘉庚名言。“國家之富強，全在于國... 2023-07-04
生活經常用護發素好嗎
1、經常用護發素是好的，護發素的主要原料是陽離子表面活性劑。香波洗淨頭發後，再使用護發素，它可以中和殘留在頭發表面帶陰離子的分子，形成單分子膜，而使纏結的頭發順服，易于梳理。2、一般認為，頭發帶有負電荷。用香波主要是陰離子洗滌劑，肥皂也屬于此類)洗發後，會使頭發帶有更多的負電荷，從而産生靜電，緻使梳... 2023-07-04

tft每日頭條

> 生活

> 交叉熵損失函數的原理

交叉熵損失函數的原理

相关生活资讯推荐

热门生活资讯推荐

网友关注