attention模型使用教程-tft每日頭條

attention模型使用教程

生活更新时间:2025-08-13 15:04:46

attention模型使用教程（一文看懂Attention本質原理）1

Attention 正在被越來越廣泛的得到應用。尤其是 BERT 火爆了之後。

Attention 到底有什麼特别之處？他的原理和本質是什麼？Attention都有哪些類型？本文将詳細講解Attention的方方面面。

Attention 的本質是什麼

Attention（注意力）機制如果淺層的理解，跟他的名字非常匹配。他的核心邏輯就是「從關注全部到關注重點」。

Attention 機制很像人類看圖片的邏輯，當我們看一張圖片的時候，我們并沒有看清圖片的全部内容，而是将注意力集中在了圖片的焦點上。大家看一下下面這張圖：

我們一定會看清「錦江飯店」4個字，如下圖：

但是我相信沒人會意識到「錦江飯店」上面還有一串「電話号碼」，也不會意識到「喜運來大酒家」，如下圖：

所以，當我們看一張圖片的時候，其實是這樣的：

上面所說的，我們的視覺系統就是一種 Attention機制，将有限的注意力集中在重點信息上，從而節省資源，快速獲得最有效的信息。

AI 領域的 Attention 機制

Attention 機制最早是在計算機視覺裡應用的，随後在 NLP 領域也開始應用了，真正發揚光大是在 NLP 領域，因為 2018 年 BERT 和 GPT 的效果出奇的好，進而走紅。而 Transformer 和 Attention 這些核心開始被大家重點關注。

如果用圖來表達 Attention 的位置大緻是下面的樣子：

這裡先讓大家對 Attention 有一個宏觀的概念，下文會對 Attention 機制做更詳細的講解。在這之前，我們先說說為什麼要用 Attention。

Attention 的3大優點

之所以要引入 Attention 機制，主要是3個原因：
參數少
速度快
效果好

參數少

模型複雜度跟 CNN、RNN 相比，複雜度更小，參數也更少。所以對算力的要求也就更小。

速度快

Attention 解決了 RNN 不能并行計算的問題。Attention機制每一步計算不依賴于上一步的計算結果，因此可以和CNN一樣并行處理。

效果好

在 Attention 機制引入之前，有一個問題大家一直很苦惱：長距離的信息會被弱化，就好像記憶能力弱的人，記不住過去的事情是一樣的。

Attention 是挑重點，就算文本比較長，也能從中間抓住重點，不丢失重要的信息。下圖紅色的預期就是被挑出來的重點。

Attention 的原理

Attention 經常會和 Encoder–Decoder 一起說，之前的文章《一文看懂 NLP 裡的模型框架 Encoder-Decoder 和 Seq2Seq》也提到了 Attention。

下面的動圖演示了attention 引入 Encoder-Decoder 框架下，完成機器翻譯任務的大緻流程。

但是，Attention 并不一定要在 Encoder-Decoder 框架下使用的，他是可以脫離 Encoder-Decoder 框架的。

下面的圖片則是脫離 Encoder-Decoder 框架後的原理圖解。

小故事講解

上面的圖看起來比較抽象，下面用一個例子來解釋 attention 的原理：

圖書管（source）裡有很多書（value），為了方便查找，我們給書做了編号（key）。當我們想要了解漫威（query）的時候，我們就可以看看那些動漫、電影、甚至二戰（美國隊長）相關的書籍。

為了提高效率，并不是所有的書都會仔細看，針對漫威來說，動漫，電影相關的會看的仔細一些（權重高），但是二戰的就隻需要簡單掃一下即可（權重低）。

當我們全部看完後就對漫威有一個全面的了解了。

Attention 原理的3步分解：

第一步： query 和 key 進行相似度計算，得到權值

第二步：将權值進行歸一化，得到直接可用的權重

第三步：将權重和 value 進行加權求和

從上面的建模，我們可以大緻感受到 Attention 的思路簡單，四個字“帶權求和”就可以高度概括，大道至簡。做個不太恰當的類比，人類學習一門新語言基本經曆四個階段：死記硬背（通過閱讀背誦學習語法練習語感）->提綱挈領（簡單對話靠聽懂句子中的關鍵詞彙準确理解核心意思）->融會貫通（複雜對話懂得上下文指代、語言背後的聯系，具備了舉一反三的學習能力）->登峰造極（沉浸地大量練習）。

這也如同attention的發展脈絡，RNN 時代是死記硬背的時期，attention 的模型學會了提綱挈領，進化到 transformer，融彙貫通，具備優秀的表達學習能力，再到 GPT、BERT，通過多任務大規模學習積累實戰經驗，戰鬥力爆棚。

要回答為什麼 attention 這麼優秀？是因為它讓模型開竅了，懂得了提綱挈領，學會了融會貫通。

——阿裡技術

想要了解更多技術細節，可以看看下面的文章或者視頻：

「文章」深度學習中的注意力機制

「文章」遍地開花的 Attention，你真的懂嗎？

「文章」探索 NLP 中的 Attention 注意力機制及 Transformer 詳解

「視頻」李宏毅 – transformer

「視頻」李宏毅 – ELMO、BERT、GPT 講解

Attention 的 N 種類型

Attention 有很多種不同的類型：Soft Attention、Hard Attention、靜态Attention、動态Attention、Self Attention 等等。下面就跟大家解釋一下這些不同的 Attention 都有哪些差别。

由于這篇文章《Attention用于NLP的一些小結》已經總結的很好的，下面就直接引用了：

本節從計算區域、所用信息、結構層次和模型等方面對Attention的形式進行歸類。

1. 計算區域

根據Attention的計算區域，可以分成以下幾種：

1）Soft Attention，這是比較常見的Attention方式，對所有key求權重概率，每個key都有一個對應的權重，是一種全局的計算方式（也可以叫Global Attention）。這種方式比較理性，參考了所有key的内容，再進行加權。但是計算量可能會比較大一些。

2）Hard Attention，這種方式是直接精準定位到某個key，其餘key就都不管了，相當于這個key的概率是1，其餘key的概率全部是0。因此這種對齊方式要求很高，要求一步到位，如果沒有正确對齊，會帶來很大的影響。另一方面，因為不可導，一般需要用強化學習的方法進行訓練。（或者使用gumbel softmax之類的）

3）Local Attention，這種方式其實是以上兩種方式的一個折中，對一個窗口區域進行計算。先用Hard方式定位到某個地方，以這個點為中心可以得到一個窗口區域，在這個小區域内用Soft方式來算Attention。

2. 所用信息

假設我們要對一段原文計算Attention，這裡原文指的是我們要做attention的文本，那麼所用信息包括内部信息和外部信息，内部信息指的是原文本身的信息，而外部信息指的是除原文以外的額外信息。

1）General Attention，這種方式利用到了外部信息，常用于需要構建兩段文本關系的任務，query一般包含了額外信息，根據外部query對原文進行對齊。

比如在閱讀理解任務中，需要構建問題和文章的關聯，假設現在baseline是，對問題計算出一個問題向量q，把這個q和所有的文章詞向量拼接起來，輸入到LSTM中進行建模。那麼在這個模型中，文章所有詞向量共享同一個問題向量，現在我們想讓文章每一步的詞向量都有一個不同的問題向量，也就是，在每一步使用文章在該步下的詞向量對問題來算attention，這裡問題屬于原文，文章詞向量就屬于外部信息。

2）Local Attention，這種方式隻使用内部信息，key和value以及query隻和輸入原文有關，在self attention中，key=value=query。既然沒有外部信息，那麼在原文中的每個詞可以跟該句子中的所有詞進行Attention計算，相當于尋找原文内部的關系。

還是舉閱讀理解任務的例子，上面的baseline中提到，對問題計算出一個向量q，那麼這裡也可以用上attention，隻用問題自身的信息去做attention，而不引入文章信息。

3. 結構層次

結構方面根據是否劃分層次關系，分為單層attention，多層attention和多頭attention：

1）單層Attention，這是比較普遍的做法，用一個query對一段原文進行一次attention。

2）多層Attention，一般用于文本具有層次關系的模型，假設我們把一個document劃分成多個句子，在第一層，我們分别對每個句子使用attention計算出一個句向量（也就是單層attention）；在第二層，我們對所有句向量再做attention計算出一個文檔向量（也是一個單層attention），最後再用這個文檔向量去做任務。

3）多頭Attention，這是Attention is All You Need中提到的multi-head attention，用到了多個query對一段原文進行了多次attention，每個query都關注到原文的不同部分，相當于重複做多次單層attention：

最後再把這些結果拼接起來：

4. 模型方面

從模型上看，Attention一般用在CNN和LSTM上，也可以直接進行純Attention計算。

1）CNN Attention

CNN的卷積操作可以提取重要特征，我覺得這也算是Attention的思想，但是CNN的卷積感受視野是局部的，需要通過疊加多層卷積區去擴大視野。另外，Max Pooling直接提取數值最大的特征，也像是hard attention的思想，直接選中某個特征。

CNN上加Attention可以加在這幾方面：

a. 在卷積操作前做attention，比如Attention-Based BCNN-1，這個任務是文本蘊含任務需要處理兩段文本，同時對兩段輸入的序列向量進行attention，計算出特征向量，再拼接到原始向量中，作為卷積層的輸入。

b. 在卷積操作後做attention，比如Attention-Based BCNN-2，對兩段文本的卷積層的輸出做attention，作為pooling層的輸入。

c. 在pooling層做attention，代替max pooling。比如Attention pooling，首先我們用LSTM學到一個比較好的句向量，作為query，然後用CNN先學習到一個特征矩陣作為key，再用query對key産生權重，進行attention，得到最後的句向量。

2）LSTM Attention

LSTM内部有Gate機制，其中input gate選擇哪些當前信息進行輸入，forget gate選擇遺忘哪些過去信息，我覺得這算是一定程度的Attention了，而且号稱可以解決長期依賴問題，實際上LSTM需要一步一步去捕捉序列信息，在長文本上的表現是會随着step增加而慢慢衰減，難以保留全部的有用信息。

LSTM通常需要得到一個向量，再去做任務，常用方式有：

a. 直接使用最後的hidden state（可能會損失一定的前文信息，難以表達全文）

b. 對所有step下的hidden state進行等權平均（對所有step一視同仁）。

c. Attention機制，對所有step的hidden state進行加權，把注意力集中到整段文本中比較重要的hidden state信息。性能比前面兩種要好一點，而方便可視化觀察哪些step是重要的，但是要小心過拟合，而且也增加了計算量。

3）純Attention

Attention is all you need，沒有用到CNN/RNN，乍一聽也是一股清流了，但是仔細一看，本質上還是一堆向量去計算attention。

5. 相似度計算方式

在做attention的時候，我們需要計算query和某個key的分數（相似度），常用方法有：

1）點乘：最簡單的方法，

2）矩陣相乘：

3）cos相似度：

4）串聯方式：把q和k拼接起來，

5）用多層感知機也可以：

,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活新鮮玫瑰花怎麼做幹花
新鮮玫瑰花怎麼做幹花?在保留了一周後，玫瑰花開始枯萎，接下來我們就來聊聊關于新鮮玫瑰花怎麼做幹花?以下内容大家不妨參考一二希望能幫到您!新鮮玫瑰花怎麼做幹花在保留了一周後，玫瑰花開始枯萎。我一朵朵将玫瑰拆開來。剪掉多餘的葉子和枝幹。找一條絲... 2022-07-28
生活 carpe
carpe?carpediem為拉丁文，翻譯成英語是seizetheday，意為活在當下，抓緊時間，不忘初心，下面我們就來聊聊關于carpe?接下來我們就一起去了解一下吧!carpecarpediem為拉丁文，翻譯成英語是seizethed... 2022-06-25
生活林則徐名言
林則徐名言?子孫若如我，留錢做什麼，賢而多财，則損其志;子孫不如我，留錢做什麼，愚而多财，益增其過，我來為大家科普一下關于林則徐名言?以下内容希望對你有幫助!林則徐名言子孫若如我，留錢做什麼，賢而多财，則損其志;子孫不如我，留錢做什麼，愚而... 2022-08-11
生活在海賊王裡赤犬是什麼實力
海賊王中的世界政府為了鞏固天龍人邪惡統治，用得一手霹靂手段，比如我們羅賓大美女的家鄉就因此被屠，但也招緻海上力量的不斷反抗，沒有鋒利可靠的爪牙，很難相信如此背離人心的統治竟能維系這麼長時間。沒錯，爪牙本牙就是海軍大将，他們是所謂正義的使者，... 2022-12-08
生活分文不取是成語嗎
分文不取是成語嗎?分文不取是成語分文不取，漢語成語，拼音是fēnwénbùqǔ，意思是一個錢也不要；比喻不計報酬，今天小編就來聊一聊關于分文不取是成語嗎?接下來我們就一起去研究一下吧!分文不取是成語嗎分文不取是成語。分文不取，漢語成語，拼音... 2022-06-04
生活國内最純正的醬油
今天是大年初五，俗稱破五節！正是走親串戚的好日子。不過從大年初一至正月十五，幾乎每一天都有專屬自己的習俗，就拿今天來說，由于這一天承擔了諸多人們的希望和憧憬，故今天的禁忌也比較多，如今天必須吃餃子、不能用生米做飯、不讓婦女串門等。當然，還有... 2023-01-04
生活随時歡迎你回家
“歡迎金山援瓊隊員回家！”今天中午，金山區50名援瓊醫療隊員曆經了19天“疫”線奮戰，圓滿完成任務，順利返金。在隔離酒店門口，區衛健委為此次金山援瓊醫療隊舉辦了簡單而隆重的歡迎儀式，為隊員們一一送上獻花，用最深的敬意迎接醫護人員凱旋。“終于... 2022-10-26
生活支付寶最新出境遊攻略
外出旅遊剁手，比價的時候最煩就是要做彙率換算。面對一些把價格貼出來的商家，直接手機算出價格再決定買不買就完事了。但面對一些需要從條形碼識别價格又或者是商家沒有把價格貼出來，需要自己問的話，再查價格彙率就比較麻煩。有時候你問了價格查彙率，反應... 2022-11-03
生活洋氣男孩名字
洋氣男孩名字?文昌月拓冉尚哲弘若文俊國，今天小編就來聊一聊關于洋氣男孩名字?接下來我們就一起去研究一下吧!洋氣男孩名字文昌月拓冉尚哲弘若文俊國坤文東林昌峻旭葉偉彬書博星華良德博博炫昌凱泉恩梓拓炎濤飛浩章淼思弘傑凡熙翊奕松銘輝倫峻浩盛嘉文溫 2022-07-07
生活寶寶星星泡芙制作
紙杯隻能做蛋糕嗎？不不不，紙杯還能做泡芙呢，一點點泡芙面糊就能漲一一個蘑菇泡芙，有趣又可愛。内陷填充好吃的卡仕達奶油醬，咬一口滿滿幸福。紙杯小蘑菇泡芙材料酥皮黃油40g舒可曼糖霜40g（糖粉）舒可曼低筋面粉40g泡芙面糊水100g黃油40g... 2022-11-11
生活什麼來什麼去
什麼來什麼去?什麼來什麼去的詞語有：轉來轉去、直來直去、眉來眼去、說來說去、翻來覆去、鑽來鑽去、東來西去、呼來喚去、有來道去、一來二去、說來道去、左來右去、你來我去、踢來踢去、飄來跑去、番來複去、跌來碰去、過來過去、暮來朝去、眉來語去、年來... 2022-06-29
生活黑金還是白金帝王霸業成吉思汗神将降臨
曆史上的成吉思汗勇猛無敵，做事果斷，是傑出的政治家和軍事家。如今骁勇善戰的成吉思汗降臨在歡樂園《帝王霸業》，新服激情開啟，全新黑金武将來襲，體驗戰無不勝的極品神将!在《帝王霸業》中，成吉思汗傳承了曆史上的勇猛，突破了自己的極限，在遊戲中屬性... 2022-10-27
生活十分鐘讓你了解琥珀蜜蠟
琥珀形成于6000萬年前，是史前松柏科植物的樹脂，經地質作用掩埋地下，經過漫長的地質時期，樹脂失去揮發成份并聚合，固化形成琥珀。琥珀屬于有機類寶石，主要成份為碳氫化合物，含琥珀酸和琥珀樹脂，呈透明至半透明狀，無解理。琥珀硬度為2-3，比重1... 2022-11-07
生活萬科房産質量問題
萬科房産質量問題?[閩南網]來自東北的購房者馬女士做夢也沒有想到，她在萬科的購房經曆變成了一場“滑鐵盧”，接連遭遇鬧心事兒：，下面我們就來聊聊關于萬科房産質量問題?接下來我們就一起去了解一下吧!萬科房産質量問題[閩南網]來自東北的購房者馬女... 2023-02-01
生活雪花飛舞是什麼意思
雪花飛舞是什麼意思?意思是漫天的雪花都飄落下來，形容雪景美麗，我來為大家科普一下關于雪花飛舞是什麼意思?下面希望有你要的答案，我們一起來看看吧!雪花飛舞是什麼意思意思是漫天的雪花都飄落下來，形容雪景美麗。雪花飄舞運用了“拟人”的修辭手法，生... 2022-07-19
生活讓胸肌更緊實的秘密法則
在胸部訓練中，中縫部位可謂“難中之難”。健美明星們胸肌中縫兩側的厚度與整個胸肌相一緻，中縫窄而又窄，宛如一線。而練了多年的人整個胸肌往往是越向中間肌肉越薄弱，與兩側的發達程度毫不相符。同樣做飛鳥動作，為什麼效果相差竟如此之大?原因就在技術細... 2022-11-09
生活怎麼炖魚頭
怎麼炖魚頭?用料：草魚頭2個、香菜一根、洋蔥一個、大蒜頭一顆、大蔥一根、粉條一把，接下來我們就來聊聊關于怎麼炖魚頭?以下内容大家不妨參考一二希望能幫到您!怎麼炖魚頭用料：草魚頭2個、香菜一根、洋蔥一個、大蒜頭一顆、大蔥一根、粉條一把。做法：... 2022-06-19
生活溯流逆上的溯的意思
溯流逆上的溯的意思?溯釋義：沿水逆流而上溯流而上，漢語成語，拼音是sùliúérshàng，意思是逆着水流的方向行進，我來為大家講解一下關于溯流逆上的溯的意思?跟着小編一起來看一看吧!溯流逆上的溯的意思溯釋義：沿水逆流而上。溯流而上，漢語成... 2022-06-10
生活波音787有什麼優點
航空維修專業者，每天和你分享不一樣的飛機新鮮事！正值787夢想飛機加入中國民航五周年之際我們在社交媒體上發起了一次評選活動邀請人們Pick自己最愛的夢想飛機特征收獲了數千名粉絲的熱烈反響下面就讓我們來揭曉787最受大家歡迎的特點究竟是什麼吧... 2022-10-25
生活怎麼做能開好一家燈飾加盟店
伴随着現在人們對于生活質量的要求越來越高，怎麼樣才能成就自己的那份财富呢?現在成了很多燈具加盟者的頭疼事情，現在人們越來越重視生活中的細節了，家居燈飾就是提升生活品質的一個體現，因此現在燈具加盟店是很有前景的。但是開燈飾店需要注意哪些方面... 2022-10-27
生活有效的學習方法有哪些
有效的學習方法有哪些?目标學習法：目标學習法是美國心理學家布盧姆所倡導的，布盧姆認為隻要有最佳的教學，給學生以足夠的時間，多數學習者都能取得優良的學習成績教學内容是由許多知識點構成，由點形成線，由線完成相對獨立的知識體系，構成彼此聯系的知識... 2022-06-15
生活月經在什麼時候來正常
說說産後流血那些事兒。産後新媽媽的月經恢複是一個自然的生理現象，但是有些新媽媽卻出現了各種月經問題，還有特殊狀況的新媽媽，如過胖、精神壓力太大、卵巢功能有問題等，這都會造成産後各種月經問題。不少新媽媽都在問，生完孩子什麼時候才來大姨媽？産後... 2022-12-10
生活蘇伊士運河是哪兩個洲的分界線
蘇伊士運河是哪兩個洲的分界線?蘇伊士運河位于亞非兩大洲之間，是亞洲與非洲的分界線，同時也是亞非與歐洲間最直接的水上通道，我來為大家科普一下關于蘇伊士運河是哪兩個洲的分界線?下面希望有你要的答案，我們一起來看看吧!蘇伊士運河是哪兩個洲的分界線... 2022-06-13
生活酒瓶怎麼開
酒瓶怎麼開?用勺子把我們經常使用的一端對準瓶蓋，用力就可以輕松撬開了，接下來我們就來聊聊關于酒瓶怎麼開?以下内容大家不妨參考一二希望能幫到您!酒瓶怎麼開用勺子。把我們經常使用的一端對準瓶蓋，用力就可以輕松撬開了。準備一張硬紙，把它折疊成非常... 2022-06-06
生活三生三世步生蓮3部開拍
2017年，一部由楊幂、趙又廷、迪麗熱巴、高偉光等人主演的古裝劇《三生三世十裡桃花》上線，該劇一經播出便人氣拉滿，大有胡歌、楊幂、劉詩詩、霍建華等人當年《仙劍3》的氣勢。雖然在2020年原班人馬打造了一部《三生三世枕上書》，但是播出後的效果... 2022-11-07
生活策馬定乾坤揚帆渡滄海
在唐朝有一個奇觀，叫“八葉傳芳”，指的是蘭陵蕭氏一族共出了八位宰相！早在唐朝之前，蘭陵蕭氏就已經是最頂級的世家。蕭瑀則是這個世家承前啟後的一座豐碑。據《獨異志》裡記載，有一天，唐太宗李世民宴請群臣時，突然說：自知一座最貴者，先把酒。當時在座... 2022-12-03
生活全球十大奢侈品都有哪些
據美國華盛頓郵報評選最新世界排名前十位的奢侈品，的确是頂級奢侈，因為不是花錢就能買到的。你有幾樣？1生命的覺醒開悟2一顆自由、喜悅、愛的心3背包走天下的氣魄4經常回歸大自然5安穩平和的睡眠6享受屬于自己空間與時間的生活7牽手一個彼此深愛的靈... 2022-10-22
生活隻有晚上才和你聊天的男人
文丨桃小菁春風十裡不如你，小菁在這裡，等着你！女人期待的，是一生一世一雙人的愛情。可很多時候女人得到的，卻隻是男人的虛情假意。雖然女人得到的隻是男人的虛情假意，可因為内心極度渴望愛情，所以女人常常會誤認為自己得到的就是男人的真心。為了回饋男... 2022-11-26
生活什麼是翡翠的色根
什麼是翡翠的色根?翡翠色根就是翡翠表面綠意凝結成的團、點或者條帶狀紋路，也就是顔色的雲集之處，尤其是綠色翡翠能夠明顯察覺翡翠色根的存在，我來為大家科普一下關于什麼是翡翠的色根?下面希望有你要的答案，我們一起來看看吧!什麼是翡翠的色根翡翠色根... 2022-07-10
生活卡激活之後沒有充值可以用嗎
卡激活之後沒有充值可以用嗎?#315全民行動#大家在網上買手機卡，記得千萬不要聽客服的先充值多少才可以開通什麼套餐一類的話，因為這就是騙人的，所有的手機卡都是實名認證後，才激活，隻有激活以後才能繳費的，是讓先繳費的都是騙子，而且還無法維權，... 2022-12-02

tft每日頭條

> 生活

> attention模型使用教程

attention模型使用教程

相关生活资讯推荐

热门生活资讯推荐

网友关注