bert發表時間-tft每日頭條

bert發表時間

生活更新时间:2025-08-24 22:42:31

台灣李宏毅老師的機器學習2022新課，有一堂課叫做 自督導式學習的神奇能力 ，很有意思，忍不住做了點筆記。

一、跨語言（Cross-lingual）的能力

在一種語言上精調後的模型，可以用于另一種語言的特定任務。

Why？一種解釋是BERT可以無視語言，隻關注語言内部的語義。它可以把不同語言相同含義的詞embedding進行對齊，如下圖。

bert發表時間（還有哪些神奇的能力呢）1

1. 如何獲得一個詞的embedding向量？把所有包含這個詞的句子找出來，分别編碼得到這個詞的contexual embedding，然後對這些向量取平均值。

2. 一種語言的所有token的平均embedding向量可以作為該語言的embedding向量。

bert發表時間（還有哪些神奇的能力呢）2

bert發表時間（還有哪些神奇的能力呢）3

作者發現跨語言能力與訓練語料大小有關，訓練語料越大，跨語言能力越強。

有了每個語言的embedding向量，在做跨語言任務時，可以把語言之間的向量差異加（或減）回到模型中，如最右邊圖所示。實驗結果表示這樣最終效果會好點（好像好的很有限。。）

bert發表時間（還有哪些神奇的能力呢）4

bert發表時間（還有哪些神奇的能力呢）5

二、跨學科（Cross-discipline）的能力

BERT最早是用在人類語言上的，它能不能用在非人類語言上？比如DNA序列的預測？比如DNA序列中包含4種去氧核糖核酸：A、T、C、G。首先把這4種去氧核糖核酸随機對應到人類語言的4個tokens（實驗發現這個對應關系對結果影響不大，所以随機對應就好），比如下圖。然後再使用BERT框架完成DNA相關的任務。

bert發表時間（還有哪些神奇的能力呢）6

作者發現利用人類語言預訓練好的模型作為初始化模型，最終效果優于随機初始化模型。

作者把這個發現應用在優化 Speech Question Answering 問題上。

所謂的Speech QA問題，就是讓機器聽一段背景語音（類似Doc），然後基于這段語音回答語音問題（Question），也即從背景語音中找出一段能回答Question的語音出來。

bert發表時間（還有哪些神奇的能力呢）7

之前的做法一般依賴ASR，比如把Question甚至Doc轉成文字後再扔進BERT。顯然這種做法依賴于ASR的效果，在噪音較大的場景下ASR的效果是很差的。

So，能不轉文字，直接用語音做預測麼？

bert發表時間（還有哪些神奇的能力呢）8

直接把Question和Doc語音扔進BERT是不work的，就算有預訓練好的語音模型HuBERT。可能是因為模型還無法理解語音中的語義。

把語義BERT的輸出進行離散化，然後在上面再架一層文字版BERT？如果文字版BERT随機初始化，效果還是不行。如果使用預訓練好的文字BERT模型，就有個語音輸出token與文字token的對應關系問題。

bert發表時間（還有哪些神奇的能力呢）9

基于之前DNA的應用，作者發現隻要确定一個随機對應就行了，效果就杠杠的，見右下圖。

bert發表時間（還有哪些神奇的能力呢）10

bert發表時間（還有哪些神奇的能力呢）11

三、沒預訓練數據？人造一些也是挺有效的

在人造的假數據上預訓練BERT，然後在NLP任務上微調模型，會比沒有預訓練的效果更好嗎？結論是數據造的好的話，還真有幫助。

比如我們生成一些token ids序列用來訓練模型，如 {0, 1, 2, 3, ..., 511}。然後利用這些生成的序列預訓練BERT，見下圖的 Stage 1 ，然後把人類語言的tokens和生成數據中的id進行随機對應（類似前面），在NLP任務數據上進行精調，見下圖的 Stage 2。

bert發表時間（還有哪些神奇的能力呢）12

bert發表時間（還有哪些神奇的能力呢）13

上圖是不同方式造假數據帶來的效果改進。最左邊的 English 表示傳統的預訓練與精調方式，即在英文數據上預訓練BERT，然後在英文任務數據上進行精調。

random 對應的是構造假數據使用随機生成id的方式。可見在這種不包含信息量的數據上預訓練對後續任務是沒有改進的。而 paired 表示構造假數據時保證生成的id都會出現2次，如下圖：

bert發表時間（還有哪些神奇的能力呢）14

在這樣生成的假數據上預訓練，能給任務帶來相當不錯的提升。

shuffle 的生成方式是先生成一段連續的id，如 1, 2, 3, ..., 64，然後再随機打亂這個序列。效果也挺不錯的，比 paired 稍差。

bert發表時間（還有哪些神奇的能力呢）15

所以關鍵是如何構造預訓練用的假數據。

想法：如果參照人類語言token的分布情況（幂次分布）構造數據，有沒有可能效果更好？

所以，如果遇到某些場景下沒有數據做預訓練，那就試試按照先驗知識構造一些假數據用來做預訓練吧。

更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活泥鳅工廠化養殖技術
泥鳅工廠化養殖技術?工廠化養殖泥鳅選擇在含腐質适中的土壤中建設養殖池，在養殖池中還要安裝水處理系統，這樣方便更換水質；選擇抗病能力強、品質優良的泥鳅苗，泥鳅苗要大小差不多，在放苗之前要進行浸泡消毒處理；可以利用水處理系統去掉污水中的大顆粒污... 2022-08-24
生活紅心柚子能做柚子茶嗎
紅心柚子能做柚子茶嗎?紅柚子可以做柚子茶柚子茶是用柚子、糖等為原料制成的養生飲品，紅心柚子雖然其皮是紅色，但這種顔色并非染色所緻，是天然的植物色素成分番茄紅素或胡蘿蔔素自然生長形成的，是可以食用的物質，因此同樣可以像白柚做成柚子茶飲用，今天... 2022-08-06
生活電力公司可以要求企業預交電費嗎
電力公司可以要求企業預交電費嗎?近日焦作供電公司對電力收費進行改革，今天小編就來聊一聊關于電力公司可以要求企業預交電費嗎?接下來我們就一起去研究一下吧!電力公司可以要求企業預交電費嗎近日焦作供電公司對電力收費進行改革全面推行預付費系統可是部... 2022-10-17
生活鵝肝沙拉
鵝肝沙拉?材料：鵝肝鮮片狀100克；洋蔥，細碎30克；混合鮮香草3克；蘋果去皮核切成丁30克；黃油20克；蘋果白蘭地25毫升；黑香草醋汁20毫升；酸醬3克；核桃烤碎5克；黑香草醋10毫升；黑胡椒1克；鹽1克；混合生菜60克；混合香草10克；... 2022-06-03
生活科學家發現黑暗生物圈
目前的觀點認為，在大約46億年前，一個巨型星際分子雲出現引力坍縮形成了太陽系，在太陽系内絕大部分的質量都集中在太陽，除此之外，還有八大行星以及大量衛星、矮行星。不管是太陽，或者是地球，又或者是我們人類，都是從無到有的。而地球在誕生之初并不适... 2022-10-22
生活逐浪随波是什麼意思
逐浪随波是什麼意思?逐浪随波，漢語成語，拼音是zhúlàngsuíbō，意思是指一個人缺乏主見，總是随順時尚，人雲亦雲，下面我們就來說一說關于逐浪随波是什麼意思?我們一起去了解并探讨一下這個問題吧!逐浪随波是什麼意思逐浪随波，漢語成語，拼音... 2022-06-12
生活婚戒一般有多少鑽石
很多人都不相信愛情裡的一見鐘情，但當那個人出現之後，才發現原來墜入愛河隻是一瞬間的事情。或許，這就是愛情的魔力，又或許，這就是上天賜予人類的一種體驗幸福的美好途徑。而好的愛情，自然要和長久的婚姻相伴，那麼鑽石婚戒有必要買嗎?鑽石婚戒是不是比... 2022-10-29
生活為什麼淨水器出來的水tds值還是高
淨水器出水的TDS值，真能反映淨水器的好壞嗎？“TDS檢測筆”是目前最常用的淨水機安裝工标配檢測工具，它可以使用簡單直觀的方法來判斷當地的水質和淨水機淨化後的水質。一般來說，自來水的TDS值由淨水器過濾後數值能降到50以下，TDS數值的降低... 2022-12-10
生活生闆栗怎麼剝簡單又方便
生闆栗快速去殼，2秒剝一個，方法很管用，做成闆栗燒雞百吃不厭。又到了吃闆栗的季節了，每年我都會買好多的栗子吃，闆栗既可以烹饪菜肴也可以當零食食用。闆栗不僅甘甜芳香，且素有“幹果之王”的美譽，它不僅含有大量澱粉，而且含有豐富的蛋白質、脂肪、B... 2023-01-25
生活福廈高鐵全線有多少隧道
福廈高鐵全線有多少隧道?正在建設中的福廈高鐵是國内首條跨海高鐵，8月4日，福廈高鐵的重點控制性工程安海灣特大橋完成了無砟軌道施工，這也意味着福廈高鐵全線，三座跨海大橋的無砟軌道施工全部完成，進入全面鋪軌階段，我來為大家科普一下關于福廈高鐵全... 2022-10-18
生活滬蘇湖鐵路是否經過上海南站
近日，長三角多條鐵路有新進展：滬蘇湖鐵路上海段首個連續梁完成合龍；合杭高鐵湖杭段聯調聯試工作結束，轉入試運行階段；滬蘇嘉城際鐵路正式開工建設……軌道上的長三角未來可期，詳見↓滬蘇湖鐵路近日，滬蘇湖鐵路松江段跨斜塘航道斜拉橋主塔已經完成高度1... 2022-12-12
生活黃石市發展機遇
國家發改委、自然資源部近日聯合印發《關于做好第三批示範物流園區工作的通知》确定第三批24家示範物流園區名單黃石新港（物流）工業園位列其中自2015年國家發改委、自然資源部等有關部門啟動示範創建工作以來，共分三批确定了78家示範物流園區。在黃... 2023-01-11
生活村居表達了作者對什麼之情
村居表達了作者對什麼之情?《村居》以簡練的筆觸勾畫出一幅優美的田園景物畫表現人情之美和生活之趣表達了詩人熱愛田園生活和極富人情味的思想感情，描繪出一家五口各具情态的形象，表現了鄉村生活淳樸的民風和和諧的生活趣味，下面我們就來說一說關于村居表... 2022-06-10
生活娛樂運營幹貨知識
知洋娛樂：微博運營有什麼規則及實戰技巧？相信不少人是有疑問的，今天深圳市知洋文化傳媒有限公司就跟大家解答一下！新浪微博是相對于微信來說，更加開放的媒體平台，用戶通常是基于興趣而建立關系，并依靠熱點内容進行高效傳播的及時營銷，我們想象自己在玩... 2022-11-18
生活怎樣儲存紫薯
怎樣儲存紫薯?可以用冰箱保存紫薯，用報紙将紫薯包好，裝進保鮮袋裡，放入冰箱保存即可，下面我們就來聊聊關于怎樣儲存紫薯?接下來我們就一起去了解一下吧!怎樣儲存紫薯可以用冰箱保存紫薯，用報紙将紫薯包好，裝進保鮮袋裡，放入冰箱保存即可。也可以曬幹... 2022-08-03
生活博士論文選題的特點
作為一個學渣OR學弱學霸的世界一直都是未知領域很想知道每天認真學習的學霸們到底在想些什麼這些奇葩的博士論文題目可能會讓你笑cry~八角茴香對鹵雞肉揮發性風味的影響極其作用機制作為一篇曾爆紅網絡的博士論文，字數長達8萬字。據聞是陝西師範大學高... 2023-01-01
生活抖音怎麼自動播放下一個
抖音怎麼自動播放下一個?首先在手機中打開抖音然後在主界面點擊我，今天小編就來說說關于抖音怎麼自動播放下一個?下面更多詳細答案一起來看看吧!抖音怎麼自動播放下一個首先在手機中打開抖音。然後在主界面點擊我。接着點擊右上角的菜單圖标。點擊了菜單圖... 2022-08-03
生活霜打的茄子下一句
滿族歇後語有文人歇後語、民間歇後語之分，這裡着重介紹滿族民間歇後語。滿族民間歇後語是滿族人民在長期的生産和生活實踐中總結出來的民間口頭上流傳的語言。滿族民間歇後語運用比喻，以譬解意。有的以事解意；有的以物解意；有的以人解意；有的以事物特點解... 2022-12-23
生活和平精英瑪莎拉蒂怎麼抽劃算
和平精英瑪莎拉蒂怎麼抽劃算?福袋滿六天能出m4，大概保底抽1000令牌，不拿來換m4，下面我們就來說一說關于和平精英瑪莎拉蒂怎麼抽劃算?我們一起去了解并探讨一下這個問題吧!和平精英瑪莎拉蒂怎麼抽劃算福袋滿六天能出m4，大概保底抽1000令牌... 2022-06-03
生活雷克薩斯rx新款和舊款
今年是第四代正式出道七周年。即便如此，雷克薩斯RX已經像一瓶好酒一樣陳年，讓我們想起汽車不是車輪上的小玩意的日子，奢侈品被視為品味和不那麼炫耀的精神。雷克薩斯RX是第一個！世界上第一款豪華跨界車自1997年12月開始生産，它對汽車世界的影響... 2022-11-16
生活魚尾紋分叉面相之說
魚尾紋是在人眼角和鬓角之間出現的皺紋，其紋路與魚尾巴上的紋路很相似，故被形象地稱為魚尾紋。魚尾紋的出現說明你的皮膚已顯老态，不少人認為魚尾紋出現其實内含很多運勢問題。出現在眼角的皺紋就是魚尾紋從面相來解說魚尾紋：人的面相形态各有不同，然而有... 2022-11-29
生活東風吹落一滴相思淚
東風吹落一滴相思淚?燕宿雕梁：一個執筆古法的優雅女子，以輕靈的文字編織古風古意的詩詞，寫就多愁善感的内心世界，下面我們就來說一說關于東風吹落一滴相思淚?我們一起去了解并探讨一下這個問題吧!東風吹落一滴相思淚燕宿雕梁：一個執筆古法的優雅女子，... 2022-10-17
生活倉央嘉措雲淡風輕
你念或者不念，情就在那裡，不來不去。你愛，或者不愛我，愛就在那裡，不增不減。你跟，或者不跟我，我的手就在你手裡，不舍不棄，來我的懷裡，或者，讓我住進你的心裡。默然，相愛，寂靜，歡喜。最近幾年時常會在網上看到倉央嘉措的情詩，但其實有很多都是後... 2022-10-24
生活兒童什麼病會導緻眩暈
因生活節奏加快、生活壓力增高，眩暈發作的感覺很多成年人都深有體會，天旋地轉、頭暈目眩、難受不已。其實不僅在成年群體中，兒童群體内眩暈率也很高，其中兒童前庭性偏頭痛與兒童良性陣發性眩暈是兒童眩暈最主要的兩個原因之一。兒童良性陣發性眩暈在196... 2022-11-11
生活晚上睡覺可以戴假睫毛嗎
據英國媒體1月16日報道，一位19歲英國少女為了免費的美容服務，在給一名見習美容師做美妝模特時，被對方把睫毛膏粘到了眼睛裡，險些失明。經曆了這件事後，這個名叫萊尼·帕爾默的女孩表示，自己再也不相信這種天上掉餡餅的事了。萊尼來自英國埃塞克斯郡... 2022-11-04
生活如何正确撫養新生兒
如何正确撫養新生兒?撫養新生兒新手爸媽一定要多加注意，尤其是孩子在此階段還不能用語言表達自己的訴求，因此多觀察他們的表情變化是非常關鍵的，今天小編就來說說關于如何正确撫養新生兒?下面更多詳細答案一起來看看吧!如何正确撫養新生兒撫養新生兒新手... 2022-07-24
生活回歸方程公式怎麼套的
回歸方程公式怎麼套的?先求x,y的平均值X,Y再用公式代入求解：b=(x1y1+x2y2+...xnyn-nXY)/(x12+x22+...xn2-nX2)，現在小編就來說說關于回歸方程公式怎麼套的?下面内容希望能幫助到你，我們來一起看看吧... 2022-06-18
生活金木水火土的風水原理
少養植一些含有毒素的植物；如：滴水觀音、鐵海棠、夜來香、夾竹桃、天南星科的萬年青、五色梅、一品紅、夾竹桃、瑞香、鳳仙花、月季花、非洲茉莉等；這些植物不宜多養殖。植物分陰陽五行，具備相生相克的自然規律與陰陽法則；五行屬金的植物如：桔子，吊蘭、... 2022-11-23
生活義烏名字由來
義烏名字由來?近日義烏商家的中英雙語條幅“英文諧音梗”在網絡上走紅，将中文和英文的諧音結合在一起，也是非常的有意思，義烏英文諧音梗有哪些？好玩的中英文諧音梗大全，下面小編帶來介紹，我來為大家科普一下關于義烏名字由來?以下内容希望對你有幫助!... 2022-12-17
生活授之以魚不如授之以漁的理解
授之以魚不如授之以漁的理解?本報記者鐘端浪日前，記者走進江西省第一批援鄂醫療隊員、全省抗擊新冠肺炎疫情先進個人――省腫瘤醫院胸部腫瘤内科副主任醫師鄒俊韬的辦公室，他正在臨床一線忙碌着救治患者，今天小編就來聊一聊關于授之以魚不如授之以漁的理解... 2022-11-11

tft每日頭條

> 生活

> bert發表時間

bert發表時間

相关生活资讯推荐

热门生活资讯推荐

网友关注