nlp工具分類-tft每日頭條

nlp工具分類

生活更新时间:2025-12-28 04:05:36

點擊上方關注，All in AI中國

Transformer體系結構模型，特别是BERT，通過對一個在大型語料庫上以非監督方式預先訓練的模型進行微調，已經證明在許多NLP任務中非常有效。BERT模型将一系列單詞作為輸入，并生成一系列跨層的詞嵌入向量。這些詞嵌入向量考慮了單詞的上下文。

最近發表的兩篇論文

(1篇Finding Syntax with Structural Probes · John Hewitt

2篇Language, trees, and geometry in neural networks)

它們提供了一些幾何上的見解，解釋了為什麼BERT表現得這麼好。

下面是這些論文的一些重要發現
BERT的詞向量輸出編碼了豐富的語言結構。BERT在詞嵌入向量中對抽象語法樹進行了大緻的編碼，然後将其輸出到一個句子中。通過詞嵌入向量的線性變換可以恢複這些樹。
BERT似乎在互補子空間中對詞向量的語法和語義特征進行了編碼。
一個單詞的不同含義有表示形式(由句子上下文決定)，它們在空間上以細粒度的方式分隔

從BERT詞向量中恢複句子中的解析樹

語言是由離散的結構組成的，符号(單詞)序列和句子的句法結構被捕捉到樹狀結構中。相比之下，神經網絡模型對連續數據進行操作——它們将符号信息轉換成高維空間中的向量。這些向量(詞嵌入向量)在長度/方向(例如word2vec、fasttext等)上捕獲語義相似性。

如上所述，最近的發現表明BERT字向量輸出了豐富的語言結構。在一個句子的向量輸出中編碼的是語法樹的幾何近似副本。句子中的單詞在高維空間中被給定位置，如果我們對這些單詞向量進行特定的轉換，這些位置之間的歐氏距離會映射到語法樹距離。從本質上講，我們可以通過使用特定的線性變換對單詞向量進行變換，然後在單詞向量之間的距離上找到最小生成樹，從而恢複句子的語法樹(以及具有方向邊的依賴樹)。

語法樹中的樹距(兩個節點之間的樹距是它們之間路徑上的邊數)和歐氏距離(最小生成樹中節點之間的距離由詞嵌入得到)之間的映射不是線性的。兩個單詞之間的語法樹距離對應于所提取的最小生成樹中相應節點之間的歐式距離的平方。第二篇論文給出了一個原因，為什麼它是歐氏距離的平方，而不是歐氏距離的平方(本節剩餘部分不是理解BERT模型的核心——可以跳過)。

由于樹枝的關系，用等距法(映射保留距離)将一棵樹映射到歐幾裡德空間是不可能的。

例如，左邊節點A和B之間的樹距離為2 - d(A,X) d(X,B)

由于d(A,B) = d(A,X) d(X,B)，在到歐幾裡德空間的等距映射中，A,X,B必須共線(X必須在連接A和B的直線上，才能滿足上述條件)

将同樣的參數應用到點A X C d(A,C) = d(A,X) d(X,C) A X C也必須是共線的。但這意味着B = C，這是一個矛盾的結論。

然而，從樹到平方距離有一個等距映射(勾股定理的嵌入)，如下圖所示

博客中也有更多的例子

因此

這個博客還有一些有趣的結果。例如，随機分支的樹，如果映射到一個足夠高維的空間，其中每個子節點與父節點被一個随機的單位高斯向量偏移，就近似于勾股定理的嵌入。一個實際的含義是上下文嵌入近似于勾股定理對句子依賴關系解析樹的嵌入。從距離的平方性質來看，我們可以從向量中恢複嵌入樹的整體形狀。

恢複樹的形狀(受節點間邊緣長度的影響)隻近似于理想樹—這種差異有一些模式。依賴關系之間的平均嵌入距離相差很大。目前還不清楚這些差異意味着什麼。可能是BERTs表示，除了依賴解析樹之外還有其他信息。

順便提一句，如果我們對基因/蛋白質序列做同樣的實驗來檢查其中是否包含信息，不一定能證實實際的三維幾何配置，我們将會很有趣地看到一些異常的邊緣是接近的(部分/相同的/如上圖所示)。

語法樹也被捕獲在一個句子的attention 矩陣中

第二篇論文還顯示了句子的attention矩陣捕獲語法樹。比如我們看看這句“the old fox saw the new dog”，其中的單詞對“old，fox”。我們可以通過從所有層中的attention矩陣獲取其對的标量值來構造向量（BERT基礎的12個層，每層有12個 attention heads），我們訓練線性分類器作為輸入model-wide 的attention 向量，如果兩個單詞之間存在關系以及關系的類型，則這些分類器表現得相當好（即使不是最先進的結果）表明句法信息在句子的attention 矩陣中可編碼。

BERT似乎在它的嵌入中編碼語義特征

通過簡單地可視化die這樣的單詞在不同的上下文中的嵌入，我們可以看到詞義是如何影響嵌入的。

一般情況下，embeddings這個詞表示
單詞的不同含義是分開的(上面三個集群表示單詞"die")。詞義消歧就是通過這種分離來實現的
在聚類中，似乎存在着更細微意義的分離(參見下面的嵌入詞"lie")。

與前面看到的位置表示語法類似，這裡的位置表示語義

第二篇論文聲稱，詞的感覺是在一個較低的維度空間中捕捉到的，盡管還不清楚這是如何做到的。根據這一觀察，它出現了一個向量，在互補子空間中同時編碼句法和語義信息

使用已發布代碼的實驗

第一篇論文的Github存儲庫有代碼，可以從上面描述的句子中恢複語法樹GitHub - john-hewitt/structural-probes: Codebase for testing whether hidden states of neural networks encode discrete structures.

從上面句子的詞嵌入向量中恢複的解析樹以及相同句子的依賴解析器輸出如下所示

結論
今後将按照上述思路解構模型

是否可能揭示更多的語言結構(如解析樹)或更多的子空間

了解内部表示的幾何結構可能會發現改進模型體系結構的領域
,
更多精彩资讯请关注tft每日頭條，我们将持续为您更新最新资讯!

查看全部

网友关注

生活高雅精緻的群名稱
一群快樂的小逗比、快樂的回憶、永遠的3班、中國好閨蜜、曾經的年少輕狂、轟炸女王、絮雪┾飛揚、姊，要狠狠幸冨、童話太逼真、煙花易冷、我的野蠻同學、栗子橋同村會、神獸聯盟、同村同語、五大金剛、溫馨家園等。微信群：微信群是騰訊公司推出的多人聊天交流的一個平台，可以通過網絡快速發送語音短信、視頻、圖片和文字。用戶可以通過微信與好友進行形式上更加豐富的類似于短信、彩信等方式的聯系。加入微信群有兩種方法：一種 2023-07-05
生活水基型滅火器多久年檢一次
水基型滅火器一年檢一次。水基型滅火器的滅火劑對滅火器筒體的腐蝕較為明顯，其水壓試驗周期、維修期限較短，出廠期滿3年應當進行首次維修，以後每隔1年進行一次維修，使用期限為6年。水基型滅火器：水基型滅火器是一種适用于撲救固體或非水溶性液體的初起火災，可撲救帶電設備火災的滅火器。廣泛應用于油田、油庫、輪船、工廠、商店等場所，是預防火災發生保障人民生命财産的必備消防裝備。通過内部裝有AFFF水成膜泡沫滅火 2023-07-05
生活英國大笨鐘簡介
1、伊麗莎白塔（ElizabethTower)，舊稱大本鐘(BigBen)，即威斯敏斯特宮鐘塔，世界... 2023-07-05
生活應急代派是東西丢了嗎
不是。可能超區了，改由其它快遞公司代派，可能遲兩天左右時間，應急代派：指的是應派的派送站點存在問題，由總公司交給第三方派送，派送時效不保。如果懷疑丢件，可以聯系快遞公司提供快遞單号進行查詢核實。快遞：快遞又稱速遞或快運，是指物流企業（含貨運代理）通過自身的獨立網絡或以聯營合作（即聯網）的方式，将用戶委托的文件或包裹，快捷而安全地從發件人送達收件人的門到門（手遞手）的新型運輸方式。快遞有廣義和狹義之 2023-07-05
生活養殖池塘怎麼做
1、位置選擇：選擇水源充足，水質無污染，交通電源方便的地方建池。2、水源和水質：良好的水源便于經常加... 2023-07-05
生活西瓜打開後多久不能吃
1、切開的西瓜常溫下一般最多放置4個小時，及時冷藏才安全。2、另外，西瓜最好用幹淨的保鮮膜覆蓋，或者... 2023-07-05
生活常見的四種變質岩
1、矽卡岩：接觸交代變質岩，顔色不定，結構為粒狀微晶，塊狀構造，主要礦物為石榴子石、綠簾石、透輝石；... 2023-07-05
生活海晏縣美食
海晏縣美食有海晏羔羊肉、海晏羊腸面、酸奶、大救駕、耙肉餌絲等。1、海晏羔羊肉：富含人體必需的多種氨基酸，肉色鮮紅、肌肉纖維細嫩等特點。無不表明海晏縣羔羊肉的特色，打響了“海晏羔羊肉”品牌戰略的實施力度。2、海晏羊腸面：海晏羊腸面湯色淡黃，腸段潔淨，肥腸粉白，面條金黃蔥末浮上，蘿蔔丁沉在碗中，腸段細脆餡軟，面條悠長爽口，廣受歡迎。是青海省海北藏族自治州海晏縣的特色小吃。羊腸面 2023-07-05
生活國内飛機能帶暖寶寶嗎
分情況。貼片型暖寶寶沒有被列入民航總局違禁物品名單，但每個機場執行标準有所不同。每個機場對暖寶寶的要求都不一樣，如鹹陽機場規定暖寶寶和打火機一樣，屬于自發熱物品，嚴禁随身攜帶；首都機場、張家界機場則允許攜帶一定數量的暖寶寶，蘭州機場規定每人隻能攜帶10片；鹹陽機場和西藏機場規定不能攜帶。暖寶寶：暖寶寶又叫暖貼，是一種可供取暖的工具。反應原理為利用原電池加快氧化反應速度，将化學能轉變為熱能。為了使溫 2023-07-05
生活天花闆發黴怎麼處理
1、若天花闆發黴了該如何處理呢？首先，我們要做的就是檢查房屋天花闆或者是牆角有沒有水滲出來，找到天花... 2023-07-05
生活辦公室文員需要會什麼
1、主要是EXCEL裡面的最常用的動作你要會。因為大部分都是用Excel做報表，隻需要将OFFICE... 2023-07-05
生活碧雲泉淨水器怎麼樣
1、碧雲泉淨水器是由合肥碧雲泉水工業有限責任公司研發生産的新一代淨水設備品牌。碧雲泉水工業是中國淨水行業具影響力的企業之一，公司緻力于碧雲泉品牌的直飲機、純水機、淨水器、軟水機、水工業設備及其他大型水處理設備等産品和解決方案的研制及運營推廣。碧雲泉淨水器産品美觀、占地面積小，并引進和吸收美國、日本水... 2023-07-05
生活自然文化雙遺産有哪些
自然文化雙遺産有泰山、黃山、峨眉山、武夷山、東格裡羅國家公園、裡奧阿比塞奧國家公園等。世界文化與自然雙重遺産，又名複合遺産或混合遺産，是同時具備自然遺産與文化遺産兩種條件者。早期複合遺産的登錄名單當中，有先被登錄為自然遺産或文化遺産，之後也被評價為另一種遺産，因而成為複合遺産。依據世界遺産公約之主旨，複合遺産是指兼具自然與文化之美的代表，截至2020年1月共39項。泰山是中國也是世界上第一個自然文 2023-07-05
生活除塵布袋有幾種材質
1、常溫型布袋：常溫型布袋主要材質是由滌綸、丙綸、亞克力等纖維材質經無紡、紡織工藝制成的，是具有透氣... 2023-07-05
生活圓形的東西有哪些
西瓜、硬币、乒乓球、籃球、桌子等。西瓜：西瓜為夏季之水果，近于球形或橢圓形，果肉味甜，能降溫去暑；種子含油，可作消遣食品。硬币：用金屬鑄造的貨币。在我國已有幾千年曆史，最早的金屬鑄币是商代的寶德銅貝，距今已3000多年。乒乓球：乒乓球為圓球狀，中國國球，是一種世界流行的球類體育項目，包括進攻、對抗和防守，重2.53-2.70克，白或橙色，用賽璐珞或塑料制成。籃球：起源于美國馬薩諸塞州，是1891年 2023-07-05
生活 21822是什麼标準的酒
純糧酒。21822是沱牌大曲酒的标準，是純糧釀造的酒。GB/T21822-2008地理标志産品沱牌白酒主要原料：純糧固态發酵工藝，根據“高粱香、玉米甜、大米淨、小麥躁、糯米綿、大麥沖”等特點，選用高粱、大米、糯米、玉米、小麥為主要釀酒原料。鑒别糧食酒方法：用氫氧化鈉，也就是大家平常說的燒堿。把要檢測的白酒以50：1燒堿的比例放入放入試管中，也可以用我們平常家中的可以加熱的杯子，然後放入熱水沸騰幾分 2023-07-05
生活華僑和華人的區别
1、“華僑”和“華人”的區别很簡單，華僑是長期居住于海外的中國人，華僑是擁有中國國籍的。2、而華人則... 2023-07-05
生活西餐分為哪六大類
1、法式：特點是選料廣泛（如蝸牛、鵝肝都是法式菜肴中的美味），加工精細、烹調考究，滋味有濃有淡，花色品種多；法式菜講究吃半熟或生食。2、英式：特點是油少、清淡，調味時較少用酒，調味品大都放在餐台上由客人自己選用。烹調講究鮮嫩，口味清淡，選料注重海鮮及各式蔬菜，菜量要求少而精。3、意式：特點是原汁原味，以味濃著稱。烹調注重炸、熏等，以炒、煎、炸、燴等方法見長。意大利人喜愛面食，做法吃法甚多。4、俄式 2023-07-05
生活飲料有哪些
1，果蔬汁飲料果蔬汁是指未添加任何外來物質，直接以新鮮或冷藏果蔬（也有一些采用廣果）為原料，經過清洗... 2023-07-05
生活怎樣除蟑螂
1、将洗衣粉灑在蟑螂經常出沒的地方，蟑螂吃了以後就會死亡，還能殺死蟑螂體内一些蟲卵。2、把香蕉皮剪開... 2023-07-05
生活銀耳爛蒂原因是什麼
1、二氧化碳濃度過高：銀耳栽培時對于溫度要求較高，而在低溫季節栽培時，溫度過低無法讓其子實體分化生長，所以有些種植戶就會在室内生火加溫，但是忘記了通風，雖然溫度适宜，但是室内的二氧化碳濃度也是越來也高，當其達到一定界限時，就會造成銀耳爛蒂。2、黃水珠沉積：在銀耳子實體分化階段中，它的耳基會吐出黃水珠... 2023-07-05
生活地藏王菩薩心咒
1、地藏菩薩，或稱地藏王菩薩，梵名Ksitigarbha，曾音譯為“乞叉底蘗沙”，較準确的中文譯音應... 2023-07-05
生活烏龜可以帶上火車嗎
1、一般火車是不能帶寵物的。因為怕影響到公共環境。根據《鐵路進站乘車禁止和限制攜帶品公告》第六條請勿... 2023-07-05
生活生日快樂禮物女
1、音樂盒你可以選擇音樂盒因為很多女孩子都非常的喜歡音樂盒，當小小的音樂盒滴滴的想起時，就感覺整個世... 2023-07-05
生活人體最佳濕度是多少合适
人體最佳的适宜濕度并沒有一定标準，具體的溫度也會根據季節的差異存在着變化，如果是冬天時，人體最佳的濕度在30%到80%之間最舒适，但在夏天溫度較高時，濕度能夠保持在30%到60%之間就非常舒适，良好的居住環境也能夠在一定程度上營養患者的神經。濕度：濕度，表示大氣幹燥程度的物理量。在一定的溫度下在一定體積的空氣裡含有的水汽越少，則空氣越幹燥；水汽越多，則空氣越潮濕。空氣的幹濕程度叫做“濕度”。在此意 2023-07-05
生活羽絨服不僅輕便還保暖是因為
羽絨中飽含空氣。從保暖程度上看，法國的科研機構公布的研究結果認為：世界上還沒有任何保暖材料超過羽絨的保暖性能，因為羽絨是星朵狀結構，每根絨絲在放大鏡下均可以看出是呈魚鱗狀，有數不清的微小孔隙，含蓄着大量的靜止空氣，由于空氣的傳導系數最低，形成了羽絨良好的保暖性。羽絨服如何進行保養：我們在保養羽絨服的時候要記住，羽絨服需要進行進行清理，比如你看到羽絨服有污漬，那麼此時可以用刷子，沾一點洗潔精，然後在 2023-07-05
生活琵琶腿怎麼做
一、紅燒琵琶腿1、準備食材：琵琶腿3隻、老抽1勺、白糖10克、冰糖20克、鹽适量、料酒1勺、姜3片、花椒10粒、大料3瓣、香葉1片、小茴香少許。2、琵琶腿洗淨控水，加白糖、老抽、鹽、料酒用手抓勻入味。3、放入電飯煲内膽，加入姜片、香料、冰糖、鹽、料酒。4、倒入和雞腿齊平的水，煮40分鐘即可。二、脆炸琵琶腿1、準備食材：琵琶腿4個、奧爾良腌料3勺、炸雞裹粉适量、水适量、油适量。2、将琵琶腿用奧爾良腌 2023-07-05
生活人體自由基是什麼東西
人體自由基是指化合物的分子在光熱等外界條件下，共價鍵發生均裂而形成的具有不成對電子的原子或基團。自由基反應在燃燒、氣體化學、聚合反應、等離子體化學、生物化學和其他各種化學學科中扮演很重要的角色。曆史上第一個被發現和證實的自由基是由摩西-岡伯格在1900年于密歇根大學發現的三苯甲基自由基。一般情況下，生命離不開自由基活動。我們的身體每時每刻都從裡到外的運動，每一瞬間都在燃燒着能量，而負責傳遞能量的搬 2023-07-05
生活沖浪是什麼原理
1、沖浪的原理：海風将能量轉移至海浪，緻使海浪湧動，海水的重力作用則試圖讓海面回複風平浪靜的狀态，因... 2023-07-05
生活 20寸行李箱可以托運嗎
1、20寸行李箱可以托運的。2、中國國際航空公司随身攜帶行李要求：3、乘坐國内航班頭等艙的旅客，每人... 2023-07-05

tft每日頭條

> 生活

> nlp工具分類

nlp工具分類

相关生活资讯推荐

热门生活资讯推荐

网友关注