tft每日頭條

 > 生活

 > 高級語言作用域是如何實現的

高級語言作用域是如何實現的

生活 更新时间:2024-10-03 19:18:09

MURAL:跨語言的多模式、多任務檢索

對于許多概念,沒有從一種語言到另一種語言的直接一對一翻譯,即使有,這種翻譯也經常帶有不同的聯想和内涵,對于非母語人士來說很容易丢失。然而,在這種情況下,當以視覺示例為基礎時,含義可能會更加明顯。以“婚禮”這個詞為例。在英語中,人們經常将穿着白色連衣裙的新娘和穿着燕尾服的新郎聯系起來,但當翻譯成印地語 (शादी) 時,更合适的聯想可能是穿着鮮豔色彩的新娘和穿着雪瓦尼的新郎。每個人對這個詞的聯想可能會有很大差異,但如果向他們展示預期概念的圖像,其含義就會變得更加清晰。

高級語言作用域是如何實現的(跨語言的多模式)1

随着神經機器翻譯和圖像識别的當前進步,可以通過呈現與支持圖像配對的文本來減少翻譯中的這種歧義。先前的研究在學習高資源語言(如英語)的圖像-文本聯合表示方面取得了很大進展。這些表示模型努力将圖像和文本編碼為共享嵌入空間中的向量,以便圖像和描述它的文本在該空間中彼此接近。例如,ALIGN和CLIP已經表明,當提供充足的訓練數據時,使用對比學習損失在圖像-文本對上訓練雙編碼器模型(即,一個用兩個單獨的編碼器訓練的模型)效果非常好。

不幸的是,對于大多數語言,這種圖像-文本對數據并不以相同的規模存在。事實上,超過 90% 的這類網絡數據屬于前 10 名資源豐富的語言,如英語和中文,而資源匮乏語言的數據要少得多。為了克服這個問題,人們可以嘗試為資源不足的語言手動收集圖像-文本對數據,這将因工作規模而變得非常困難,或者可以尋求利用預先存在的數據集(例如,翻譯對)可以為多種語言提供必要的學習表示。

在“ MURAL:Multimodal, Multitask Retrieval Across Languages ”中,在EMNLP 2021 的發現中展示,我們描述了一種圖像-文本匹配的表示模型,該模型使用應用于圖像-文本對的多任務學習以及涵蓋 100 多種語言的翻譯對。這項技術可以讓用戶使用圖像來表達可能無法直接翻譯成目标語言的單詞。例如,“ valiha ”這個詞,指的是馬達加斯加人演奏的一種電子管古筝人,它沒有直接翻譯成大多數語言,但可以很容易地用圖像來描述。從經驗上講,MURAL 顯示出對最先進模型、其他基準和全面競争基準的持續改進。此外,MURAL 在測試它的大多數資源不足的語言中表現非常好。此外,我們發現了通過 MURAL 表示學習的有趣的語言相關性。

MURAL 架構

MURAL 架構基于ALIGN的結構,但以多任務方式使用。ALIGN 使用雙編碼器架構來繪制圖像和相關文本描述的表示,而 MURAL 使用雙編碼器結構實現相同目的,同時還通過合并翻譯對将其擴展到跨語言。圖像-文本對的數據集與用于 ALIGN 的數據集相同,翻譯對是用于LaBSE 的數據集。

MURAL 解決了兩個對比學習任務:1)圖像-文本匹配和 2)文本-文本(雙文本)匹配,這兩個任務共享文本編碼器模塊。該模型從圖像-文本數據中學習圖像和文本之間的關聯,并從翻譯對中學習數百種不同語言的表示。這個想法是共享編碼器将從資源豐富的語言中學習到的圖像-文本關聯轉移到資源不足的語言中。我們發現最好的模型采用了EfficientNet-B7圖像編碼器和BERT 大文本編碼器,兩者都是從頭開始訓練的。學習到的表示可用于下遊的視覺和視覺語言任務。

高級語言作用域是如何實現的(跨語言的多模式)2

多語言圖像到文本和文本到圖像檢索

為了展示 MURAL 的能力,我們選擇了跨模式檢索任務(即檢索給定文本的相關圖像,反之亦然)并報告各種學術圖像-文本的分數數據集涵蓋資源豐富的語言,例如MS-COCO(及其日語變體STAIR)、Flickr30K(英文)和Multi30K(擴展到德語、法語、捷克語)、XTD(僅測試集,包含七種資源豐富的語言) :意大利語、西班牙語、俄語、中文、波蘭語、土耳其語和韓語)。除了資源豐富的語言,我們還在最近發布的維基百科圖像文本(WIT)上評估了 MURAL) 數據集,涵蓋 108 種語言,包括資源豐富的(英語、法語、中文等)和資源不足的(斯瓦希裡語、印地語等)語言。

在對資源充足和資源不足的語言進行評估的零 樣本和微調設置中,MURAL 始終優于先前的最先進模型,包括M3P、UC2和ALIGN。與最先進的模型 ALIGN 相比,我們看到資源不足的語言有顯着的性能提升。

高級語言作用域是如何實現的(跨語言的多模式)3

檢索分析

我們還分析了WIT 數據集上的零樣本檢索示例,比較了英語 (en) 和印地語 (hi) 的 ALIGN 和 MURAL。對于像印地語這樣資源不足的語言,與 ALIGN 相比,MURAL 顯示出改進的檢索性能,這反映了對文本語義的更好掌握。

高級語言作用域是如何實現的(跨語言的多模式)4

即使對于資源豐富的語言(如法語)中的圖像→文本檢索,MURAL 也顯示出對某些單詞的更好理解。例如,與不檢索任何描述日晷的文本的 ALIGN 相比,MURAL 為查詢“ cadran solaire ”(法語中的“sundial”)返回更好的結果(如下)。

高級語言作用域是如何實現的(跨語言的多模式)5

嵌入可視化

此前,研究人員已經表明,将模型嵌入可視化可以揭示語言之間有趣的聯系——例如,神經機器翻譯(NMT) 模型學習的表示已被證明可以根據它們對語言家族的成員資格形成集群。我們對屬于日耳曼語、羅曼語、斯拉夫語、烏拉爾語、芬蘭語、凱爾特語和芬蘭-烏戈爾語系(在歐洲和西亞廣泛使用)的語言子集執行類似的可視化。我們比較附壁文本的嵌入LaBSE的,這是一個純文本的編碼器。

LabSE 的嵌入圖顯示了受語言家族影響的不同語言集群。例如,羅曼語言(下圖紫色)與斯拉夫語言(下圖棕色)屬于不同的區域。這一發現與之前研究 NMT 系統學習的中間表示的工作一緻。

高級語言作用域是如何實現的(跨語言的多模式)6

與 LaBSE 的可視化相反,通過多模态目标學習的 MURAL 嵌入顯示了一些符合區域語言學(地理區域中的語言或方言共享元素)和接觸語言學(語言或方言相互作用的地方)的集群并相互影響)。值得注意的是,在 MURAL 嵌入空間中,羅馬尼亞語 (ro) 更接近于保加利亞語 (bg) 和馬其頓語 (mk) 等斯拉夫語,這與巴爾幹語 ( Balkan sprachbund) 一緻,而不是在 LaBSE 中。另一種可能的語言接觸使芬蘭語、愛沙尼亞語 (et) 和芬蘭語 (fi) 更接近斯拉夫語族群。MURAL 以圖像和翻譯為中心的事實似乎增加了在深度表示中學習的語言相關性的額外觀點,超出了在純文本設置中觀察到的語言家族聚類。

高級語言作用域是如何實現的(跨語言的多模式)7

最後的評論

我們的研究結果表明,使用翻譯對聯合訓練有助于克服許多資源不足語言的圖像-文本對的稀缺性,并提高跨模态性能。此外,在使用多模态模型學習的文本表示中觀察區域語言學和接觸語言學的提示很有趣。這需要更多地探索由多模态模型(例如 MURAL)隐式學習的不同連接。最後,我們希望這項工作能促進多模态、多語言空間的進一步研究,在這些空間中,模型學習語言之間的表示和聯系(通過圖像和文本表達),而不僅僅是資源豐富的語言。

高級語言作用域是如何實現的(跨語言的多模式)8

,

更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

查看全部

相关生活资讯推荐

热门生活资讯推荐

网友关注

Copyright 2023-2024 - www.tftnews.com All Rights Reserved