tft每日頭條

 > 圖文

 > 自然語言處理常用模型簡介

自然語言處理常用模型簡介

圖文 更新时间:2024-07-29 07:11:29

自然語言處理常用模型簡介?自然語言處理(NLP),是機器學習領域的一個分支,專門研究如何讓機器理解人類語言和相關文本,也是發展通用人工智能技術亟需攻克的核心難題之一,接下來我們就來聊聊關于自然語言處理常用模型簡介?以下内容大家不妨參考一二希望能幫到您!

自然語言處理常用模型簡介(自然語言處理模型新标準即将公布)1

自然語言處理常用模型簡介

自然語言處理(NLP),是機器學習領域的一個分支,專門研究如何讓機器理解人類語言和相關文本,也是發展通用人工智能技術亟需攻克的核心難題之一。

不久之後,紐約大學、華盛頓大學、劍橋大學和 Facebook AI 将聯合推出一套新的自然語言處理(NLP)評估基準,名為 SuperGLUE,全稱是 Super General-Purpose Language Understanding。

該系統是現有 GLUE 基準的升級版(所以前面加上了 Super)。研究人員删除了原本 11 項任務中的 9 項,更新了剩下 2 項,同時加入了 5 項新的評估基準。新版本将更契合未來 NLP 技術的發展方向,難度也是大幅增加,更具挑戰性。

(來源:Nikita Nangia)

這套系統的數據集、工具包和具體評估标準預計将于 5 月初公布。不過從最新發布的 SuperGLUE 論文中,我們可以先睹為快。

什麼是 GLUE?

實現 NLP 的方法有很多,主流的方法大多圍繞多任務學習和語言模型預訓練展開,由此孕育出很多種不同模型,比如 BERT、MT-DNN、ALICE 和 Snorkel MeTaL 等等。在某個模型的基礎上,研究團隊還可以借鑒其它模型的精華或者直接結合兩者。

為了更好地訓練模型,同時更準确地評估和分析其表現,紐約大學、華盛頓大學和 DeepMind 的 NLP 研究團隊在 2018 年推出了通用語言理解評估基準(GLUE),其中包含 11 項常見 NLP 任務,都是取自認可度相當高的 NLP 數據集,最大的語料庫規模超過 40 萬條,而且種類多變,涉及到自然語言推理、情感分析、閱讀理解和語義相似性等多個領域。

圖 | GLUE的11項任務

不過GLUE基準才發布一年,已經有很多 NLP 模型在特定任務中超過了人類基準,尤其是在 QQP、MRPC 和 QNLI 三項任務中:

  • QQP 是“Quora 問題配對”數據集,由 40 萬對 Quora 問題組成,模型需要識别兩個問題之間的含義是否相同。

  • MRPC 是“微軟研究釋義語料庫”,與 QQP 類似,模型需要判斷兩個形式不同的句子是否具有相似的意思(即釋義句)。

  • QNLI 任務基于“斯坦福問答數據集(SQuAD)”,主要考察模型的閱讀理解能力。它需要根據維基百科中的文章來回答一些問題,答案可能存在于文章中,也可能不存在。

    圖 | NLP 模型在三項任務中普遍超過了人類基準,越靠右側的模型分數越高

    目前綜合分數最高的是微軟提交的 MT-DNN 模型,其核心是多任務深度神經網絡(MT-DNN)模型,并且在文本編碼層整合了 BERT。僅次于它的是阿裡巴巴達摩院 NLP 團隊的 ALICE Large 模型和斯坦福的 Snorkel MeTaL 模型。

    從上面圖中我們也能看出,得益于 BERT 和 GPT 模型的引入,模型在很多GLUE 任務的得分都已經接近人類基準,隻有 2-3 個任務與人類有明顯差距。

    因此,推出新的評估基準勢在必行。

    圖 | GLUE排行榜前五名

    從 GLUE 到 SuperGLUE

    新的 SuperGLUE 遵從了 GLUE 的基本原則:為通用語言理解技術的進步提供通俗,但又具有挑戰性的基準。

    在制定這個新基準時,研究人員先在 NLP 社區公開征集任務提案,獲得了大約 30 份提案,随後按照如下标準篩選:

  • 任務本質:測試系統理解英語的能力。

  • 任務難度:超出當前最先進模型的能力,但是人類可以解決。

  • 可評估性:具備自動評判機制,并且能夠準确對應人類的判斷或表現。

  • 公開數據:擁有公開的訓練數據。

  • 任務格式:SuperGLUE 輸入值的複雜程度得到了提升,允許出現複雜句子,段落和文章等。

  • 任務許可:所用數據必須獲得研究和重新分發的許可。

    在篩選過程中,他們首先重新審核了現有的 GLUE 任務集,從中删除了模型表現較好的 9 項任務,保留了 2 項表現最差的任務——Winograd 模式挑戰賽(WSC)和文本蘊含識别(RTE)——它們還有很大的進步空間。

    兩項任務分别屬于自然語言推理和閱讀理解範疇。人類通常比較擅長這樣的任務,甚至于不需要特殊訓練就可以精通。比如看到這樣兩句話:

    “這本書裝不進書包,因為它太了。”

    “這本書裝不進書包,因為它太了。”

    盡管兩個句子包含兩個含義截然相反的形容詞,人類還是可以輕松理解,因為我們知道“它”的指代物不同。但上面那些NLP模型卻表現的很糟糕,平均水平不足人類的 70%。而這其實就是 WSC 任務的主要内容。

    最後,研究人員挑選(設計)了 5 項新任務,分别是 CB,COPA,GAP,MultiRC 和 WiC,主要測試模型回答問題,指代消解和常識推理的能力

    圖 | 新版SuperGLUE任務集,其中RTE和WSC來自于現有的GLUE任務

    研究人員認為,SuperGLUE 的新任務更加側重于測試模型在複雜文本下的推理能力。

    比如 WiC 要求模型在兩段内容中,區分同一個單詞的含義是否一緻(聽起來簡單,但對于機器來說非常困難)。CB 和 COPA 都是考察模型在給定“前提”的情況下,對“假設”或“理由”的正确性進行判斷,隻不過有的側重于分析從句,有的側重于問答模式。

    GAP 則要求模型對性别做出判斷,能夠通過“姐姐”,“哥哥”和“妻子”這樣的詞彙,分辨文本中“他”和“她”的指代對象。

    MultiRC 任務更加複雜,模型需要完成閱讀理解,然後回答問題。一個典型的例子是這樣的:

    圖 | 搜索關鍵詞“speedy recover”,幾乎一眼就能找到答案,但機器未必知道

    選擇了新的任務之後,研究人員用主流 NLP 模型進行了測試。

    最流行的 BERT 模型的表現勉強可以接受,但其量化之後的綜合分數比人類低約 16.8%,說明機器距離人類基準仍有不小的差距,而且 SuperGLUE 确實比GLUE 難了不少。

    圖 | 現有模型在SuperGLUE上的表現

    鑒于目前 SuperGLUE 還沒有正式推出,我們還無法查看任務數據集和模型排行榜。在 5 月份推出 SuperGLUE 後,它可能還會經曆一些微調,然後在7月份變為正式版本,供研發 NLP 模型的團隊挑戰。

    目前來看,SuperGLUE 和 GLUE 之間的差距是可以接受的,新任務具有一定的挑戰性,但并非遙不可及,足以為全球的 NLP 團隊樹立一個新的标杆。

    更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!

    查看全部
  • 相关圖文资讯推荐

    热门圖文资讯推荐

    网友关注

    Copyright 2023-2024 - www.tftnews.com All Rights Reserved