原文:Radford A, Wu J, Child R, et al. Language models are unsupervised multitask learners[J]. OpenAI blog, 2019, 1(8): 9.
1. Abstract
自然語言處理任務,如問答、機器翻譯、閱讀理解和摘要,通常在任務特定的數據集上,通過監督學習來完成。我們證明,語言模型在沒有任何顯式監督的情況下,可以在一個包含數百萬網頁的數據集WebText上來學習這些任務。針對閱讀理解任務,GPT-2在沒有使用CoQA數據集微調的情況下,其性能仍然匹配或超過4個基線模型中的3個。語言模型的容量對于zero-shot任務遷移至關重要,增加語言模型的容量能夠以對數線性的方式提高跨任務的性能。GPT-2模型是一個具有15億參數的Transformer,它在對WebText數據集欠拟合的情況下,仍然以zero-shot的方式在7個語言建模數據集上取得了SOTA結果。GPT-2生成的示例文本反映了這些改進,并且包含連貫的段落。這些發現為構建語言處理系統提供了一條很有前途的道路。
2. Method, Experiment and Result
圖1. 在多個NLP任務上,WebText LMs的zero-shot性能作為模型大小的函數(随模型大小的變化)。
表1. 在WebText訓練集中可以找到自然出現的英譯法和法譯英的示例。
表2. 4個不同大小的語言模型的架構超參數。最小的模型相當于原始GPT,最大的模型稱為GPT-2。
表3. 模型在多個數據集上的zero-shot結果。這些結果是在沒有任何訓練或微調的情況下得到的。
圖2. 模型在Children’s Book Test上的性能作為模型容量的函數(随模型大小的變化)。
圖3. 模型在Winograd Schema Challenge上的性能作為模型容量的函數(随模型大小的變化)。
表4. 在CNN和Daily Mail數據集上,通過ROUGE F1指标來衡量模型在摘要任務上的性能。
表5. GPT-2在Natural Questions開發集上生成的30個問題的答案(按照概率排序),這些問題都不會出現在WebText訓練集中。
表6. 測試集與訓練集重疊的百分比。
3. Conclusion / Discussion
當一個大型語言模型在足夠大且多樣化的數據集上訓練時,它能夠在許多領域和數據集上表現良好。GPT-2在7個語言建模數據集上以zero-shot的方式達到了SOTA性能。該模型在zero-shot設置下能夠執行的任務的多樣性表明,大容量模型能夠學習如何在沒有顯式監督的情況下執行數量驚人的任務。
,關注“多模态人工智能”公衆号,一起進步!
更多精彩资讯请关注tft每日頭條,我们将持续为您更新最新资讯!