訂閱
糾錯
加入自媒體

2020 年 10 篇必讀的 NLP 突破論文 LIST

2020-12-30 15:27
學術頭條
關注

盡管 2020 年是充滿挑戰(zhàn)的一年,但人工智能學術研究并未因此停滯,仍然誕生了許多有意義的技術突破。在 NLP 領域,OpenAI 的 GPT-3 可能是其中最 “出圈” 的,但除它之外,肯定還有很多其他研究論文值得關注。

整體來看,2020 年的主要 NLP 研究進展仍以大型預訓練語言模型為主,特別是 transformers。今年出現(xiàn)了許多有趣的更新,使得 transformers 架構(gòu)更加高效,更適用于長文檔。

另一個熱點話題與 NLP 模型在不同應用中的評估有關。業(yè)界仍然缺乏普適的評估方法以清晰定義一個模型究竟哪里失敗了,以及如何修復這些問題。

另外,隨著 GPT-3 等語言模型能力的不斷增強,對話式人工智能正受到新一輪的關注。聊天機器人正在不斷改進,今年頂級技術公司推出的多款聊天機器人(例如 Meena 和 Blender 等)令人印象深刻。

在 2020 年年尾,國外 AI 技術博客 topbots.com 總結(jié)了 2020 年的 10 篇重要機器學習研究論文,入選論文也多為今年的頂會論文獎斬獲者,具有較高的權威度,“數(shù)據(jù)實戰(zhàn)派” 在此基礎上有所延伸,以便讓讀者對今年的 NLP 研究進展有一個大致的了解,當然,名單之外,也仍有很多突破性的論文值得閱讀。也歡迎讀者后臺留言與我們交流反饋。

2020 年 10 篇必讀的 NLP 突破論文 LIST:

1.WinoGrande: An Adversarial Winograd Schema Challenge at Scale

2.Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

3.Reformer: The Efficient Transformer

4.Longformer: The Long-Document Transformer

5.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

6.Language Models are Few-Shot Learners

7.Beyond Accuracy: Behavioral Testing of NLP models with CheckList

8.Tangled up in BLEU: Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

9.Towards a Human-like Open-Domain Chatbot

10.Recipes for Building an Open-Domain Chatbot

1、WinoGrande 挑戰(zhàn)

WSC 挑戰(zhàn)是一個人類常識推理的測評集。它包含了 273 個由專家設計的問題,這些問題無法單純依靠統(tǒng)計模型來解決。但是,最近的語言模型在這個測試集上取得了 90% 的準確率。這就提出了一個問題,即語言模型是真正學會了推理,還是僅僅依靠一些對數(shù)據(jù)集的偏好?

為回答這個問題,華盛頓大學艾倫人工智能研究所的一支團隊提出了一個新的挑戰(zhàn) ——WINOGRANDE,一個用于常識推理的新的大規(guī)模數(shù)據(jù)集。WINOGRANDE 是對 WSC 挑戰(zhàn)的升級,同時增加了問題的難度和規(guī)模。

WINOGRANDE 的開發(fā)有兩大關鍵:在眾包設計過程中,眾包人員需要寫出符合 WSC 要求并包含某些 anchor words 的雙句子,最終收集的問題會通過一組眾包工作者進行驗證。在收集的 77,000 個問題中,有 53K 被視為有效。

另一個關鍵在于研究人員開發(fā)用于系統(tǒng)減少偏差的新穎算法 AfLite,將出現(xiàn)的人類可檢測偏差巧妙轉(zhuǎn)換為了基于嵌入的機器可檢測的偏差。應用 AfLite 算法后,去除偏見的 WinoGrande 數(shù)據(jù)集包含 44K 樣本。

在 WINOGRANDE 測試集上,現(xiàn)在最好的方法只能達到 59.4 – 79.1% 的準確率,比人類表現(xiàn)(94.0%)低 15%-35%。

一句話總結(jié)現(xiàn)實影響:有助于探索減少系統(tǒng)偏差的新算法,并避開其他 NLP 基準的偏差。

這篇文章獲得了 AAAI2020 的最佳論文獎 (Outstanding Paper Award)。

2、打造更強大的 Transformer

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 一文中,谷歌研究團隊建議在 NLP 中采用統(tǒng)一的轉(zhuǎn)移學習方法,目標是在該領域樹立一個新的標準。為此,他們提出將每個 NLP 問題都視為一個 "文本到文本" 的問題,這樣的框架將允許在不同的任務中使用相同的模型、目標、訓練過程和解碼過程,包括總結(jié)、情感分析、問題回答和機器翻譯。

研究人員將他們?yōu)榇舜蛟斓哪P,稱為文本到文本傳輸轉(zhuǎn)化器 (Transfer Text-to-Text Transformer,T5),并在大量網(wǎng)絡抓取數(shù)據(jù)的語料庫上對其進行訓練。

通過探索和比較現(xiàn)有的技術,T5 的誕生為 NLP 領域的發(fā)展提供一個全面的視角。特別是提出把每個 NLP 問題都當作文本到文本的任務來處理,為 NLP 的遷移引入了新的方法。由于在原始輸入句子中添加了特定任務的前綴(例如,"將英語翻譯成德語:","總結(jié):"),T5 可以理解應該執(zhí)行哪些任務。

伴隨著 T5 的誕生,還有一個名為 C4 的數(shù)據(jù)集。研究團隊從 Common Crawl(一個公開的網(wǎng)頁存檔數(shù)據(jù)集,每個月大概抓取 20TB 文本數(shù)據(jù)) 里整理出了 750 GB 的訓練數(shù)據(jù),取名為 “Colossal Clean Crawled Corpus (超大型干凈爬取數(shù)據(jù))”,用來訓練 T5.

最終,文中提到的 24 個任務中,擁有 110 億個參數(shù)的 T5 模型在 17 個任務上取得了最先進的性能,包括:GLUE 得分 89.7 分,在 CoLA、RTE 和 WNLI 任務上的性能大幅提升;在 SQuAD 數(shù)據(jù)集上的精確匹配得分 90.06 分;SuperGLUE 得分 88.9,比之前最先進的結(jié)果 (84.6) 有非常顯著的提高,非常接近人類的表現(xiàn) (89.8);在 CNN/Daily Mail 抽象總結(jié)任務中,ROUGE-2-F 得分 21.55。

一句話總結(jié)現(xiàn)實影響:即使該研究引入的模型仍具有數(shù)十億個參數(shù),并且可能過于笨重而無法在業(yè)務環(huán)境中應用,但是所提出的思想,仍有助于改善不同 NLP 任務的性能,包括摘要、問題回答和情感分析。

3、更高效的 Reformer

因為參數(shù)數(shù)量非常大、需要存儲每一層的激活以進行反向傳播、中間前饋層占內(nèi)存使用的很大一部分等諸多原因,Transformer 模型需要大量的計算資源。

面對這樣一個 “龐然大物”,往往只有大型研究實驗室才有條件對其進行實際訓練。

為了解決這個問題,谷歌的研究團隊在 Reformer: The Efficient Transformer 一文中,介紹了幾種可提高 Transformer 效率的技術。

特別是,他們建議,使用可逆層以僅對每個層而不是每個層存儲一次激活,以及通過局部敏感散列來避免昂貴的 softmax 計算。在多個文本任務上進行的實驗表明,該論文引入的 Reformer 模型可以與完整的 Transformer 的性能相匹配,但是運行速度更快,內(nèi)存效率更高。Reformer 在表現(xiàn)出更高的速度和內(nèi)存效率的同時,可以與完整的 Transformer 模型媲美,例如,在將機器從英語翻譯成德語的 newstest2014 任務上,Reformer 基本模型的 BLEU 得分為 27.6 ,而 Transformer 的 BLEU 得分為 27.3 。

一句話總結(jié)現(xiàn)實影響:Reformer 實現(xiàn)的效率改進可以助推更廣泛的 Transformer 應用程序,特別是對于依賴于大上下文數(shù)據(jù)的任務,例如文字生成、視覺內(nèi)容生成、音樂的產(chǎn)生、時間序列預測。

該論文被選為 ICLR 2020 的 oral presentation 。

1  2  3  4  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

人工智能 獵頭職位 更多
掃碼關注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容
文章糾錯
x
*文字標題:
*糾錯內(nèi)容:
聯(lián)系郵箱:
*驗 證 碼:

粵公網(wǎng)安備 44030502002758號