国产玉足榨精视频在线观看 ,国产91资源午夜福利,欧美爆乳在线观看播放

2020 年 10 篇必讀的 NLP 突破論文 LIST

2020-12-30 15:27

盡管 2020 年是充滿挑戰(zhàn)的一年，但人工智能學術研究并未因此停滯，仍然誕生了許多有意義的技術突破。在 NLP 領域，OpenAI 的 GPT－3 可能是其中最 “出圈” 的，但除它之外，肯定還有很多其他研究論文值得關注。

整體來看，2020 年的主要 NLP 研究進展仍以大型預訓練語言模型為主，特別是 transformers。今年出現(xiàn)了許多有趣的更新，使得 transformers 架構(gòu)更加高效，更適用于長文檔。

另一個熱點話題與 NLP 模型在不同應用中的評估有關。業(yè)界仍然缺乏普適的評估方法以清晰定義一個模型究竟哪里失敗了，以及如何修復這些問題。

另外，隨著 GPT－3 等語言模型能力的不斷增強，對話式人工智能正受到新一輪的關注。聊天機器人正在不斷改進，今年頂級技術公司推出的多款聊天機器人（例如 Meena 和 Blender 等）令人印象深刻。

在 2020 年年尾，國外 AI 技術博客 topbots．com 總結(jié)了 2020 年的 10 篇重要機器學習研究論文，入選論文也多為今年的頂會論文獎斬獲者，具有較高的權威度，“數(shù)據(jù)實戰(zhàn)派” 在此基礎上有所延伸，以便讓讀者對今年的 NLP 研究進展有一個大致的了解，當然，名單之外，也仍有很多突破性的論文值得閱讀。也歡迎讀者后臺留言與我們交流反饋。

2020 年 10 篇必讀的 NLP 突破論文 LIST：

1．WinoGrande： An Adversarial Winograd Schema Challenge at Scale

2．Exploring the Limits of Transfer Learning with a Unified Text－to－Text Transformer

3．Reformer： The Efficient Transformer

4．Longformer： The Long－Document Transformer

5．ELECTRA： Pre－training Text Encoders as Discriminators Rather Than Generators

6．Language Models are Few－Shot Learners

7．Beyond Accuracy： Behavioral Testing of NLP models with CheckList

8．Tangled up in BLEU： Reevaluating the Evaluation of Automatic Machine Translation Evaluation Metrics

9．Towards a Human－like Open－Domain Chatbot

10．Recipes for Building an Open－Domain Chatbot

1、WinoGrande 挑戰(zhàn)

WSC 挑戰(zhàn)是一個人類常識推理的測評集。它包含了 273 個由專家設計的問題，這些問題無法單純依靠統(tǒng)計模型來解決。但是，最近的語言模型在這個測試集上取得了 90％的準確率。這就提出了一個問題，即語言模型是真正學會了推理，還是僅僅依靠一些對數(shù)據(jù)集的偏好？

為回答這個問題，華盛頓大學艾倫人工智能研究所的一支團隊提出了一個新的挑戰(zhàn) ——WINOGRANDE，一個用于常識推理的新的大規(guī)模數(shù)據(jù)集。WINOGRANDE 是對 WSC 挑戰(zhàn)的升級，同時增加了問題的難度和規(guī)模。

WINOGRANDE 的開發(fā)有兩大關鍵：在眾包設計過程中，眾包人員需要寫出符合 WSC 要求并包含某些 anchor words 的雙句子，最終收集的問題會通過一組眾包工作者進行驗證。在收集的 77，000 個問題中，有 53K 被視為有效。

另一個關鍵在于研究人員開發(fā)用于系統(tǒng)減少偏差的新穎算法 AfLite，將出現(xiàn)的人類可檢測偏差巧妙轉(zhuǎn)換為了基于嵌入的機器可檢測的偏差。應用 AfLite 算法后，去除偏見的 WinoGrande 數(shù)據(jù)集包含 44K 樣本。

在 WINOGRANDE 測試集上，現(xiàn)在最好的方法只能達到 59．4 – 79．1％的準確率，比人類表現(xiàn)（94．0％）低 15％－35％。

一句話總結(jié)現(xiàn)實影響：有助于探索減少系統(tǒng)偏差的新算法，并避開其他 NLP 基準的偏差。

這篇文章獲得了 AAAI2020 的最佳論文獎（Outstanding Paper Award）。

2、打造更強大的 Transformer

Exploring the Limits of Transfer Learning with a Unified Text－to－Text Transformer 一文中，谷歌研究團隊建議在 NLP 中采用統(tǒng)一的轉(zhuǎn)移學習方法，目標是在該領域樹立一個新的標準。為此，他們提出將每個 NLP 問題都視為一個＂文本到文本＂的問題，這樣的框架將允許在不同的任務中使用相同的模型、目標、訓練過程和解碼過程，包括總結(jié)、情感分析、問題回答和機器翻譯。

研究人員將他們?yōu)榇舜蛟斓哪Ｐ�，稱為文本到文本傳輸轉(zhuǎn)化器（Transfer Text－to－Text Transformer，T5），并在大量網(wǎng)絡抓取數(shù)據(jù)的語料庫上對其進行訓練。

通過探索和比較現(xiàn)有的技術，T5 的誕生為 NLP 領域的發(fā)展提供一個全面的視角。特別是提出把每個 NLP 問題都當作文本到文本的任務來處理，為 NLP 的遷移引入了新的方法。由于在原始輸入句子中添加了特定任務的前綴（例如，＂將英語翻譯成德語：＂，＂總結(jié)：＂），T5 可以理解應該執(zhí)行哪些任務。

伴隨著 T5 的誕生，還有一個名為 C4 的數(shù)據(jù)集。研究團隊從 Common Crawl（一個公開的網(wǎng)頁存檔數(shù)據(jù)集，每個月大概抓取 20TB 文本數(shù)據(jù)）里整理出了 750 GB 的訓練數(shù)據(jù)，取名為 “Colossal Clean Crawled Corpus （超大型干凈爬取數(shù)據(jù)）”，用來訓練 T5．

最終，文中提到的 24 個任務中，擁有 110 億個參數(shù)的 T5 模型在 17 個任務上取得了最先進的性能，包括：GLUE 得分 89．7 分，在 CoLA、RTE 和 WNLI 任務上的性能大幅提升；在 SQuAD 數(shù)據(jù)集上的精確匹配得分 90．06 分；SuperGLUE 得分 88．9，比之前最先進的結(jié)果（84．6）有非常顯著的提高，非常接近人類的表現(xiàn) （89．8）；在 CNN／Daily Mail 抽象總結(jié)任務中，ROUGE－2－F 得分 21．55。

一句話總結(jié)現(xiàn)實影響：即使該研究引入的模型仍具有數(shù)十億個參數(shù)，并且可能過于笨重而無法在業(yè)務環(huán)境中應用，但是所提出的思想，仍有助于改善不同 NLP 任務的性能，包括摘要、問題回答和情感分析。

3、更高效的 Reformer

因為參數(shù)數(shù)量非常大、需要存儲每一層的激活以進行反向傳播、中間前饋層占內(nèi)存使用的很大一部分等諸多原因，Transformer 模型需要大量的計算資源。

面對這樣一個 “龐然大物”，往往只有大型研究實驗室才有條件對其進行實際訓練。

為了解決這個問題，谷歌的研究團隊在 Reformer： The Efficient Transformer 一文中，介紹了幾種可提高 Transformer 效率的技術。

特別是，他們建議，使用可逆層以僅對每個層而不是每個層存儲一次激活，以及通過局部敏感散列來避免昂貴的 softmax 計算。在多個文本任務上進行的實驗表明，該論文引入的 Reformer 模型可以與完整的 Transformer 的性能相匹配，但是運行速度更快，內(nèi)存效率更高。Reformer 在表現(xiàn)出更高的速度和內(nèi)存效率的同時，可以與完整的 Transformer 模型媲美，例如，在將機器從英語翻譯成德語的 newstest2014 任務上，Reformer 基本模型的 BLEU 得分為 27．6 ，而 Transformer 的 BLEU 得分為 27．3 。

一句話總結(jié)現(xiàn)實影響：Reformer 實現(xiàn)的效率改進可以助推更廣泛的 Transformer 應用程序，特別是對于依賴于大上下文數(shù)據(jù)的任務，例如文字生成、視覺內(nèi)容生成、音樂的產(chǎn)生、時間序列預測。

該論文被選為 ICLR 2020 的 oral presentation 。

1 2 3 4 下一頁>