2020 年 10 篇必讀的 NLP 突破論文 LIST
7、全新的 NLP 模型測試方法 “CheckList”
開發(fā)諸如 GLUE(General Language Understanding Evaluation)和 SuperGLUE 之類的基準,可以用來評估經(jīng)過微調(diào)的 NLP 模型執(zhí)行自然語言理解任務的能力。通常,將 NLP 模型的性能與驗證準確性的結(jié)果進行比較。需要注意,使用驗證準確性存在固有的局限性,例如過擬合,驗證集的數(shù)據(jù)分布不同等均可能干擾正確的判斷。
而在 ACL 2020 年的 Best Paper 論文 “Beyond Accuracy: Behavioral Testing of NLP Models with CheckList” 中,作者提出了一個框架,一種新的 NLP 模型評測方法:CHECKLIST。CHECKLIST 借鑒了傳統(tǒng)軟件工程的測試準則,通過模板快速生成大量樣例,全面測試模型的各種能力,可以用于幾乎所有 NLP 任務。
CHECKLIST 建議使用三種不同的測試方法:
?最小功能測試(MFT, Minimum Functionality Tests),其中使用預期的金標生成示例;
?不變性測試(INV, INVariance Tests),其中從給定的示例中,創(chuàng)建新示例,其中金標被翻轉(zhuǎn);
?方向預期測試(DIR, Directional Expectation Tests)對原始句子進行修改,金標往期望的方向(正向 / 負向)變化。
作者建議對于 NLP 模型的每一種能力,都盡量采用這三種測試方法測試一遍。
一句話總結(jié)現(xiàn)實影響:CheckList 可用于為各種 NLP 任務創(chuàng)建更詳盡的測試,有助于識別更多的錯誤的,帶來更強大的 NLP 系統(tǒng)。
該論文在 ACL 2020 上獲得了最佳論文獎(Best Paper)。
8、重新評估自動機器翻譯評估指標
自動化指標是開發(fā)和評估機器翻譯系統(tǒng)的基礎。判斷自動化度量標準是否與人類評估的黃金標準相一致,并非易事。
墨爾本大學計算與信息系統(tǒng)學院 的這項研究表明,當前的指標評估方法對用于評估的翻譯系統(tǒng)非常敏感,尤其是存在異常值時,這通常會導致對評價效果產(chǎn)生錯誤的自信判斷。例如,如果使用大量翻譯系統(tǒng)來計算領先指標和人工評估之間的相關(guān)性,則該相關(guān)性通常很高(即 0.9)。但是,如果僅考慮幾個最佳系統(tǒng),則相關(guān)性會顯著降低,在某些情況下甚至可能為負相關(guān)。
因此,他們提出了一種在自動度量標準下以人為判斷為閾值提高性能的方法,可以量化所引起的 I 型錯誤與 II 型錯誤,即可以接受的人類評判質(zhì)量差異,以及不能接受的人類評判差異。與 BLEU 和 TER 相比,優(yōu)先考慮 chrF,YiSi-1 和 ESIM 等評估指標。
一句話總結(jié)現(xiàn)實影響:這些發(fā)現(xiàn)對機器翻譯中的度量評估和系統(tǒng)性能評估的協(xié)議進行了改進。
這項研究在 ACL 2020 上入圍榮譽提名論文獎(Honorable Mention Papers)。
請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-10.29立即報名>> 2024德州儀器嵌入式技術(shù)創(chuàng)新發(fā)展研討會
-
10月31日立即下載>> 【限時免費下載】TE暖通空調(diào)系統(tǒng)高效可靠的組件解決方案
-
即日-11.13立即報名>>> 【在線會議】多物理場仿真助跑新能源汽車
-
11月14日立即報名>> 2024工程師系列—工業(yè)電子技術(shù)在線會議
-
12月19日立即報名>> 【線下會議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
-
即日-12.26火熱報名中>> OFweek2024中國智造CIO在線峰會
推薦專題
-
10 百度搜索,正在被平替
- 1 Intel宣布40年來最重大轉(zhuǎn)型:年底前裁員15000人、拋掉2/3房產(chǎn)
- 2 因美封殺TikTok,字節(jié)股價骨折!估值僅Meta1/5
- 3 宏山激光重磅發(fā)布行業(yè)解決方案,助力智能制造產(chǎn)業(yè)新飛躍
- 4 國產(chǎn)AI芯片公司破產(chǎn)!白菜價拍賣
- 5 具身智能火了,但規(guī)模落地還需時間
- 6 三次錯失風口!OpenAI前員工殺回AI編程賽道,老東家捧金相助
- 7 國產(chǎn)英偉達們,抓緊沖刺A股
- 8 英特爾賦能智慧醫(yī)療,共創(chuàng)數(shù)字化未來
- 9 英偉達的麻煩在后頭?
- 10 將“網(wǎng)紅”變成“商品”,AI“爆改”實力拉滿
- 高級軟件工程師 廣東省/深圳市
- 自動化高級工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級銷售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專家 廣東省/江門市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市