華人小哥開發“黑話”資料集，AI：你連 dbq 都不知道，xswl！

華人小哥開發 “ 黑話 ” 資料集，AI：你連 dbq 都不知道，xswl！| NAACL 2021

提到 “007”，你一定會想到詹姆斯 · 邦德。

這樣具有隱藏含義的詞，可以統稱為 Cant，包括暗語、隱語、行話等。

常見的，比如 “666”，還有 zqsg、xswl 等網路 “ 暗語 ” ……

對這些詞的理解，在日常生活、廣告和喜劇中都十分重要。

那麼，怎麼能讓 AI 理解它們？

最近，來自 USCD 和北航的研究者，就一邊 “ 玩遊戲 ”，一邊為 Cant 開發了一個數據集——DogWhistle，並且已經開源。

用遊戲收集資料

研究團隊根據經典桌遊「Decrypto（截碼戰）」進行改編，設計了「Decrypto Online」，利用其中的記錄收集資料。

△Decrypto Online 玩家介面

概括而言，Decrypto 遊戲就是將 4 個玩家分為 2 隊，隊長提供線索詞 B，以便讓隊友把它和初始詞 A 關聯起來，同時要避免對手推斷出 A 詞。

具體來說，每個隊伍有序號 1-4 的四個初始詞，只有本隊成員可以知道這些詞。

每一回合由隊長抽取密碼卡，根據卡上的 3 個數字，給出對應序號詞的線索（Cant）。比如：初始詞 1 是 “ 黑色 ”，那麼 1 對應的線索詞可以用 “ 夜晚 ”。

第一回閤中，隊友根據線索詞，推斷卡上的數字，並由隊長公開是否正確。與此同時，對方將會記錄這些資訊。

而在第二回合，隊長再次抽數字卡，並給出線索詞，兩隊都要據此推斷數字，答案正確則記一分。

也就是說，隊長給出的線索詞，既要讓隊友對應到初始詞上，同時還要避免對手摸清其中的關聯。

任務設定

研究人員給模型設定了兩個子任務，初始詞分別為可見和不可見。

內部人員子任務模擬內部人員之間的通訊，第一行的 4 個初始詞作為輸入內容。由於 emoji 表情符號在交流中起著重要的作用，因此也被允許作為有效輸入。

模型透過初始詞和線索詞進行推斷，預測並輸出初始詞對應的序號（灰色背景）。

而外部人員子任務中，初始詞是不可見的。

模型透過猜詞記錄、線索詞等進行推斷，預測並輸出記錄對應的序號（灰色背景）。

定量分析

為了解不同模型對 Cant 的理解能力，研究人員透過兩個子任務進行了定量分析。

△兩個子任務的準確度得分對比

在詞嵌入相似度的測試中，用多樣化的大型資料集訓練的 DSG，效能顯著優於其他模型。

而具有更強計算能力的大尺寸模型，在內部任務中的表現顯著優於基礎尺寸模型。例如，RoBERTa-base 和 ERNIE-base，都優於 BERT-base。

此外，採用引數共享的 ALBERT-base，在兩個任務上都略微低於 BERT。

值得注意的是，在兩個任務中表現最好的模型，分別以 12。8 和 8。5 的較大差距，落後於人類的表現。

這表明 DogWhistle 是一個非常具有挑戰性的資料集，為下一代預訓練語言模型提供了新的競技場。

定性分析

研究人員還給出了在內部任務中，BERT 未能預測，但人類可以正確預測的代表性樣本。

“Dancing Pallbearers（黑人抬棺舞）”在模型釋出後才出現，以至於模型可能對該話題的認識不多。

對 “007”（指詹姆斯 · 邦德電影）的推理，需要模式對各種知識有高度理解，而不是過度擬合淺層的詞彙特徵，這也被認為是自然語言推理的主要缺陷。

還有“ 孩子都可以打醬油了 ”，也要求模型具有廣泛的語言知識才能理解。

研究人員將 DogWhistle 資料集作為中間任務，透過中間任務遷移學習來提高模型的效能。

首先，在內部子任務上對模型進行微調，然後在螞蟻金融問題匹配語料庫（AFQMC）和大型中文問題匹配語料庫（LCQMC）上，再次微調模型。

△原始任務和中間任務中準確度得分

結果顯示，在兩個資料集上，DogWhistle 都幫助模型獲得了更好的效能。

作者簡介

論文一作許燦文，曾在武漢大學就讀，目前是加州大學聖地亞哥分校（UCSD）的博士研究生。

他曾在微軟亞洲研究院實習，現在 Hugging Face 工作。主要研究方向包括：NLP 中的深度學習、自然語言生成和社交媒體分析。

論文二作周王春澍，是北京航空航天大學計算機科學碩士，在微軟亞洲研究院實習，致力於 NLP 研究。

據作者介紹，這篇論文已經被 NAACL 2021 接收，資料集在 GitHub 上開源。

感興趣的讀者可戳文末連結瞭解詳情。

參考連結：

［ 1 ］ https：//arxiv。org/abs/2104。02704

［ 2 ］ https：//github。com/JetRunner/dogwhistle

［ 3 ］ https：//cseweb。ucsd。edu/~jmcauley/

［ 4 ］ https：//www。canwenxu。net/

［ 5 ］ https：//www。youtube。com/watch？v=2DBg7Z2-pQ4

［ 6 ］ http：//www。yihubg。com/blog-details/c4552cb2-3b6f-4123-9a80-8764ce98603e

愛伊米

華人小哥開發“黑話”資料集，AI：你連 dbq 都不知道，xswl！

相關文章

推薦文章