愛伊米

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

華人小哥開發 “ 黑話 ” 資料集,AI:你連 dbq 都不知道,xswl!| NAACL 2021

提到 “007”,你一定會想到詹姆斯 · 邦德。

這樣具有隱藏含義的詞,可以統稱為 Cant,包括暗語、隱語、行話等。

常見的,比如 “666”,還有 zqsg、xswl 等網路 “ 暗語 ” ……

對這些詞的理解,在日常生活、廣告和喜劇中都十分重要。

那麼,怎麼能讓 AI 理解它們?

最近,來自 USCD 和北航的研究者,就一邊 “ 玩遊戲 ”,一邊為 Cant 開發了一個數據集——DogWhistle,並且已經開源。

用遊戲收集資料

研究團隊根據經典桌遊「Decrypto(截碼戰)」進行改編,設計了「Decrypto Online」,利用其中的記錄收集資料。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

△Decrypto Online 玩家介面

概括而言,Decrypto 遊戲就是將 4 個玩家分為 2 隊,隊長提供線索詞 B,以便讓隊友把它和初始詞 A 關聯起來,同時要避免對手推斷出 A 詞。

具體來說,每個隊伍有序號 1-4 的四個初始詞,只有本隊成員可以知道這些詞。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

每一回合由 隊長抽取密碼卡,根據卡上的 3 個數字,給出對應序號詞的線索(Cant)。比如:初始詞 1 是 “ 黑色 ”,那麼 1 對應的線索詞可以用 “ 夜晚 ”。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

第一回閤中, 隊友根據線索詞,推斷卡上的數字,並由隊長公開是否正確。與此同時,對方將會記錄這些資訊。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

而在第二回合,隊長再次抽數字卡,並給出線索詞, 兩隊都要據此推斷數字,答案正確則記一分。

也就是說,隊長給出的線索詞,既要讓隊友對應到初始詞上,同時還要避免對手摸清其中的關聯。

任務設定

研究人員給模型設定了兩個子任務,初始詞分別為可見和不可見。

內部人員子任務模擬內部人員之間的通訊,第一行的 4 個初始詞作為輸入內容。由於 emoji 表情符號在交流中起著重要的作用,因此也被允許作為有效輸入。

模型透過初始詞和線索詞進行推斷,預測並輸出初始詞對應的序號 ( 灰色背景 ) 。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

而 外部人員子任務中,初始詞是不可見的。

模型透過猜詞記錄、線索詞等進行推斷,預測並輸出記錄對應的序號 ( 灰色背景 ) 。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

定量分析

為了解不同模型對 Cant 的理解能力,研究人員透過兩個子任務進行了定量分析。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

△兩個子任務的準確度得分對比

在詞嵌入相似度的測試中,用多樣化的大型資料集訓練的 DSG,效能顯著優於其他模型。

而具有更強計算能力的大尺寸模型,在內部任務中的表現顯著優於基礎尺寸模型。例如,RoBERTa-base 和 ERNIE-base,都優於 BERT-base。

此外,採用引數共享的 ALBERT-base,在兩個任務上都略微低於 BERT。

值得注意的是,在兩個任務中表現最好的模型,分別以 12。8 和 8。5 的較大差距,落後於人類的表現。

這表明 DogWhistle 是一個非常具有挑戰性的資料集,為下一代預訓練語言模型提供了新的競技場。

定性分析

研究人員還給出了在內部任務中,BERT 未能預測,但人類可以正確預測的代表性樣本。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

“Dancing Pallbearers(黑人抬棺舞)”在模型釋出後才出現,以至於模型可能對該話題的認識不多。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

對 “007”(指詹姆斯 · 邦德電影)的推理,需要模式對各種知識有高度理解,而不是過度擬合淺層的詞彙特徵,這也被認為是自然語言推理的主要缺陷。

還有“ 孩子都可以打醬油了 ”,也要求模型具有廣泛的語言知識才能理解。

研究人員將 DogWhistle 資料集作為中間任務,透過中間任務遷移學習來提高模型的效能。

首先,在內部子任務上對模型進行微調,然後在螞蟻金融問題匹配語料庫(AFQMC)和大型中文問題匹配語料庫(LCQMC)上,再次微調模型。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

△原始任務和中間任務中準確度得分

結果顯示,在兩個資料集上,DogWhistle 都幫助模型獲得了更好的效能。

作者簡介

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

論文一作 許燦文,曾在武漢大學就讀,目前是加州大學聖地亞哥分校(UCSD)的博士研究生。

他曾在微軟亞洲研究院實習,現在 Hugging Face 工作。主要研究方向包括:NLP 中的深度學習、自然語言生成和社交媒體分析。

華人小哥開發“黑話”資料集,AI:你連 dbq 都不知道,xswl!

論文二作 周王春澍,是北京航空航天大學計算機科學碩士,在微軟亞洲研究院實習,致力於 NLP 研究。

據作者介紹,這篇論文已經被 NAACL 2021 接收,資料集在 GitHub 上開源。

感興趣的讀者可戳文末連結瞭解詳情。

參考連結:

[ 1 ] https://arxiv。org/abs/2104。02704

[ 2 ] https://github。com/JetRunner/dogwhistle

[ 3 ] https://cseweb。ucsd。edu/~jmcauley/

[ 4 ] https://www。canwenxu。net/

[ 5 ] https://www。youtube。com/watch?v=2DBg7Z2-pQ4

[ 6 ] http://www。yihubg。com/blog-details/c4552cb2-3b6f-4123-9a80-8764ce98603e