華人小哥開發 “ 黑話 ” 資料集,AI:你連 dbq 都不知道,xswl!| NAACL 2021
提到 “007”,你一定會想到詹姆斯 · 邦德。
這樣具有隱藏含義的詞,可以統稱為 Cant,包括暗語、隱語、行話等。
常見的,比如 “666”,還有 zqsg、xswl 等網路 “ 暗語 ” ……
對這些詞的理解,在日常生活、廣告和喜劇中都十分重要。
那麼,怎麼能讓 AI 理解它們?
最近,來自 USCD 和北航的研究者,就一邊 “ 玩遊戲 ”,一邊為 Cant 開發了一個數據集——DogWhistle,並且已經開源。
用遊戲收集資料
研究團隊根據經典桌遊「Decrypto(截碼戰)」進行改編,設計了「Decrypto Online」,利用其中的記錄收集資料。
△Decrypto Online 玩家介面
概括而言,Decrypto 遊戲就是將 4 個玩家分為 2 隊,隊長提供線索詞 B,以便讓隊友把它和初始詞 A 關聯起來,同時要避免對手推斷出 A 詞。
具體來說,每個隊伍有序號 1-4 的四個初始詞,只有本隊成員可以知道這些詞。
每一回合由 隊長抽取密碼卡,根據卡上的 3 個數字,給出對應序號詞的線索(Cant)。比如:初始詞 1 是 “ 黑色 ”,那麼 1 對應的線索詞可以用 “ 夜晚 ”。
第一回閤中, 隊友根據線索詞,推斷卡上的數字,並由隊長公開是否正確。與此同時,對方將會記錄這些資訊。
而在第二回合,隊長再次抽數字卡,並給出線索詞, 兩隊都要據此推斷數字,答案正確則記一分。
也就是說,隊長給出的線索詞,既要讓隊友對應到初始詞上,同時還要避免對手摸清其中的關聯。
任務設定
研究人員給模型設定了兩個子任務,初始詞分別為可見和不可見。
內部人員子任務模擬內部人員之間的通訊,第一行的 4 個初始詞作為輸入內容。由於 emoji 表情符號在交流中起著重要的作用,因此也被允許作為有效輸入。
模型透過初始詞和線索詞進行推斷,預測並輸出初始詞對應的序號 ( 灰色背景 ) 。
而 外部人員子任務中,初始詞是不可見的。
模型透過猜詞記錄、線索詞等進行推斷,預測並輸出記錄對應的序號 ( 灰色背景 ) 。
定量分析
為了解不同模型對 Cant 的理解能力,研究人員透過兩個子任務進行了定量分析。
△兩個子任務的準確度得分對比
在詞嵌入相似度的測試中,用多樣化的大型資料集訓練的 DSG,效能顯著優於其他模型。
而具有更強計算能力的大尺寸模型,在內部任務中的表現顯著優於基礎尺寸模型。例如,RoBERTa-base 和 ERNIE-base,都優於 BERT-base。
此外,採用引數共享的 ALBERT-base,在兩個任務上都略微低於 BERT。
值得注意的是,在兩個任務中表現最好的模型,分別以 12。8 和 8。5 的較大差距,落後於人類的表現。
這表明 DogWhistle 是一個非常具有挑戰性的資料集,為下一代預訓練語言模型提供了新的競技場。
定性分析
研究人員還給出了在內部任務中,BERT 未能預測,但人類可以正確預測的代表性樣本。
“Dancing Pallbearers(黑人抬棺舞)”在模型釋出後才出現,以至於模型可能對該話題的認識不多。
對 “007”(指詹姆斯 · 邦德電影)的推理,需要模式對各種知識有高度理解,而不是過度擬合淺層的詞彙特徵,這也被認為是自然語言推理的主要缺陷。
還有“ 孩子都可以打醬油了 ”,也要求模型具有廣泛的語言知識才能理解。
研究人員將 DogWhistle 資料集作為中間任務,透過中間任務遷移學習來提高模型的效能。
首先,在內部子任務上對模型進行微調,然後在螞蟻金融問題匹配語料庫(AFQMC)和大型中文問題匹配語料庫(LCQMC)上,再次微調模型。
△原始任務和中間任務中準確度得分
結果顯示,在兩個資料集上,DogWhistle 都幫助模型獲得了更好的效能。
作者簡介
論文一作 許燦文,曾在武漢大學就讀,目前是加州大學聖地亞哥分校(UCSD)的博士研究生。
他曾在微軟亞洲研究院實習,現在 Hugging Face 工作。主要研究方向包括:NLP 中的深度學習、自然語言生成和社交媒體分析。
論文二作 周王春澍,是北京航空航天大學計算機科學碩士,在微軟亞洲研究院實習,致力於 NLP 研究。
據作者介紹,這篇論文已經被 NAACL 2021 接收,資料集在 GitHub 上開源。
感興趣的讀者可戳文末連結瞭解詳情。
參考連結:
[ 1 ] https://arxiv。org/abs/2104。02704
[ 2 ] https://github。com/JetRunner/dogwhistle
[ 3 ] https://cseweb。ucsd。edu/~jmcauley/
[ 4 ] https://www。canwenxu。net/
[ 5 ] https://www。youtube。com/watch?v=2DBg7Z2-pQ4
[ 6 ] http://www。yihubg。com/blog-details/c4552cb2-3b6f-4123-9a80-8764ce98603e