北大劉利斌團隊斬獲 SIGGRAPH Asia 2022 最佳論文獎：用語音和文字驅動數字人打手勢

一個由語音和文字組成的新的跨模態生成系統。

作者 | 黃楠

編輯 | 陳彩嫻

2022 年 12 月 6 日，SIGGRAPH Asia 2022 大會官方公佈了最佳論文等多個獎項。其中，最佳論文獎由北京大學劉利斌團隊的論文“Rhythmic Gesticulator： Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings”獲得，論文第一作者為北京大學 2020 級研究生敖騰隆。

論文連結：https：//arxiv。org/pdf/2210。01448。pdf

在日常生活中，我們的語言行為時常會伴隨著一些非語言的動作進行：在公開演講時使用手勢讓內容更有感染力，一個突然降臨的好訊息令人不由自主地鼓掌，陷入沉思時的來回走動和緊握的拳頭……這些非語言的動作像是“調味劑”，有時可以幫助形象化我們口頭所說的一件事物，強化語言所傳遞的態度，讓人類的表達才會更加生動且高效。

在這項工作中，劉利斌團隊提出了一個新的由語音和文字來驅動3D上半身人體模型進行手勢表演的跨模態生成系統，透過輸入一段時序同步的語音和文字，系統就能自動生成與之對應的上半身手勢。

圖 1：系統概覽圖

一段手勢動作由單個手勢單元（gesture unit）組成，其中，每個手勢單元可根據語調點、例如強調重音等，被劃分為單個手勢階段（gesture phase），每個手勢階段就代表了一小段特定的動作，比如抬手、擺臂等，在語言學中，這些手勢階段通常被稱為手勢詞（gesture lexeme）。由於日常交流中的手勢詞數目有限，將這些手勢詞進行集合後，即可獲得一個手勢詞典（gesture lexicon）。

特定演講者在講述過程中使用的手勢詞，就是手勢詞典中的子集，每個手勢詞上還會疊加輕微的變動（variation），研究人員透過假設此類表動無法直接由輸入推斷，將其編碼為一些隱變數（latent variable），這些代表輕微變動隱變數的手勢風格編碼（gesture style code）。演講者風格不同，因此手勢風格編碼一般跟演講者的風格相關，會受到演講者的音調等低層次音訊特徵影響。

圖 2：系統所使用的字元模型

對此，該系統依據手勢相關的語言學研究理論，從韻律和語義兩個維度出發，對語音文字和手勢之間的關係進行建模，從而保證生成的手勢動作既韻律匹配又具備合理的語義。

基於上述理論，劉利斌團隊梳理了一個層次化結構：需要檢測節奏點（beat），劃分出手勢詞，每個手勢詞本質上已具備明確含義，由輸入語音的高層次語義特徵決定；而基於每個手勢詞的變動，即手勢風格編碼，應該與輸入語音的低層次音訊特徵，例如音調、音強等因素相關。

因此在系統中，研究人員首先需要分離出不同層次的音訊特徵，由高層次音訊特徵決定手勢詞，低層次音訊特徵決定手勢風格編碼。當推斷出整段音訊對應的手勢詞和手勢風格編碼序列後，依照檢測出的節奏，研究團隊會顯式地將上述手勢塊“拼接”起來，確保生成的手勢韻律和諧，同時明確的手勢詞和手勢風格編碼保證了生成手勢的語義正確性。

圖 3：第一行為右手高度、第二行為手速、第三行為手半徑的樣式編輯結果，右側圖表顯示編輯輸入（平線）和輸出運動的相應值，箱形圖顯示輸出的統計資料

系統由資料（Data）模組、訓練（Training）模組和推斷（Inference）模組三個部分組成。

其中，資料模組的任務是對語音進行預處理，根據節拍將語音分割成標準化塊，並從這些塊中提取出語音特徵。此次研究中共使用了三個資料集，分別是 Trinity 資料集、TED 資料集、以及為這項工作所收集的中文資料集。

訓練模組會從標準化運動塊中學習手勢詞彙，並訓練生成器合成手勢序列，當中要考慮的條件就包括了手勢詞典、風格程式碼以及先前運動塊和相鄰語音塊的特徵。隨後的推理模組中，會使用直譯器將語音特徵轉換為手勢詞典和風格程式碼，並使用學習生成器來預測未來的手勢。

圖 4：藉助系統從 Trinity Gesture 資料集的四個樣本語音摘錄中合成的手勢的定性結果，在說“好”時會做出一個隱喻的手勢，當在捍衛時會做出一個標誌性的手勢，遇到 thing 和 selling 等詞會做出節拍手勢，當說到“我”時會出現指示手勢

為了驗證該研究是否可以實現“高層次音訊特徵決定偏語義的手勢詞，低層次音訊特徵則影響當前手勢詞內的輕微變動”，劉利斌團隊透過找到一類相似語義的高層次音訊特徵，其對應的文字為 many、quite a few、lots of、much、and more 等，就這類高層次音訊特徵的每個音訊特徵對應生成的手勢序列，並對這些手勢序列編碼到手勢詞典空間進行視覺化（圖 4）。

圖 5：手勢詞典空間動作特徵向量的 t-SNE 視覺化結果

可以發現，手勢動作序列僅出現在特定的手勢詞內，當中所出現的手勢詞對應的動作，圖 5（a）中的紅、橙和紫色所對應的骨骼動作），的確為“many、lots of、 etc”的意思表徵。與之相對應的是，當對同類的低層次音訊特徵進行視覺化後，如圖 5（b）可見，屬於該低層次音訊特徵類的動作序列不再集中於特定幾類，而分散到整個手勢詞典空間內，由此可以驗證“高層次音訊特徵決定偏語義的手勢詞”。

圖 6：手勢詞典空間動作特徵向量的 t-SNE 視覺化結果

當不加入手勢風格編碼 z 時，如圖 6（a）所示，所生成的手勢密集地集中在當前手勢詞的類中心，於真值分佈存在較大差距。當加入手勢風格編碼後，如圖 6（c）所示，所生成的手勢跟真值分佈接近，這說明手勢風格編碼已成功建模了手勢詞的類內輕微變動。由此可以看到，手勢風格編碼主要由低層次音訊特徵推斷得到，從而證明“低層次音訊特徵影響當前手勢詞內的輕微變動”。

除了上述結果外，該系統還具備以下幾項特性：

跨語言生成，即使面對資料集沒有的語言，也能生成韻律和諧的手勢；長音訊生成，能夠面對較長的輸入音訊序列

手勢風格編輯，透過加入控制訊號可以控制生成手勢的風格

無聲狀態下儘量減少多餘的手勢動作

輸入一些特定音樂可魯棒地捕捉其節奏並隨之“擺動”

劉利斌，北京大學人工智慧研究院前沿計算研究中心助理教授，2009年本科畢業於清華大學數理基礎科學專業，後轉向計算機科學與技術專業，2014年獲得清華大學博士學位，曾在加拿大不列顛哥倫比亞大學及美國迪士尼研究院進行博士後研究，之後加入 DeepMotion Inc。任首席科學家。劉利斌教授的主要研究方向是計算機圖形學、物理模擬、運動控制以及相關的最佳化控制、機器學習、增強學習等領域，曾多次擔任圖形學主要國際會議如 SIGGRAPH、PacificGraphics、Eurographics 等的論文程式委員。

參考連結：

1。https：//sa2022。siggraph。org/en/

2。https：//github。com/Aubrey-ao/HumanBehaviorAnimation

更多內容

，點選下方關注：