手勢互動，到底靠不靠譜？

話說，你用過手勢互動嗎？

這裡指的不是你打個響指，背後就會冒出幾十個壯漢一擁而上的那種手勢。

我們所說的汽車上的手勢互動，指的是車輛透過識別駕乘者的特定手勢，來啟用車輛的各種功能，甚至有可能進一步代替車內的各種物理或虛擬按鍵。

然而事實是，當下車內的隔空手勢，成為我們目前看到爭議最大的互動形式，沒有之一。

支持者表示：「手勢互動真是太酷了！代表了未來！」

反對者則有著各種各樣的理由，他們覺得手勢互動是噱頭、不準確、不安全……千言萬語匯成一句話：不靠譜兒。

按理說，手勢是最符合人類直覺的互動方式之一，嬰兒時期最先學會的感知方式就是抓和握。那為什麼會產生這麼大的分歧？車企們對待手勢識別互動的態度，又為什麼既渴望又謹慎？

所以，讓我們一起看看，車上的手勢互動，到底靠不靠譜兒。

手勢互動，強在哪裡？

當下，物理按鍵為王的時代還沒有完全過去，但我們仍然看到了操控與互動變得越發多元化，語音、觸控、手勢、主動監測……萬變不離其宗的是，感知與智慧是實現這些互動方式的大前提。

就像行動電話經歷了「大哥大——單色屏功能機——全鍵盤智慧機——觸控式螢幕智慧機」這樣的進化過程，隨著硬體效能與網路連線能力的提高，更加多元化的互動方式也跟著水漲船高。

是的，自從連上網路，汽車也開始了屬於它的快速進化時期。

也許有人會問，現有的互動形式不靠譜嗎？為什麼還在做加法？

走出座艙平鋪開來看，在已有的互動模式中，各自了對應人類的五感：

觸控觸覺

語音聽覺

手勢視覺

這樣來看的話，時下最火的智慧語音也存在它的侷限性。打個比方，當你處於奔跑、潛水、傘降等運動、「說」與「聽」任何一邊的生理通道被佔滿或不可用時，觸覺與視覺的重要性就凸顯出來。

麻省理工學院媒體實驗室講師、互動專家 David Rose 在他的文章《為什麼手勢會是下一個設計爆點》（Why Gesture is the Next Big Thing in Design）中提到，在分析研究結果後，將人們會選擇手勢而非語音或觸控，原因可以歸結為四點：

速度

——如果需要快速響應，手勢比說話（語音）更快。

距離

——如果需要跨越空間（距離）進行交流，做手勢（視覺）比動動嘴巴更容易。

簡潔

——如果不是需要一次說很多事情，手勢就比較好用。表達一定含義用到的手勢越簡潔，它就越容易被記住。例如，四指收攏、拇指向上來表示讚許、認可；反之則表示蔑視、輕視。

當強調錶現力勝過準確性時

——手勢非常適合表達情感。樂團指揮者所傳達的資訊，除了重拍和節奏之外，還有更多的含義，如甜美（原文為義大利語「dolco」）、著重（原文為義大利語「marcato」）、自信、悲傷、渴望等等。

《星際迷航》（Star Trek）系列代表人物 Spock 的經典手勢

《生活大爆炸》第四季中，Sheldon 擺出了 Spock 的經典手勢，意為「生生不息，繁榮昌盛」

手勢互動在車內的另外一個好處，就是使用者可以脫離實體輸入裝置的束縛，為使用者提供更大範圍、可以一定程度上模糊操作的互動方式。

作為最自然的溝通本能，車內手勢能夠極大地節約注意力和視覺通道的資源支出。

在完全自動駕駛實現之前，合理運用手勢互動可以有效減少駕乘人員分心，更寶貴的是，能夠與觸控和語音等互動方式形成重要的互補體系。

讓我們舉個直觀的例子。

GeekCar《智慧座艙情報局》欄目在 2021 年 11 月評測過一輛全新賓士 S 級轎車。這輛車搭載的 MBUX 智慧感應助理可以捕捉駕駛員的手部動作，來進行輔助互動。支援的手勢動作包括但不限於：

駕駛員將手放到後視鏡下方，就可以開啟和關閉前排閱讀燈；

駕駛員將手在後視鏡前方向前或向後揮手，就可以控制遮陽簾的開啟與關閉；

在 Automotive UI 2019 的論文《基於手勢的介面對汽車應用安全性影像》（Effects of Gesture-based Interfaces on Safety in Automotive Applications）中，研究者以車內導航、溫度、娛樂等非駕駛任務的手勢互動為物件，將其對駕駛安全的影響進行了研究。

共計 25 人參加測試的實驗中，研究者基於駕駛資料和眼動儀資料進行了綜合分析。結果顯示，使用手勢的司機可能更有能力對突發狀況進行響應。研究人員沒有發現任何直接證據表明，儀表盤與手勢互動之間，在速度、速度方差、車道位置變化等駕駛表現上存在過大差異。

需要強調的是，

互動方式有再多優勢，也無法脫離使用場景。

我們無法保證車內一直是獨屬一個人的私密空間，也無法保證車內的氛圍一直都適合用語音進行互動。讓我們舉個簡單但實際的例子，當家中的小朋友好不容易哄睡、在嬰兒床上擺個「大」字造型感睡得正香時，我寧願用手機開啟智慧家居 App 來控制家電，也不要冒著再次吵醒人類幼崽的風險用跟智慧音箱一來一回地互動、讓電器們幹活兒。

如大家所見，互動的進化是個特別有意思的過程，觀察人們對互動手段的態度轉變也是。

講個小故事。大概十幾年前，我在工作中偶遇一位美國的手機工程師老哥。恰逢我也要換新手機，於是就這個話題攀談起來。還記得老哥對自家手機的全鍵盤讚賞有加，而對 iPhone 的觸屏設計嗤之以鼻，數落出來手機沒有實體按鍵之後的種種不適。

有意思的是，我們話別之後，工程師老哥走出一段距離，轉頭衝我喊道：如果你實在不知道選什麼的話，iPhone 或許是個好的選擇。

至於後來的事情就不用說了，今天的我們都是親歷者。產品的開發和大眾的接受是個漫長的過程，互動方式的探索也如是。

事實是，手勢互動正式進入車內，到現在還不到 10 年的時間。其間陸續有車企和供應商將隔空手勢引入座艙，但總有批評的聲音質疑其「華而不實」。然而車企和供應商們並沒有放緩技術落地的腳步。

質疑聲中，車內手勢的發展沒有停下

2013 年，科技媒體 Engadget 的一份報告稱，谷歌提交了一項專利的申報，內容關於使用手部動作來更有效率地控制汽車。該專利依賴於安裝在座艙頂部的深度攝像頭和鐳射掃描器，來根據駕乘者的手部位置和動作來觸發車輛的相關功能。譬如在窗戶附近滑動，會自動搖下車窗；用手指向車載收音機，系統會自動提高音量。

與此同時，車企們也沒有閒著。2014 年的美國 CES 上，起亞釋出了一款名為「KND-7」的概念車，該車就配備了手勢識別資訊互動系統。

江淮汽車在 2014 年的北京車展上展出了 SC-9 概念車，搭載了名為 PHONEBOOK 的人機互動系統，基於 Windows 系統開發。緊貼中控屏的下方有一塊麵積不小的感應區。不僅能透過各種手勢識別操作車機，還支援隔空書寫功能，釋出時僅支援英文輸入。

寶馬的手勢控制系統最開始在 2015 年推出的 G11/G12 7 繫上首次亮相，這也是隔空手勢第一次見於量產車型，供應商為美國德爾福。使用者只需在空氣中比劃一些預設的手勢，中控臺上方的 3D 感測區域就可以快速檢測和識別手勢動作，方便地控制音量或導航等功能。

比如，將食指指向前方並順時針旋轉就可以增大音量，逆時針旋轉則對應降低音量；衝著車機螢幕比個水平的 V 形手勢可以開啟或者關閉；在車機螢幕前揮動手掌可以拒接或忽略提示，用手指「單擊」空氣則對應接聽電話或確認提示。

放眼國內，同樣的互動形式，自主品牌們給出了不一樣的答案。

2018 年上市的君馬 SEEK 5，提供了 9 種隔空手勢互動，由中控屏下方的專屬攝像頭進行識別。

當有來電呼入時，衝著螢幕比出電話聽筒的手勢，正面代表接聽，反之代表結束通話。

看到這裡，想起了某位互動設計師在文章中講過一個故事：一位年輕的幼兒園教師讓小朋友們一起表演打電話，小朋友們紛紛學著接聽手機的樣子把手掌貼到耳旁，只有他自己舉起了比「六」的手勢。這裡，文化的隔代與差異決定了認知的不同。

四指聚攏伸出拇指向左或向右，代表切歌。

伸出手掌朝上運動示意「過來」代表音量增加，向下示意「坐下」的動作代表音量減小。

水平的 V 形手勢操作音樂的播放與暫停，以及從攥拳到攤開手掌，螢幕上會出現一朵綻放的玫瑰花，儀式感該死甜美的。

長城的 WEY 摩卡搭載了手勢召喚功能，車主可以在車外隔空徒手控車。

不得不說，任誰看到這一幕大概都會想起，自己在停車場管理人員的幫助下停車入位的場景，只不過原本的兩個人類，在這裡換成了一人一車。

2021 年面市的福特 EVOS 上，長達 1。1 米、既能一分為二又能合二為一的螢幕令人印象深刻。為了讓使用者更好地用起來這塊螢幕，福特 EVOS 的團隊還設計了一系列互動手勢：

將食指放在嘴唇上比個「噓」的手勢，音樂就會自動暫停；

比個「OK」的手勢，音樂就會重新播放；

比個 V 形手勢，可以在分屏與全屏之間切換；

比個五指抓取的動作，就可以直接回到的主頁面。

南拳北腿，隔空手勢背後的技術流派

前面說過，實現互動的大前提是感知與智慧。已知的主流手勢互動有兩大技術流派：

雷達派：

該流派的技術主要透過微型毫米雷達波監測手部動作，達到手勢識別的目的。

這裡就不能不說谷歌在 2015 年公佈的 Project Soli，一項透過運用微型雷達監測空中手勢動作的感測技術。透過特殊設計的雷達感測器追蹤毫米精確度的高速運動，然後將雷達訊號進行處理之後，識別成一系列通用的互動手勢。

經過持續不斷地研發，Soli 雷達實現毫米級大小，所以能夠十分方便地塞進手機與可穿戴裝置之中。

Project Soli 最著名的落地案例之一就是 2019 年穀歌釋出的 Pixel 4 手機，其藉助 Soli 雷達實現了名為 Motion Sense（運動感應）的技術。使用者無需接觸螢幕，就能透過隔空手勢實現一系列操控動作，比如切換音樂、靜音手機、調節鬧鐘聲音大小等等。Pixel 4 的面部解鎖也依靠毫米波，甚至對光線沒有任何要求，黑暗中也能完成解鎖。

視覺派：

該流派透過計算機視覺來識別手部特徵點，應用相較前者更加廣泛。

儘管 Soli 雷達為代表的技術流派有著方向性強，抗環境干擾能力強等優點，但這不妨礙車企與供應商們對透過計算機視覺實現手勢操控的路徑青睞有加。

也許很多人還記得微軟 XBOX 系列遊戲主機上的 Kinect 體感外設。微軟 Kinect 採用的深度感應技術能夠自動捕獲人體的深度影象，並實時地跟蹤人體骨架，檢測到細微的動作變化。

手勢識別技術由簡入深大致可以分為三個等級：二維手型識別、二維手勢識別、三維手勢識別。如果我們只需要滿足「播放/暫停」這類最基礎的控制，二維層面的手型/手勢+單個攝像頭捕捉的組合就足以滿足需求。像智慧電視上播放著流媒體影片的客廳場景，當我們要短暫離開又不想錯過內容時，只要做個簡單的手勢就能讓電視暫停播放。

但車內的空間感不像沙發與客廳這麼簡單，所以包含更加有深度資訊的三維手勢識別是必要的，相應攝像頭硬體的複雜程度也會增加。

支援微軟 Kinect 實現隔空互動的深度感應技術，前後兩代可以分別拆解出手勢互動的兩種主流技術路徑：

結構光（Structure Light）

和

光飛時間（Time of Flight）

，再加上

多角成像（Multi-Camera）

，就構成了手勢互動的三個主要視覺技術流派。

結構光（Structure Light）

代表應用：XBOX 360 上的初代 Kinect by 供應商 PrimeSense

原理：鐳射投射器發出的鐳射透過特定光柵進行投射成像時會發生偏折，使得鐳射在物體表面上的落點產生位移。使用攝像頭來檢測採集投射到物體表面上的圖樣，透過圖樣的位移變化，用演算法計算出物體的位置和深度資訊，進而復原出整個三維空間，根據已知圖案進行手勢的識別和判斷。

以 XBOX 360 上的第一代 Kinect 而言，只有在距離 1~4 米的特定範圍內才能實現最佳識別效果。這是因為該技術依賴於鐳射折射後產生的落點位移，所以太近太遠都不行，在應對物體反光干擾方面也不是很出色，但勝在技術相對成熟且功耗相對低。

光飛時間（Time of Flight）

代表應用：Intel 感知計算技術 by 供應商 SoftKinetic（已被 Sony 收購）、XBOX ONE 上的 Kinect 二代

原理：原理如名稱所示，也是三條技術路徑中最簡單的一條。由發光元件向被測目標連續傳送光訊號，然後在特別的 CMOS 感測器端接收從被測目標返回的光訊號，透過計算發射/接收光訊號的往返飛行時間，得出被測目標的距離。與結構光不同的是，裝置發射出去的不是散斑，而是面光源，所以理論工作距離範圍較前者更遠一些。

TOF 對理解上再簡化一些的話，TOF 類似於我們所熟知的蝙蝠的感知原理，只不過發射的不是超聲波，而是光訊號。TOF 的抗干擾性和識別距離相對更高，同時也被視為最有發展前景的手勢識別技術之一。

附帶一提，藉助近期理想 L9 的劇透傳播活動，3D TOF 技術又小火了一把。

多角成像（Multi-Camera）

代表應用：凌感科技 Usens 的 Fingo 手勢互動模組、Leap Motion 公司的同名體感控制器

原理：使用兩個（或以上）攝像頭對當前環境進行拍攝，得到兩幅（或以上）針對同一環境的不同視角照片，根據幾何原理來計算深度資訊。因為複數攝像頭的各項引數以及彼此之間的相對位置是已知的，只要找出相同物體在不同畫面中的位置，就能透過演算法計算出被測物體的識別效果。

理解上簡化一些的話，雙目攝像頭就類似人類的雙眼，多目攝像頭就像昆蟲的複眼，透過演算法來形成多角三維成像。

多角成像在三者中屬於比較極端的一個。一方面，多角成像對硬體的要求是最低的，另一方面因為完全依賴於計算機視覺演算法，計算畸變資料對演算法要求又非常高。相比於結構光與 TOF 技術，多角成像的實際功耗要低得多，強光環境下抗干擾性優秀，算是一種物美價廉的手勢識別技術路徑。