愛伊米

手勢互動,到底靠不靠譜?

手勢互動,到底靠不靠譜?

話說,你用過手勢互動嗎?

這裡指的不是你打個響指,背後就會冒出幾十個壯漢一擁而上的那種手勢。

我們所說的汽車上的手勢互動,指的是車輛透過識別駕乘者的特定手勢,來啟用車輛的各種功能,甚至有可能進一步代替車內的各種物理或虛擬按鍵。

然而事實是,當下車內的隔空手勢,成為我們目前看到爭議最大的互動形式,沒有之一。

支持者表示:「手勢互動真是太酷了!代表了未來!」

反對者則有著各種各樣的理由,他們覺得手勢互動是噱頭、不準確、不安全……千言萬語匯成一句話:不靠譜兒。

按理說,手勢是最符合人類直覺的互動方式之一,嬰兒時期最先學會的感知方式就是抓和握。那為什麼會產生這麼大的分歧?車企們對待手勢識別互動的態度,又為什麼既渴望又謹慎?

所以,讓我們一起看看,車上的手勢互動,到底靠不靠譜兒。

手勢互動,到底靠不靠譜?

手勢互動,強在哪裡?

當下,物理按鍵為王的時代還沒有完全過去,但我們仍然看到了操控與互動變得越發多元化,語音、觸控、手勢、主動監測……萬變不離其宗的是,感知與智慧是實現這些互動方式的大前提。

就像行動電話經歷了「大哥大——單色屏功能機——全鍵盤智慧機——觸控式螢幕智慧機」這樣的進化過程,隨著硬體效能與網路連線能力的提高,更加多元化的互動方式也跟著水漲船高。

是的,自從連上網路,汽車也開始了屬於它的快速進化時期。

也許有人會問,現有的互動形式不靠譜嗎?為什麼還在做加法?

走出座艙平鋪開來看,在已有的互動模式中,各自了對應人類的五感:

觸控觸覺

語音聽覺

手勢視覺

這樣來看的話,時下最火的智慧語音也存在它的侷限性。打個比方,當你處於奔跑、潛水、傘降等運動、「說」與「聽」任何一邊的生理通道被佔滿或不可用時,觸覺與視覺的重要性就凸顯出來。

手勢互動,到底靠不靠譜?

麻省理工學院媒體實驗室講師、互動專家 David Rose 在他的文章《為什麼手勢會是下一個設計爆點》(Why Gesture is the Next Big Thing in Design)中提到,在分析研究結果後,將人們會選擇手勢而非語音或觸控,原因可以歸結為四點:

速度

——如果需要快速響應,手勢比說話(語音)更快。

距離

——如果需要跨越空間(距離)進行交流,做手勢(視覺)比動動嘴巴更容易。

簡潔

——如果不是需要一次說很多事情,手勢就比較好用。表達一定含義用到的手勢越簡潔,它就越容易被記住。例如,四指收攏、拇指向上來表示讚許、認可;反之則表示蔑視、輕視。

當強調錶現力勝過準確性時

——手勢非常適合表達情感。樂團指揮者所傳達的資訊,除了重拍和節奏之外,還有更多的含義,如甜美(原文為義大利語「dolco」)、著重(原文為義大利語「marcato」)、自信、悲傷、渴望等等。

手勢互動,到底靠不靠譜?

《星際迷航》(Star Trek)系列代表人物 Spock 的經典手勢

手勢互動,到底靠不靠譜?

《生活大爆炸》第四季中,Sheldon 擺出了 Spock 的經典手勢,意為「生生不息,繁榮昌盛」

手勢互動在車內的另外一個好處,就是使用者可以脫離實體輸入裝置的束縛,為使用者提供更大範圍、可以一定程度上模糊操作的互動方式。

作為最自然的溝通本能,車內手勢能夠極大地節約注意力和視覺通道的資源支出。

在完全自動駕駛實現之前,合理運用手勢互動可以有效減少駕乘人員分心,更寶貴的是,能夠與觸控和語音等互動方式形成重要的互補體系。

讓我們舉個直觀的例子。

GeekCar《智慧座艙情報局》欄目在 2021 年 11 月評測過一輛全新賓士 S 級轎車。這輛車搭載的 MBUX 智慧感應助理可以捕捉駕駛員的手部動作,來進行輔助互動。支援的手勢動作包括但不限於:

駕駛員將手放到後視鏡下方,就可以開啟和關閉前排閱讀燈;

駕駛員將手在後視鏡前方向前或向後揮手,就可以控制遮陽簾的開啟與關閉;

手勢互動,到底靠不靠譜?

在 Automotive UI 2019 的論文《基於手勢的介面對汽車應用安全性影像》(Effects of Gesture-based Interfaces on Safety in Automotive Applications)中,研究者以車內導航、溫度、娛樂等非駕駛任務的手勢互動為物件,將其對駕駛安全的影響進行了研究。

共計 25 人參加測試的實驗中,研究者基於駕駛資料和眼動儀資料進行了綜合分析。結果顯示,使用手勢的司機可能更有能力對突發狀況進行響應。研究人員沒有發現任何直接證據表明,儀表盤與手勢互動之間,在速度、速度方差、車道位置變化等駕駛表現上存在過大差異。

手勢互動,到底靠不靠譜?

需要強調的是,

互動方式有再多優勢,也無法脫離使用場景。

我們無法保證車內一直是獨屬一個人的私密空間,也無法保證車內的氛圍一直都適合用語音進行互動。讓我們舉個簡單但實際的例子,當家中的小朋友好不容易哄睡、在嬰兒床上擺個「大」字造型感睡得正香時,我寧願用手機開啟智慧家居 App 來控制家電,也不要冒著再次吵醒人類幼崽的風險用跟智慧音箱一來一回地互動、讓電器們幹活兒。

如大家所見,互動的進化是個特別有意思的過程,觀察人們對互動手段的態度轉變也是。

講個小故事。大概十幾年前,我在工作中偶遇一位美國的手機工程師老哥。恰逢我也要換新手機,於是就這個話題攀談起來。還記得老哥對自家手機的全鍵盤讚賞有加,而對 iPhone 的觸屏設計嗤之以鼻,數落出來手機沒有實體按鍵之後的種種不適。

有意思的是,我們話別之後,工程師老哥走出一段距離,轉頭衝我喊道:如果你實在不知道選什麼的話,iPhone 或許是個好的選擇。

至於後來的事情就不用說了,今天的我們都是親歷者。產品的開發和大眾的接受是個漫長的過程,互動方式的探索也如是。

事實是,手勢互動正式進入車內,到現在還不到 10 年的時間。其間陸續有車企和供應商將隔空手勢引入座艙,但總有批評的聲音質疑其「華而不實」。然而車企和供應商們並沒有放緩技術落地的腳步。

質疑聲中,車內手勢的發展沒有停下

2013 年,科技媒體 Engadget 的一份報告稱,谷歌提交了一項專利的申報,內容關於使用手部動作來更有效率地控制汽車。該專利依賴於安裝在座艙頂部的深度攝像頭和鐳射掃描器,來根據駕乘者的手部位置和動作來觸發車輛的相關功能。譬如在窗戶附近滑動,會自動搖下車窗;用手指向車載收音機,系統會自動提高音量。

手勢互動,到底靠不靠譜?

與此同時,車企們也沒有閒著。2014 年的美國 CES 上,起亞釋出了一款名為「KND-7」的概念車,該車就配備了手勢識別資訊互動系統。

手勢互動,到底靠不靠譜?

江淮汽車在 2014 年的北京車展上展出了 SC-9 概念車,搭載了名為 PHONEBOOK 的人機互動系統,基於 Windows 系統開發。緊貼中控屏的下方有一塊麵積不小的感應區。不僅能透過各種手勢識別操作車機,還支援隔空書寫功能,釋出時僅支援英文輸入。

手勢互動,到底靠不靠譜?

寶馬的手勢控制系統最開始在 2015 年推出的 G11/G12 7 繫上首次亮相,這也是隔空手勢第一次見於量產車型,供應商為美國德爾福。使用者只需在空氣中比劃一些預設的手勢,中控臺上方的 3D 感測區域就可以快速檢測和識別手勢動作,方便地控制音量或導航等功能。

手勢互動,到底靠不靠譜?

手勢互動,到底靠不靠譜?

比如,將食指指向前方並順時針旋轉就可以增大音量,逆時針旋轉則對應降低音量;衝著車機螢幕比個水平的 V 形手勢可以開啟或者關閉;在車機螢幕前揮動手掌可以拒接或忽略提示,用手指「單擊」空氣則對應接聽電話或確認提示。

手勢互動,到底靠不靠譜?

放眼國內,同樣的互動形式,自主品牌們給出了不一樣的答案。

2018 年上市的君馬 SEEK 5,提供了 9 種隔空手勢互動,由中控屏下方的專屬攝像頭進行識別。

手勢互動,到底靠不靠譜?

當有來電呼入時,衝著螢幕比出電話聽筒的手勢,正面代表接聽,反之代表結束通話。

手勢互動,到底靠不靠譜?

看到這裡,想起了某位互動設計師在文章中講過一個故事:一位年輕的幼兒園教師讓小朋友們一起表演打電話,小朋友們紛紛學著接聽手機的樣子把手掌貼到耳旁,只有他自己舉起了比「六」的手勢。這裡,文化的隔代與差異決定了認知的不同。

四指聚攏伸出拇指向左或向右,代表切歌。

手勢互動,到底靠不靠譜?

伸出手掌朝上運動示意「過來」代表音量增加,向下示意「坐下」的動作代表音量減小。

手勢互動,到底靠不靠譜?

水平的 V 形手勢操作音樂的播放與暫停,以及從攥拳到攤開手掌,螢幕上會出現一朵綻放的玫瑰花,儀式感該死甜美的。

手勢互動,到底靠不靠譜?

長城的 WEY 摩卡搭載了手勢召喚功能,車主可以在車外隔空徒手控車。

不得不說,任誰看到這一幕大概都會想起,自己在停車場管理人員的幫助下停車入位的場景,只不過原本的兩個人類,在這裡換成了一人一車。

手勢互動,到底靠不靠譜?

2021 年面市的福特 EVOS 上,長達 1。1 米、既能一分為二又能合二為一的螢幕令人印象深刻。為了讓使用者更好地用起來這塊螢幕,福特 EVOS 的團隊還設計了一系列互動手勢:

將食指放在嘴唇上比個「噓」的手勢,音樂就會自動暫停;

比個「OK」的手勢,音樂就會重新播放;

比個 V 形手勢,可以在分屏與全屏之間切換;

比個五指抓取的動作,就可以直接回到的主頁面。

手勢互動,到底靠不靠譜?

南拳北腿,隔空手勢背後的技術流派

前面說過,實現互動的大前提是感知與智慧。已知的主流手勢互動有兩大技術流派:

雷達派:

該流派的技術主要透過微型毫米雷達波監測手部動作,達到手勢識別的目的。

這裡就不能不說谷歌在 2015 年公佈的 Project Soli,一項透過運用微型雷達監測空中手勢動作的感測技術。透過特殊設計的雷達感測器追蹤毫米精確度的高速運動,然後將雷達訊號進行處理之後,識別成一系列通用的互動手勢。

手勢互動,到底靠不靠譜?

經過持續不斷地研發,Soli 雷達實現毫米級大小,所以能夠十分方便地塞進手機與可穿戴裝置之中。

手勢互動,到底靠不靠譜?

手勢互動,到底靠不靠譜?

手勢互動,到底靠不靠譜?

Project Soli 最著名的落地案例之一就是 2019 年穀歌釋出的 Pixel 4 手機,其藉助 Soli 雷達實現了名為 Motion Sense(運動感應)的技術。使用者無需接觸螢幕,就能透過隔空手勢實現一系列操控動作,比如切換音樂、靜音手機、調節鬧鐘聲音大小等等。Pixel 4 的面部解鎖也依靠毫米波,甚至對光線沒有任何要求,黑暗中也能完成解鎖。

手勢互動,到底靠不靠譜?

視覺派:

該流派透過計算機視覺來識別手部特徵點,應用相較前者更加廣泛。

儘管 Soli 雷達為代表的技術流派有著方向性強,抗環境干擾能力強等優點,但這不妨礙車企與供應商們對透過計算機視覺實現手勢操控的路徑青睞有加。

也許很多人還記得微軟 XBOX 系列遊戲主機上的 Kinect 體感外設。微軟 Kinect 採用的深度感應技術能夠自動捕獲人體的深度影象,並實時地跟蹤人體骨架,檢測到細微的動作變化。

手勢互動,到底靠不靠譜?

手勢識別技術由簡入深大致可以分為三個等級:二維手型識別、二維手勢識別、三維手勢識別。如果我們只需要滿足「播放/暫停」這類最基礎的控制,二維層面的手型/手勢+單個攝像頭捕捉的組合就足以滿足需求。像智慧電視上播放著流媒體影片的客廳場景,當我們要短暫離開又不想錯過內容時,只要做個簡單的手勢就能讓電視暫停播放。

但車內的空間感不像沙發與客廳這麼簡單,所以包含更加有深度資訊的三維手勢識別是必要的,相應攝像頭硬體的複雜程度也會增加。

支援微軟 Kinect 實現隔空互動的深度感應技術,前後兩代可以分別拆解出手勢互動的兩種主流技術路徑:

結構光(Structure Light)

光飛時間(Time of Flight)

,再加上

多角成像(Multi-Camera)

,就構成了手勢互動的三個主要視覺技術流派。

結構光(Structure Light)

代表應用:XBOX 360 上的初代 Kinect by 供應商 PrimeSense

原理:鐳射投射器發出的鐳射透過特定光柵進行投射成像時會發生偏折,使得鐳射在物體表面上的落點產生位移。使用攝像頭來檢測採集投射到物體表面上的圖樣,透過圖樣的位移變化,用演算法計算出物體的位置和深度資訊,進而復原出整個三維空間,根據已知圖案進行手勢的識別和判斷。

以 XBOX 360 上的第一代 Kinect 而言,只有在距離 1~4 米的特定範圍內才能實現最佳識別效果。這是因為該技術依賴於鐳射折射後產生的落點位移,所以太近太遠都不行,在應對物體反光干擾方面也不是很出色,但勝在技術相對成熟且功耗相對低。

手勢互動,到底靠不靠譜?

手勢互動,到底靠不靠譜?

光飛時間(Time of Flight)

代表應用:Intel 感知計算技術 by 供應商 SoftKinetic(已被 Sony 收購)、XBOX ONE 上的 Kinect 二代

原理:原理如名稱所示,也是三條技術路徑中最簡單的一條。由發光元件向被測目標連續傳送光訊號,然後在特別的 CMOS 感測器端接收從被測目標返回的光訊號,透過計算發射/接收光訊號的往返飛行時間,得出被測目標的距離。與結構光不同的是,裝置發射出去的不是散斑,而是面光源,所以理論工作距離範圍較前者更遠一些。

TOF 對理解上再簡化一些的話,TOF 類似於我們所熟知的蝙蝠的感知原理,只不過發射的不是超聲波,而是光訊號。TOF 的抗干擾性和識別距離相對更高,同時也被視為最有發展前景的手勢識別技術之一。

附帶一提,藉助近期理想 L9 的 劇透 傳播活動,3D TOF 技術又小火了一把。

手勢互動,到底靠不靠譜?

多角成像(Multi-Camera)

代表應用:凌感科技 Usens 的 Fingo 手勢互動模組、Leap Motion 公司的同名體感控制器

原理:使用兩個(或以上)攝像頭對當前環境進行拍攝,得到兩幅(或以上)針對同一環境的不同視角照片,根據幾何原理來計算深度資訊。因為複數攝像頭的各項引數以及彼此之間的相對位置是已知的,只要找出相同物體在不同畫面中的位置,就能透過演算法計算出被測物體的識別效果。

理解上簡化一些的話,雙目攝像頭就類似人類的雙眼,多目攝像頭就像昆蟲的複眼,透過演算法來形成多角三維成像。

多角成像在三者中屬於比較極端的一個。一方面,多角成像對硬體的要求是最低的,另一方面因為完全依賴於計算機視覺演算法,計算畸變資料對演算法要求又非常高。相比於結構光與 TOF 技術,多角成像的實際功耗要低得多,強光環境下抗干擾性優秀,算是一種物美價廉的手勢識別技術路徑。

手勢互動,到底靠不靠譜?

圖片來源:智東西《華為小米 OV 手機 AI 大戰的幫兇!》

所以,手勢互動到底靠不靠譜?

讓我們回到標題中的問題,手勢互動到底靠不靠譜兒?

我的答案是肯定的。 不管是現在還是完全自動駕駛實現的將來,車內的手勢互動都有著巨大的應用潛力,只是現在還為時尚早。

車企們和供應商們已經很難在物理按鍵上再玩出什麼花活了,在觸控屏的形狀、尺寸、材質上大做文章一時半會兒又沒能內卷出革命性的實用創新,只有風頭正盛的智慧語音還在技術發展的行業紅利期。

留給手勢的發展空間不小,技術限制只是一方面,事實是現實中存在大量需要 HMI 設計師、產品經理和供應商們考慮和解決的問題。

手勢互動,到底靠不靠譜?

01

識別率與穩定性

人工智慧領域一直以來面臨的最大挑戰之一,就是如何讓不具備人類常識和通識的智慧去理解現實世界。演算法如何區分人類的真實互動意圖,和那些意外、不經意、自然而然的手勢?

表象是使用者認為自己做對了手勢,系統卻不能正確識別;使用者不經意間的手勢動作,卻被系統「精準」捕捉並執行。

2021 年我們進行智慧座艙評測工作時,某次車內攝像頭根據捕捉到的影象,反覆意外觸發了車內吸菸感知,並進行強制開窗換氣。但當時我只是在思考問題時,習慣性做出手扶下巴的動作。這種小意外貫穿了整個工作過程,雖然還說不上不堪其擾,但觀感仍然不好。

背後可能的原因有很多,如果環境干擾影響、演算法識別閾值過高、超出識別範圍、動作不標準等等。但一味提升識別率絕不是正確的解決方法,就好比座艙語音中的免喚醒是個很好的特性,但無腦的全域性免喚醒會讓系統分不清使用者是指令互動、自言自語還是跟別人說話,會造成大量困擾。

如果手勢不能有效區分這些動作背後的意圖,不穩定的表現會更加令人困擾。技術限制當用戶需要不情願地付出時間和注意力成本去撫平這些意外的麻煩,或是在需要用到的時候無法得到期待中的正確迴應,那對互動來說便是真正的本末倒置了。

手勢互動,到底靠不靠譜?

02

文化異同性

前面舉過幼兒園小朋友打電話的例子,我們能看到,只不過是從 90 後到 10 後的時間跨度,對「打電話」這個動作的認知就是已經完全不一樣。這代表了手勢意義的表達受到了代際文化的影響。

已經成為全球通用手勢的「OK」,這兩年經社交網路衍生出的用法,又讓韓國的年輕男性們破了大防,已經嚴重到了宣傳中類似的符號一旦遭到公眾質疑,品牌就要取消並道歉的程度。

手勢互動,到底靠不靠譜?

讓我們再舉個簡單的例子。

就拿女孩子們拍照時最喜歡擺的剪刀手造型來說,英語文化裡稱作和平手勢(peace gesture),又有表示勝利(victory)的意思;手背衝著對方比出的 V 字手勢在英國代表了一種十分具有進攻性的冒犯意味,一說是在英法百年戰爭時期的阿金庫爾戰役中,被英格蘭長弓手們用來向那些戰前放狠話要廢了他們功夫的法軍嘲笑和炫耀。後來,「勝利與和平」手勢又透過時任英國首相溫斯頓·丘吉爾在二戰時期的那張著名照片,無意間被髮揚光大。

看似簡單的手勢包含了無數的可能性,不同手勢在不同國家,也被賦予了完全不同的意義。

所以 HMI 設計師與產品經理們在設計手勢時,也需要更多考慮各地的文化背景和風俗習慣。

手勢互動,到底靠不靠譜?

03

學習成本

你能記住幾組互動手勢?對我來說,常用的三、四組已經是極限了。

華為在近年來的旗艦手機上大膽應用了幾組隔空手勢,比如手心朝前五指抓取的動作代表截圖、上下甩手代表縱向滑動等等。

好用嗎?確實在多數場景裡,還挺好用的。實際情況是,日常使用 Mate 30 Pro 的那段時間裡只有隔空截圖比較常用,還得是在光線相對充足的環境中才能實現。

手勢互動,到底靠不靠譜?

我認為華為在這方面已經十分克制。眾所周知,人類的手部姿態千變萬化。京劇大師梅蘭芳先生髮明的梅派五十三式蘭花指法,單是看圖鑑就已經讓人眼花繚亂。

手勢互動,到底靠不靠譜?

當然,梅先生的蘭花指法是以藝術表達為核心的,與強調工具性的手勢互動有很大區別。

手勢既然是以直覺為出發點的互動,設計也需要更加符合人類直覺,容易被記住,容易被使用,容易成為習慣。

以我們需要的是——

每次有新技術產品問世的時候,人們總是喜歡講「未來已來」。

讓我們褪去浪漫主義的外衣,技術的研發、產品的規劃、預期的傳達、反饋與迭代實際上是個無比漫長的過程。一步到位只能是美好的願景,不然研發行為本身也沒了意義。

手勢互動對於觸控、語音來說是很好的補充,甚至基於一些場景或個人意願下會優於前兩者。當然,不同的感知方法與互動之間彼此結合、相互配合,要比單獨指望一種極為發達的感官,要更符合產品迭代的邏輯,物種進化亦是如此。

就像前面提到的誤喚醒現象,如果車內攝像頭能夠和 AQS 空氣質量感測器讀數相配合來判斷的話,就會知道我只是在沉思時習慣性地扶著下巴,而不是在吸菸,更不是在耍酷。

我相信這個未來不會太久。

行家說

手勢互動,到底靠不靠譜?

任何一種解決方案都是能夠有效地解決某個有價值的艱鉅問題時才有價值。手勢互動的問題在於,它沒有突破性地解決座艙互動的顯著問題。

座艙互動的核心瓶頸,在於激增的任務複雜度和低視覺認知資源投入的矛盾。

既要使用者輕鬆、安全地開車,又要完成設定目的地、瀏覽選擇歌曲這樣的複雜任務。

而手勢互動,尤其是隔空手勢互動,相比觸控、語音和實體互動,並沒有辦法解決上述瓶頸,只會帶來更大的麻煩。這包括,手勢需要使用者重新學習,手勢的 sensor 本身準確度不足導致誤操作,手部懸空所導致的手部疲勞。

在觸控式螢幕上少量的手勢互動是可以考慮的,比如返回上一級、返回首頁。這些少而精的手勢必須簡單易學、符合直覺,且只能作為備用的高階操作提供給熟練使用者。普通使用者仍然需要「可見」的控制元件,從而避免學習門檻。