一場屬於理想的“科技日”

理想 L9 釋出會的第二天，理想汽車舉行了一場媒體溝通會，在 QA 環節開始之前，按照慣例請出了各個板塊的負責人，對 L9 進行了基本的講解，但是隨著講解的逐漸深入，我發現與其說這是一場「溝通會」不如說這是一場屬於理想的硬核「科技日」。

回頭看看上臺發言的人其實也可以發現一些端倪，劉立國、勾曉菲、郎鹹朋的 title 均為

副總裁

級別，分別負責

整車電動

、

智慧空間

和

智慧駕駛

並且直接向總工程師兼聯合創始人馬東輝彙報，

這是第一次理想汽車的三個核心技術團隊負責人共同出現在一場活動。

在此之前理想給人的印象一直是靠精準的定位取勝，在技術上的創新並不突出，在我們重點關注座艙智慧化和輔助駕駛方面普遍慢小鵬一步。

但是這場釋出會之後，我相信可以改變很多人「理想靠精準定位取勝沒技術」的看法，而我們也從這場溝通會看到了理想為未來車內空間互動的思考，以及 ADAS 發展的路徑的思考。

理想如何理解車內的空間？

首先值得注意的一個細節是，

在理想內部智慧空間的研發已經成為了一個獨立的一級部門

，同時命名為了「智慧空間」而非我們常說的智慧座艙，這裡優先順序的變化也可以看出「車內」已經成為了理想新的發力點。

在正式介紹之前我們得對齊一個認知，雖然車的屬性是一個交通工具，用途是把我們從 A 點帶到 B 點，但是車艙也是一個「空間」，你可以認為這是一個

帶小空間的交通工具

，我也可以說這是一個

可以移動的空間

。

在電動車出現之前，車更多被定義為「有空間的交通工具」，電動車出現之後，車更像是「可以移動的空間」。

前者工具的屬性更多，後者空間的概念更大。

每一個人都希望車裡的空間是更大更舒適的，這也是為什麼國人都喜歡 SUV，轎車都帶 L 的原因，而在更高階的車型上，例如賓士 S 寶馬 7 系都把後排座椅越做越舒服，甚至可以在車裡實現半躺的坐姿。

但是燃油車車內的電力不夠充沛，12V 的小電瓶只能支撐短時間的基礎需求，如果希望有空調、音響同時工作並長時間待在車裡，則需發動機長時間啟動，持續用油發電供應給車內，在行駛過程中這沒有任何問題，但是在停車狀態下，這不僅不環保，

怠速下的燃油消耗也導致每多在車裡待一分鐘都有著高昂的成本

。

在這種背景下，就沒有人願意待在車裡

，車的定義就是一個交通工具，和房子的界限十分清晰，因此所有車企的研發方向也是儘量保證車輛在行駛過程中的舒適性，不會考慮車輛靜止狀態的功能和舒適性。

但是當車輛的能源形式變為電動且自帶一塊超大的儲能電池之後，你的車艙理論上和你的家是一樣的，都

有著充沛的電力供應

，所以車艙就成了一個為數不多私密、獨立的空間。

理論上你想在家裡乾的事兒在車裡也可以幹，唯一的區別就裝修佈置不同和空間是否允許。

我們也可以看到小鵬在 P5 上已經開始嘗試將拓展車輛靜止狀態的功能和舒適性，增加了冰箱、氣墊床、投影等等。

小鵬的嘗試非常大膽，在我看來思路也沒有任何問題，但是結果是這波操作並沒有被太多人接受。

究其原因並不是大家沒有在車裡看電影的需求，而是在車裡看電影的便利性和體驗有沒有超過在家裡，同時還要捨棄車輛本身的功能性。

例如每次開啟氣墊床再收起氣墊床、架起投影再收起投影的時間已經夠打一局王者榮耀了，再例如收起後的氣墊床幾乎會佔後備箱近半的空間。

所以想要有一個良好的車內體驗首先要做到的是一個舒服的空間。

如何讓車內的空間變得更舒服？

劉立國總結的 2 點是「

空間更大

」和「

坐著舒服

」，這兩點在我們日常生活中其實處處可見，高鐵二等艙和商務艙最大的區別就是空間更大，座椅更舒服，飛機商務艙和頭等艙的區別亦是如此。

為了讓空間更大，劉立國團隊並沒有一味增加車身尺寸，而是提高整車的空間的利用率。

在整車研發中車身的每一段都有自己的代號，其中 L103 是整車長度，L10 是機械空間長度，乘員空間是 L1。在 L9 上乘員空間（L1/L103）是

66.33%

。

實際的空間體驗上，L9 在第二排有 2 拳腿部空間的情況下，第三排還有 3 指的空間，均超過了寶馬 X7 的頂腿和 GLS 的坐不下。

為了讓坐著更舒服，劉立國團隊根據中國標準委員會最新的人體尺寸標準獨創研究了中國的人體標準，在座椅的造型和材料的選擇上都更有針對性，所以在 L9 上座椅的舒適性飽受好評，甚至還有人給出了 L9 第三排舒適性超過特斯拉 Model 3 第二排的評價。

大家願意待在車裡的基礎上，下一步就是讓這個空間變得更好用，也就是大家口中的「智慧」。

如何讓車內空間變得更好用？

在此之前，我一直很期待電動汽車，在座艙在智駕方面體驗到一些新鮮玩意兒，因為在我的觀念裡，沒有組織限制的新勢力，可以大膽創新，從而讓座艙有一些顛覆性的體驗。

但是在 21 年帶著這個預期看了很多新車，總是以失敗告終。最近我在理想 L9 上又感受到了體驗的顛覆。

但是仔細想想，理想有什麼巨大的創新嗎？除了增加了 3DToF 有了手勢控制，還有啥？貌似沒有了。

那理想做了啥？就是

把一些我們覺得很基礎的體驗從 60 分做到了 90 分

。更大的空間、更舒服的座椅、更好的螢幕、更好的音響……

基於這些細節的量變，座艙的體驗發生了質變。

而這個過程也和 iPhone 發展的歷程無比相似，從 iPhone 4 到現在的 iPhone 13 我們經歷了什麼？

晶片技術的迭代、攝像頭的迭代、螢幕的迭代、電池的迭代、網速的迭代、軟體能力的迭代。

正是這些底層技術的一點一點迭代，才有體驗和功能的量變到質變。

為什麼我們的思路是提高晶片的算力？為什麼我們的思路是不斷提升網速？為什麼要增加新的硬體？現在回頭想這些都是理所當然的，

但正是研發人員在產品立項之初就有了對未來的思考，才保證了產品最終的發展沒有跑偏。

雖然我們很難在現在去預測車內空間的終局是什麼，就像即使是 2022 年了，我們也很難說手機的終局就是現在的樣子，但是發展的思路是可以明確的。

想讓座艙的能力變得更加強大，車就必須知道更多的資訊，所以車機獲取資訊的方式就尤為關鍵了。

面對這個問題，小鵬首創了全場景語音，在思路上不再把語音當做一個工具，而是一個互動方式，在這種思路的驅使下的語音助手，能力範圍和互動效率相比之前有了質的變化。

這裡的核心說白了就是透過提升車輛獲取資訊的能力，來降低了人發出指令的成本。

在 L9 上理想首次提出了「三維空間互動」概念。

在溝通會上勾曉菲分享了一組資料，在人的 5 個感官中，

獲取資訊量最大的是視覺，達到了 83%，而最少的是觸覺和味覺，僅有 1%。

但是在我們常規使用的電子產品上，例如手機電腦，從這些產品的視角出發，它們獲取資訊的方式只有來自觸控螢幕和觸控板的「觸覺」。

哪怕現在大多數裝置增加了語音助手，具備了聽覺的感知能力，能獲取到的資訊也不過是 12%。這就導致系統能做的事兒，完全取決於你能夠透過觸控和語音輸出多少。

在勾曉菲看來，汽車座艙內的互動方式仍然處於向傳統消費電子成熟互動技術的借鑑和學習的狀態，比如早期的滑鼠及觸控板、中期的觸控和現階段的語音。

但是汽車座艙和消費類電子最大區別在

座艙是一個三維終端

，而我們

始終在以消費電子二維終端的方式進行互動

，這裡的錯配直接

限制了座艙這個三維終端的想象空間

。

而二維到三維，增加一個維度之後，最直觀的感覺就是，當一個人向你走來的時候，二維世界只是簡單的影象變大了，而三維世界不僅會有明確的距離感，同時我們聽到的聲音也會更大，在這其中其實包含著大量的資訊。

回到 L9 上，所謂「三維空間互動」表面來看只是在前排加入了一個 IR 紅外攝像頭，在後排增加了一個 3DToF 感測器，功能上目前只實現了手勢對後排螢幕的控制，以及結合語音實現了「開啟這個」的功能。

（注：當手指向車窗或者遮陽簾時，語音下達「開啟這個」的指令，可以開啟對應的車窗。）

雖然手勢控制後排還算不上好用，習慣了物理按鍵和語音的我也並不覺得「開啟這個」有多大價值。

但是這並不妨礙我認為這是一個非常有想象力的互動方式。

當車輛具備視覺能力（IR 攝像頭、3DToF 感測器）之後，配合語音和觸控，獲取的資訊量可以達到 95%，這意味著相比電腦機器對物理世界的感知和理解將會有 100 倍的差異。

回頭再來看看「開啟這個」功能，雖然對於熟悉了觸控和語音的我們很難察覺到這個功能的價值，但是

從資訊傳達的維度來看，車艙已經開始主動迎合理解你的意圖了。

放到一個嬰兒身上，在此之前，如果你想吃桌子上的蘋果，你只能自己去拿（觸控開啟），或者透過講話明確表達出你的意思讓媽媽幫你拿（語音控制），但是現在你只需要用手指一指（手勢控制）說個「這個」，你就能吃到。

所以從這個維度來看，理想的思路是對的，接下來需要做的就是

進一步提升車輛的感知能力

，說白了最佳化 IR 和 ToF 感測器的感知能力和麥克風的拾音能力，捕捉更多的視覺（深度）資訊和聽覺資訊。

在這方面，則需要強大的 AI 訓練能力，在 QA 環節中，李想透露理想汽車一共有 4 只 AI 團隊，最大的服務於郎鹹朋的自動駕駛部門，第二大的服務於勾曉菲的智慧空間團隊。

但是想要做到實打實的獲取 95% 的資訊，需要系統具備更強的理解能力。

觸控互動最大的優勢就是，所有指令都是明確的，但是隨著全場景語音、模糊指令和手勢控制的加入，對系統的理解能力需求也上升了一個維度。

理想的解決思路是建立認知圖譜，勾曉菲在溝通會透露，理想同學會有 3 個階段：

第一階段強智慧（2023Q2）

第二階段認知推理（2024Q4）

第三階段人格化（2025Q4）

在第一階段勾曉菲團隊會給理想同學喂更多的知識，在車輛交付階段會構建所有的用車知識，也就是說有

任何關於車的問題都可以透過理想同學解決。

在第二階段，透過資料的積累理想同學會

具備自己的思考能力，能夠完成邏輯推理，同時會進入到一個自學習的階段，也就是說它不再需要別人教它，只要能聯網，它會去網上搜索相關的文獻，然後透過文獻的文字內容自己學習相關的知識。

在第三階段理想同學會更加人格化，在說話的方式，語氣、語速，會和使用者的風格越來越像。

這就是理想同學在「理解」層面的能力規劃，最後就是「表達」。

在表達方面，理想也迎合了人類獲取資訊量最大的 2 個方式，視覺方面透過 4 屏 + HUD，聽覺方面透過 7。3。4 的揚聲器。

不過具備了後排螢幕之後，理想同學出現的位置也會隨著喚醒位置的區別出現在不同的螢幕上，以此來提供一個更強的空間感，聽覺方面具備了 7。3。4 的音箱之後，也可以做到哪裡需要聲音，聲音去哪裡，同樣具備更強的空間感。

從這個維度來看，隨著技術的推進，未來也不排除在理想的車內座艙出現全息投影的可能。

理想在智慧駕駛上反擊開幕

如果讓你說現在已知的輔助駕駛最強的 2 家公司，大家第一個想到的不是小鵬就是華為。

在 2021 年蔚來 ET7 的釋出會上，蔚來宣佈正式轉向全棧自研，同時在新車上堆滿了目前市面上最強的輔助駕駛感測器，這也讓大眾看到了蔚來自動駕駛上的決心。

而理想雖然基於供應商方案的 2020 款理想 ONE 基礎表現能力不弱，但是因為缺少後向雷達，在更高階的功能上沒有任何想象空間，這也讓理想不得不在 21 款改款車型上換裝了新的攝像頭並增加了 5 顆毫米波雷達。

但是即使是 21 年推出的改款車型，能力也僅僅是追平了蔚來 18 年量產的車型，不及小鵬 20 年推出的產品。

雖然，在當下輔助駕駛能力還不足以影響大多數人的購車決策，但是理想汽車透露出來對輔助駕駛的熱情是最低的。

這裡既有主觀的規劃失策，也有客觀的資金問題。

據媒體報道，在 2018 年底理想汽車的賬上只剩下 10 億現金，這樣的環境下理想 ONE 只能選擇更具價效比的供應商方案。

不過在 20 年理想汽車美股上市融資之後，局面開始出現了改觀，21 年理想決定正式開始自研之路。

輔助駕駛發展的目標相比座艙會清晰很多，簡單來說就是功能覆蓋更廣的使用範圍，以及駕駛員更少的精力介入。但是在這個大目標下，大家實現的技術路徑各有不同。

理想在自動駕駛上的研發思路可以提煉出 3 個重點：

具有高能力上限和安全底線的演算法能力、龐大且有效的資料樣本、閉環的開發流程

，這三者相輔相成。

具有高能力上限和安全底線的演算法能力

這裡我們先從理想 L9 的輔助駕駛硬體看起：

7 顆輔助駕駛感知攝像頭（6 顆 800 萬畫素，1 顆後視 200 萬畫素）

4 顆 360° 環視攝像頭

1 顆鐳射雷達

1 顆前向毫米波雷達

2 顆英偉達 Orin-X 晶片（508 TOPS 算力）

在這個猛堆感測器數量的大環境下，理想 L9 ADAS 感測器的選擇確十分克制，僅在 7 顆環視 ADAS 攝像頭的基礎上增加了 1 顆鐳射雷達和 1 顆毫米波雷達。

可以很明顯地發現，

理想僅在前向增加了毫米波和鐳射雷達補充感知，提供安全演算法冗餘，車側和後方都只採用了視覺感知的方案，在路徑上和採用純視覺的特斯拉趨同。

溝通會上朗鹹朋透露，

理想也採用了和當前特斯拉一樣的 4DBEV 框架模型，這套模型最大優勢在於，可以將車輛周身的 7 顆攝像頭拼接成完整的畫面，並加入時間維度的資訊，實現了 4D 的效果。

相比傳統的單個相機輸出感知結果，BEV 融合後大幅提升了感知獲取的資訊量。

舉個簡單的例子，傳統的單個相機輸出感知結果進行彙總的，類似一輛車裡有 7個人，每個人只能看到自己有限的視角和方向的資訊，相互之間的資訊無法關聯，A 看到了一輛車的車頭，C 看到一輛車的車位，雖然他們看到的是一輛車，但是反饋給中央的資訊中無法體現出是一輛車。

而且對於只在畫面中露出一小部分車頭情況，對於視覺感知演算法而言，很難及時有效地判斷出這是一輛車。

但是 BEV 框架下的演算法則像是一個有 7 個眼睛的人，同時獲得 7 個視角的畫面，並直接生成一個上帝視角。

所以大家可以腦補一下，給你 7 個方向覆蓋 360° 但沒有任何關聯的畫面的資訊讓你開車，和給你一個上帝視角的資訊讓你開車，哪個方便高下立判。

當然想要正在做好，在演算法層面也有著極大的挑戰。

在這裡朗鹹朋分享了 5 個部分的自研演算法：

BEV 融合 - FUTR3D

目標檢測 - DETR3D

目標跟蹤 - MUTR3D

行為預測 - DenseTNT

實時建圖 - HDMAPNet

這個五個分部分演算法均在不同的領域獲得不錯的成績，但是在這裡我就不展開，重點是這 5 部分演算法已經運用到了理想 L9 上，而 L9 也會在交付階段就開通 NOA 高速導航輔助駕駛。

不過在這 5 部分演算法中有 2 點比較獨特的地方，首先我們從硬體上可以看出，理想已經取消了 4 個角毫米波雷達，在這個大家狂堆感知硬體彰顯實力的大環境下，理想顯得有些「扣」，但是和 2020 款上「扣」不太一樣的是，

在我看來理想是知道了自己要什麼。

在溝通會上朗鹹朋展示了空曠一側和有車一側的毫米波感知結果，並表示：

「從圖中看，我們的側後方有一輛車來快速接近我們，但是在右側的雷達反射的波上（藍色的點和綠色的點是兩個雷達的訊號），很難一眼看出來這個車在哪（因為他有很多的雜波），也不是說他一點好處沒有，但是他可能會影響我們最終的融合感知的精度。所以經過全方位的比較，再加上我們對視覺演算法（剛才所演示的視覺演算法）有非常高的自信，所以說我們就決定取消角毫米波雷達。」

客觀來看，在前向感知方面理想並沒有強到可以依賴純視覺的地步，輔助駕駛對前向的感知的範圍和顆粒度要求極高，畢竟這是車輛主動的行進方向，取消車頭的兩個角毫米波雷達，是因為在前向已經有一個 120° 覆蓋面的鐳射雷達了，而取消車尾的兩個角毫米波雷達，

而對於後向感知，系統需求的感知的範圍和顆粒度更低，在這種情況下，要靠純視覺就已經可以滿足需求了。

另外可以明確的一點是，

自動駕駛的感知感測器一定不是越多越好，一方面過多的資料會大大增加計算晶片處理的壓力，另一方面同一個方向，3 個感測器反饋資訊，但是如果其中一個反饋的結果和另外兩個不一樣，就像 3 個站崗的人，2 個人說沒車，1 個人說有車，那決策系統到底聽誰的？

另一點是，理想在 BEV 融合演算法中加入了雷達點雲特徵和高精地圖的地圖特徵，從這一點來看，理想這套輔助駕駛仍然對高精地圖有依賴，這也是目前行業的現狀。

不過為了擺脫高精地圖供應商的桎梏，小鵬、蔚來希望均透過收購或合作的方式，讓自己具備了甲級測繪資質，而理想是三家新勢力中最早具備乙級測繪資質的，據我瞭解理想接下來也會具備甲級的測繪資質。

所以理想的自研演算法如何，能否後來居上，我們等交付了看療效。

龐大且有效的資料樣本

資料是訓練視覺為主自動駕駛演算法的基礎，越多有效的資料餵養，系統能夠解決的極端場景就越多。

朗鹹朋在溝通會上非常自信地表示：「我們現在已經有超過 30 億公里駕駛員的行駛里程，有超過 2。9 億公里的輔助駕駛里程，和超過 2，462 萬公里的 NOA 導航輔助駕駛里程。我們從這些行駛的資料上，提取出了有效的學習場景 1。9 億公里。最多的是特斯拉超過 10 億公里，我們是第二位。我們比後面的（像百度還是千萬公里的級別）要大一個數量級的。」