技術文章
在智能座艙感知系統(如 DMS、OMS、安全帶識別、兒童遺留檢測等)逐漸從研發進入大規模部署的階段,數據成為模型性能提升的核心瓶頸。尤其在現實采集成本高、隱私受限、長尾樣本稀缺的前提下,越來越多客戶將目光投向了“艙內合成數據"。
在與算法供應商和主機廠諸多客戶的交流過程中,我們也觀察到三個始終被反復提出的核心問題,本文為大家詳細揭秘:
相較于傳統車外感知任務,艙內感知往往涉及多種任務并發:
(1)駕駛員狀態監測(DMS)需提供 RGB、NIR、深度圖、紅外熱圖等;
(2)艙內目標識別(OMS)需識別成人、兒童、寵物及其關鍵點;
(3)安全帶/手勢/打電話等行為檢測需使用語義分割或姿態估計;
(4)基于時序的行為識別模型還需高幀率、長時間段的時序一致數據。
“不是只有圖像就夠了,我們訓練要同時用 RGB、深度、語義 mask,還需要完整的關鍵點標注。"
因此,一個面向艙內場景的合成平臺,必須具備多模態輸出能力:
(1)支持同步輸出:RGB、NIR、IR、深度圖、分割圖、關鍵點、動作標簽;
(2) 每一幀支持完整 2D/3D 標注(如人臉姿態、骨架、Bounding Box);
(3)模態間具備嚴格的像素級對齊與時間同步。
不同分割標準的傳感器真值掩膜(左:材料分割掩膜 右:標注分割掩膜)
現實座艙中的少數情況是艙內模型失效的最大來源,例如:
(1)小孩被遺留在車內后座但被玩具遮擋;
(2)夜間父母懷抱嬰兒但光照極弱;
(3)多人乘坐,后排座椅被倒下遮擋視野;
(4)駕駛員佩戴口罩、墨鏡、低頭、側臉、疲勞、抽煙等行為混合出現。
“這些是我們在真實測試中經常出錯的場景,能不能直接構造出來,用來補訓練集?"
所以平臺需要具備:
(1)多乘員、多體態、多遮擋物控制能力;
(2)情緒、疲勞、注意力偏移等狀態標簽控制;
(3)光照條件(夜間、背光)、遮擋類型(雨傘、雜物)、視角模糊模擬能力;
(4)可腳本控制的場景生成引擎,如配置文件中直接設定“后排有兒童+玩具遮擋+車內弱光"組合。
只有能合成這些“長尾"和“不可采集"的場景,合成數據才具備真正補全實采數據盲區的價值。
駕駛員佩戴墨鏡的場景
相比單純用于驗證,艙內合成數據平臺的客戶越來越傾向于用模型直接訓練,這也就對“擬真程度"提出了更高要求:
“我們擔心合成圖太假,訓練完上車精度掉得厲害。你們的合成數據真實度有保證嗎?"
為了讓數據能用于實際訓練,平臺需要從三方面確保高擬真性:
(1)真實人物建模
- 多體型、種族、性別、穿著、年齡段(尤其是兒童與老人);
- 姿態逼真(靠座、打瞌睡、回頭、躺倒);
- 動作/表情基于真實骨骼驅動,避免“動畫感"。
(2)真實座艙還原
- 車輛內飾結構完整,覆蓋不同車型、座位布局;
- 可配置裝飾物(抱枕、飾品)、反光材質(玻璃、顯示屏);
- 支持模擬不同車型的FOV、分辨率、攝像頭位置偏移等。
(3)物理光照/材質真實感
- 支持真實 HDR 光照渲染;
- 模擬 IR/熱紅外成像特性;
- 加入模糊、噪聲、運動拖影、畸變等現實感知特性。
為了達到可用于實際訓練的效果,合成數據平臺需要在圖像質量、行為表現和傳感器建模等多個維度具備高保真能力,確保模型在部署后具備良好的泛化性能。
例如,圖像應能準確模擬真實攝像頭的曝光、模糊和遮擋;人物動作需基于真實骨骼驅動而非靜態拼接;同時還應支持多種模態協同輸出,以滿足訓練對數據質量的一致性要求。
在平臺實現層面,Anyverse 提供了一個相對成熟的參考范式,覆蓋了艙內感知數據合成中的多個關鍵環節。
平臺支持多通道同步輸出,包括 RGB、NIR、深度圖、紅外圖、語義圖、關鍵點和動作標簽等,滿足多種感知模型的數據輸入需求;
平臺可以靈活配置人物數量、姿態、遮擋物、光照條件等變量,以生成多樣化甚至少數條件下的艙內場景;
平臺使用物理渲染與骨骼動畫系統,對座艙結構、乘員動作及其與環境交互過程進行了細致建模,提升了數據的真實感與一致性。
這些工程機制協同構成了一個面向規模化訓練的合成數據生成基礎,也為艙內感知模型在復雜環境中的表現提供了有力支撐。
從客戶反饋出發,我們始終認為:
合成數據的價值,不僅在于節省成本,更在于它能合成“你永遠采不到、但必須要有"的關鍵場景。
真正面向工程落地的艙內合成數據平臺,應同時滿足以下三點:
(1)模態豐富、標注完整
(2)邊緣場景可控、可批量
(3)圖像逼真、擬合實車部署
這將是支撐下一階段艙內智能感知系統發展的關鍵基礎設施。