「大多數人用 2D 圖片分類解決視覺問題; 高手用視覺語言模型跨模態推理; 但真正的世界理解需要 3D 空間感知與時序動態模型。 從像素到世界模型,是從感知到智慧的本質躍升。」
面試情境: 你正在設計一個自動駕駛感知系統,需要整合街景攝影機(2D RGB)、LiDAR 點雲(3D)、以及自然語言指令(「前方有行人,請減速」)。面試官問:你會如何架構視覺語言理解管線?在 10K 場景/天的訓練規模下,NeRF 重建和 3D Gaussian Splatting 各有什麼取捨?當系統需要預測「接下來 3 秒會發生什麼」時,你會引入什麼樣的世界模型?
一、核心問題:從 2D 感知到 3D 世界理解的躍升
傳統電腦視覺的範式是:輸入圖片 → 抽特徵 → 輸出分類/框。這個方法在 ImageNet 時代表現出色,但遇到真實世界的複雜任務時,三個根本限制浮現:
限制一:模態孤島問題 視覺模型只能輸出類別 ID,語言模型只能處理文字。當使用者問「這張照片裡有幾個人戴了眼鏡?」,純視覺模型無法作答,純語言模型看不見圖片。視覺語言模型(VLM)的出現就是為了打破這道牆。
限制二:2D 投影丟失深度資訊 相機成像是 3D 世界投影到 2D 平面的過程,這個過程不可逆——除非你有多視角或深度先驗。自駕車需要知道「前方障礙物距離 4.2 公尺」而不只是「畫面中央有個人」。NeRF 和 3D Gaussian Splatting 嘗試從 2D 影像重建 3D 場景。
限制三:靜態感知缺乏因果推理 世界是動態的。「當前場景是什麼」和「接下來會發生什麼」是完全不同的問題。預測未來需要世界模型(World Model)——一個能模擬物理因果關係的系統。Sora 等影片生成模型被認為是早期世界模型的體現。
本文沿著這三個維度展開:VLM 打通語言與視覺、3D 重建恢復空間幾何、世界模型引入時序因果。
二、三個演進階段(POC / MVP / Scale)
Phase 1:POC(< 1K 查詢/日)
目標: 最快驗證 VLM 可行性,不自訓練,全用 API
┌─────────────────────────────────────────────────────────┐
│ Phase 1 架構 │
│ │
│ 用戶輸入圖片 ──▶ Base64 編碼 ──▶ GPT-4V / Claude 3 │
│ │ │
│ 文字 Prompt ────────────────────────▶ LLM API │
│ │ │
│ ▼ │
│ JSON 回應 │
│ (描述 / 分析 / OCR) │
│ │
│ 3D 需求:無(2D API 滿足 POC) │
│ 世界模型:無 │
└─────────────────────────────────────────────────────────┘
新增元件: GPT-4V 或 Claude 3 Vision API 呼叫、圖片壓縮預處理(< 2MB) 成本: $0.01–0.03 / 張圖,API 費用直接計費,無基礎設施 解決: 快速展示跨模態理解能力 遺留問題: 延遲高(2–5 秒/請求)、無法客製化、成本不可控
Phase 2:MVP(10K–200K 查詢/日)
目標: 自架開源 VLM,引入基礎 3D 處理能力
┌──────────────────────────────────────────────────────────────────┐
│ Phase 2 架構 │
│ │
│ ┌──────────┐ ┌──────────────┐ ┌───────────────────────┐ │
│ │ 圖片 │───▶│ Image │───▶│ LLaVA-7B / BLIP-2 │ │
│ │ 上傳 │ │ Preprocessor │ │ (A100 × 2 推論) │ │
│ └──────────┘ └──────────────┘ └──────────┬────────────┘ │
│ │ │
│ ┌──────────┐ ▼ │
│ │ 文字 │────────────────────────────▶ 回應生成 │
│ │ Prompt │ │ │
│ └──────────┘ ▼ │
│ Redis Cache │
│ (相似查詢快取) │
│ ┌──────────────────────────────────────────────────────────┐ │
│ │ 3D 管線(選配) │ │
│ │ LiDAR 點雲 ──▶ Open3D 處理 ──▶ 點雲分類 / 物件偵測 │ │
│ └──────────────────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────────────────┘
新增元件: 自架 LLaVA-7B(VRAM 需求 ~16GB)、Redis 快取、Open3D 點雲處理 成本: A100 × 2 = ~$6/小時,~$4,320/月;延遲降至 300–800ms 解決: 成本降低 80%、可客製化 fine-tuning 遺留問題: 無 3D 場景重建(只有點雲分類)、無世界模型
Phase 3:Scale(200K–1M+ 查詢/日)
目標: 完整 VLM + 3D 重建 + 輕量世界模型
┌──────────────────────────────────────────────────────────────────────┐
│ Phase 3 架構 │
│ │
│ 輸入層 處理層 輸出層 │
│ ┌──────────┐ ┌────────────────────┐ ┌──────────────┐ │
│ │ RGB │──────────▶ │ Vision Encoder │──▶│ │ │
│ │ 影像 │ │ (ViT-L/14) │ │ 多模態 │ │
│ └──────────┘ └────────────────────┘ │ LLM │ │
│ │ (13B–70B) │ │
│ ┌──────────┐ ┌────────────────────┐ │ │ │
│ │ LiDAR │──────────▶ │ 3DGS / NeRF │──▶│ │ │
│ │ 點雲 │ │ 場景重建 │ └──────┬───────┘ │
│ └──────────┘ └────────────────────┘ │ │
│ ▼ │
│ ┌──────────┐ ┌────────────────────┐ ┌──────────────┐ │
│ │ 時序 │──────────▶ │ World Model │──▶│ 未來預測 │ │
│ │ 影片 │ │ (Video DiT) │ │ (T+3s) │ │
│ └──────────┘ └────────────────────┘ └──────────────┘ │
│ │
│ 基礎設施: H100 × 8 cluster, vLLM 推論, Ray 分散式處理 │
└──────────────────────────────────────────────────────────────────────┘
新增元件: 3D Gaussian Splatting 即時重建、Video DiT 世界模型、vLLM 批次推論 成本: H100 × 8 = ~$30/小時,但吞吐量 50x;每查詢成本降至 $0.0008 解決: 真實 3D 理解、時序預測、低延遲(< 150ms P99) 遺留問題: 3DGS 訓練仍需 30–60 分鐘/場景,世界模型泛化能力有限
三、視覺語言模型:CLIP 對比學習架構
CLIP(Contrastive Language-Image Pre-Training)是現代 VLM 的基石。其核心洞察是:用自然語言作為監督訊號,比人工標記的類別標籤更通用、更豐富。
CLIP 訓練架構
對比學習目標(InfoNCE Loss)
┌─────────────────────────────────────────────────────┐
│ │
│ 圖片 batch (N 張) │
│ ┌────┐ ┌────┐ ┌────┐ ┌────┐ │
│ │I₁ │ │I₂ │ │I₃ │ ... │Iₙ │ │
│ └──┬─┘ └──┬─┘ └──┬─┘ └──┬─┘ │
│ │ │ │ │ │
│ ▼ ▼ ▼ ▼ │
│ ┌─────────────────────────────────┐ │
│ │ Image Encoder (ViT) │ │
│ │ 輸出: [N × D] 向量 │ │
│ └─────────────────────────────────┘ │
│ ‖ cosine similarity ‖ │
│ ┌─────────────────────────────────┐ │
│ │ Text Encoder (Transformer) │ │
│ │ 輸出: [N × D] 向量 │ │
│ └─────────────────────────────────┘ │
│ ▲ ▲ ▲ ▲ │
│ │ │ │ │ │
│ ┌──┴─┐ ┌──┴─┐ ┌──┴─┐ ┌──┴─┐ │
│ │T₁ │ │T₂ │ │T₃ │ ... │Tₙ │ │
│ └────┘ └────┘ └────┘ └────┘ │
│ 文字 batch(與圖片一一對應) │
│ │
│ 目標:最大化對角線相似度(正對),最小化非對角線(負對) │
└─────────────────────────────────────────────────────┘
訓練細節:
- 資料集:400M 圖文對(網路爬取)
- Batch size:32,768(對比學習需要大 batch 才有足夠負樣本)
- 訓練時間:在 592 V100 × 18 天
- ViT-L/14 版本:Image Encoder 輸出 768 維向量,Text Encoder 輸出 512 維
Zero-shot 推論原理:
查詢: "一隻在草地上奔跑的狗"
1. 將所有候選類別文字 encode 成向量
2. 將測試圖片 encode 成向量
3. 計算 cosine similarity
4. 輸出最高相似度的類別
ImageNet 零樣本準確率:76.2%(接近有監督 ResNet-50 的 76.1%),這在 2021 年是震撼性的結果。
CLIP 的限制:
- 無法計數(「有三隻貓」vs「有五隻貓」表現差)
- 空間關係弱(「左邊的貓在右邊狗的旁邊」理解不穩定)
- 無法生成文字(只能做相似度比對,不能回答問題)
四、VLM 生成架構:BLIP / LLaVA / GPT-4V 對比
為了讓 VLM 能夠生成文字回應(而不只是做相似度比對),需要引入語言模型的解碼能力。
BLIP-2 架構
BLIP-2 的關鍵創新是 Q-Former(Querying Transformer)——一個用可學習查詢向量從視覺特徵中提取「對語言模型有用的資訊」的模組:
圖片 ──▶ Frozen ViT ──▶ Q-Former ──▶ Frozen LLM (OPT/FlanT5)
│
32 個可學習查詢向量
(壓縮視覺資訊的瓶頸)
- 訓練參數:只訓練 Q-Former(~188M 參數),ViT 和 LLM 都凍結
- 優點:可以插入任意 ViT + 任意 LLM,組合靈活
- 缺點:Q-Former 是資訊瓶頸,複雜視覺細節可能丟失
LLaVA 架構
LLaVA(Large Language and Vision Assistant)取消 Q-Former,改用簡單的線性投影層:
圖片 ──▶ CLIP ViT-L/14 ──▶ Linear Projection ──▶ Vicuna/LLaMA
(視覺 token 映射到
語言模型的 embedding 空間)
LLaVA 的訓練策略(兩階段):
- 預訓練:只訓練 Linear Projection,用圖文對齊 595K 資料
- 指令微調:訓練 Linear Projection + LLM,用 150K 視覺對話資料
LLaVA-1.5 的突破在於將 Linear Projection 換成 MLP(2 層),並用 VQAv2、TextVQA 等 benchmark 資料混合訓練,在 11 個 benchmark 達到 SOTA。
三種架構對比
| 架構 | 視覺橋接模組 | 訓練參數 | VQAv2 準確率 | 推論速度 | 適用場景 |
|---|---|---|---|---|---|
| BLIP-2 | Q-Former (188M) | 只訓 Q-Former | 65.2% | 慢(多階段) | 需要彈性換底模型 |
| LLaVA-1.5 | MLP Projection | LLM + MLP | 80.0% | 快 | 中等規模部署 |
| GPT-4V | 未公開(推測 cross-attn) | 未公開 | ~87% | 2–5s (API) | 最高精度需求 |
| LLaVA-NeXT | Dynamic Resolution | LLM + 更高解析度 | 82.4% | 中 | 需要細節識別 |
工程選型建議:
- 內網低延遲需求 → LLaVA-7B(A100 單卡,300ms)
- 最高精度 → GPT-4V API(但成本 10x)
- 需要 OCR / 文件理解 → LLaVA-NeXT 或 Qwen-VL
五、3D 視覺基礎:點雲 / 體素 / NeRF
從 2D 圖片到 3D 理解,有三種主流的 3D 表示方法,各有適用場景。
點雲(Point Cloud)
最接近 LiDAR 原始輸出的格式。每個點是 (x, y, z) 座標,加上可選的顏色或強度屬性。
點雲特性:
- 格式: [(x₁,y₁,z₁), (x₂,y₂,z₂), ..., (xₙ,yₙ,zₙ)]
- 密度: 自動駕駛 LiDAR 每秒 ~1.2M 點
- 挑戰: 不規則、無序、密度不均勻
- 處理工具: PointNet, PointNet++, Open3D
- 典型任務: 3D 物件偵測, 地面分割, 障礙物識別
PointNet 的核心創新:用 shared MLP + max-pooling 處理無序點集,實現排列不變性(permutation invariance)。
體素(Voxel)
將 3D 空間切割成規則格柵,每個格子(體素)存儲是否被佔用及顏色。類比:3D 版的像素。
解析度與儲存對比:
256³ 體素 = 16.7M 格子 = ~67MB (float32)
512³ 體素 = 134M 格子 = ~536MB
問題: 大多數體素是空的(稀疏度 > 99%)
解決: 稀疏體素(Sparse Voxel),只存非空格子
工具: MinkowskiEngine, TorchSparse
NeRF(Neural Radiance Field)
NeRF 是一個革命性的隱式表示方法。它不直接儲存場景的幾何或顏色,而是訓練一個 MLP 來表示「從任意方向看任意位置的顏色和密度」:
輸入: (x, y, z, θ, φ) ──▶ MLP ──▶ 輸出: (RGB, density σ)
位置 顏色 體積密度
渲染管線:
沿光線採樣 N 個點 ──▶ 查詢 MLP ──▶ 體積渲染積分 ──▶ 像素顏色
NeRF 的工程現實:
- 訓練時間:每場景 1–10 小時(原始 NeRF)
- 改進版 Instant-NGP:訓練降至 ~2 分鐘(用哈希網格加速)
- 渲染速度:原始 NeRF 每幀 30 秒;Instant-NGP 即時渲染
- 記憶體:Instant-NGP 場景 ~10MB
NeRF 的限制:
- 每個場景需要獨立訓練,無法泛化到新場景
- 無法處理動態物件(原始 NeRF 假設靜態場景)
- 需要 50–100 張覆蓋良好的圖片才能重建
六、3D Gaussian Splatting 原理與工程應用
3D Gaussian Splatting(3DGS)是 2023 年最重要的 3D 重建突破,相比 NeRF 有三個核心優勢:速度快、品質高、可編輯。
核心原理
3DGS 用數百萬個 3D 高斯橢球體來表示場景,每個高斯球有:
每個 3D Gaussian 的屬性:
- 位置 μ: (x, y, z) ── 中心點座標
- 協方差 Σ: 3×3 矩陣 ── 控制形狀和方向(橢球的長軸/短軸)
- 顏色 c: 球諧函數係數 ── 與觀察角度相關的顏色
- 不透明度 α: 0~1 ── 控制可見度
典型場景: 100萬–600萬個高斯球
儲存大小: ~300MB–2GB
渲染管線(可微分光柵化):
3D 高斯球群
│
▼ 投影到 2D(每個球投影為 2D 橢圓)
按深度排序
│
▼ 前到後 alpha-compositing
│
▼ 輸出像素顏色
關鍵:整個渲染管線是可微分的,因此可以用圖片監督訊號反向傳播,優化所有高斯球的參數。
訓練流程
初始化: SfM 稀疏點雲(COLMAP 估計相機位姿)
│
▼
每次迭代:
1. 渲染當前視角
2. 計算 L1 + D-SSIM Loss
3. 反向傳播,更新高斯球參數
4. 自適應密度控制:
- 梯度大的區域 → 複製/分裂高斯球(細化)
- 不透明度接近 0 的 → 剪除(pruning)
│
▼
30分鐘內收斂(vs NeRF 數小時)
工程應用數字
| 指標 | NeRF (Instant-NGP) | 3D Gaussian Splatting |
|---|---|---|
| 訓練時間/場景 | 2–5 分鐘 | 20–45 分鐘 |
| 渲染速度 | 10–30 FPS | 100–200 FPS |
| PSNR(重建品質) | 29–33 dB | 31–35 dB |
| 儲存大小 | ~10MB | ~300MB–2GB |
| 動態場景支援 | 差 | 中(需擴展) |
| 可編輯性 | 難 | 佳(直接操作高斯球) |
真實部署案例:
- 電商 3D 商品展示:用手機 30 秒環拍 → 3DGS 訓練 40 分鐘 → 瀏覽器 WebGL 即時渲染
- 文化遺址數位化:100 張 DSLR 照片 → 博物館品質 3D 模型
- 自駕資料增強:重建路口場景 → 合成雨天/夜間變體
七、影片理解與世界模型
世界模型的核心能力是:給定當前狀態(觀察 + 動作),預測未來狀態。這超越了「理解現在」,進入「預測接下來會發生什麼」的領域。
影片理解的演進
Video CNN 時代(2014–2019):
- Two-Stream Network:空間流(外觀)+ 時間流(光流)
- 3D ConvNet(C3D/I3D):時空聯合卷積
- 限制:固定時間窗口,無法處理長程依賴
Video Transformer 時代(2020–2022):
- ViViT:影片分成時空 patch,full attention
- TimeSformer:分解時空注意力(先空間後時間)
- 挑戰:計算複雜度 O(T²H²W²),長影片不可行
Sora 的架構突破(Video DiT)
Sora 基於 Diffusion Transformer(DiT),將影片視為時空 patch 序列:
影片生成管線:
文字 Prompt ──▶ CLIP/T5 ──▶ 文字 Embedding
│
▼
隨機噪聲 ──────────────────▶ Video DiT ──▶ 去噪影片潛碼
│ │
時空 Patch │ ▼
Attention ─┘ VAE Decoder
│
▼
生成影片(最高 1080p, 60s)
Sora 的「世界模型」特性:
- 能模擬流體物理、碰撞反彈、光影變化
- 理解持久性(物體離開畫面後再出現,狀態一致)
- 能從任意相機軌跡生成一致影片
技術細節(公開資訊):
- Spacetime Patch:一個 patch 代表 (t, h, w) 的局部時空區塊
- Variable Duration/Resolution:同一模型處理任意長寬比和時長
- Recaptioning:用 CogVLM 等模型重新為訓練影片生成詳細描述
工程上的世界模型分類
| 類型 | 代表模型 | 輸入 | 輸出 | 訓練資料 | 應用 |
|---|---|---|---|---|---|
| 影片生成型 | Sora, Runway Gen-3 | 文字/圖片 | 影片 | 網路影片 | 內容創作 |
| 動作條件型 | GAIA-1, DreamerV3 | 觀察 + 動作 | 未來觀察 | 互動資料 | 自駕/機器人 |
| 遊戲模擬型 | GameNGen | 遊戲狀態 | 下一幀 | 遊戲錄影 | RL 訓練環境 |
| 物理模擬型 | PhysDreamer | 3D 場景 | 動態模擬 | 物理仿真 | 機器人規劃 |
八、為什麼選 X 不選 Y
決策 1:VLM 推論用 LLaVA vs BLIP-2
| 選擇 | 選 LLaVA 的理由 | 不選 BLIP-2 的理由 |
|---|---|---|
| 推論速度 | 無 Q-Former 瓶頸,吞吐量高 20–30% | Q-Former 多加一個 forward pass |
| 訓練簡單 | 只需 MLP + LLM,架構清晰 | Q-Former 訓練需要特殊策略 |
| 社群支援 | LLaVA-NeXT/1.6 持續更新 | BLIP-2 官方更新放緩 |
| 細節保留 | MLP 投影丟失資訊少 | Q-Former 32 向量是硬性瓶頸 |
何時選 BLIP-2: 需要頻繁替換底層 LLM(BLIP-2 的凍結設計讓換 LLM 零成本),或 GPU 記憶體極度緊張(Q-Former 讓 LLM 只需處理 32 個視覺 token)。
決策 2:3D 重建用 3DGS vs NeRF
| 選擇 | 選 3DGS 的理由 | 不選 NeRF 的理由 |
|---|---|---|
| 渲染速度 | 100–200 FPS,支援即時應用 | Instant-NGP 最快 ~30 FPS |
| 品質 | PSNR 高 2–4 dB | 細節不如 3DGS |
| 可編輯 | 直接操作高斯球(移動/刪除) | 隱式表示無法直接編輯 |
| 下游整合 | 高斯球可接 physics engine | 需要 mesh 提取才能做物理模擬 |
何時選 NeRF: 場景需要極緊湊的儲存(Instant-NGP < 10MB,3DGS 可能 > 1GB);或需要半透明、煙霧等體積效果(NeRF 的體積渲染天然更適合)。
決策 3:影片理解用 3D ConvNet vs Video Transformer
| 選擇 | 選 Video Transformer | 不選 3D ConvNet |
|---|---|---|
| 長程依賴 | Attention 全域建模 | 卷積感受野有限 |
| 遷移學習 | ImageNet ViT 預訓練直接用 | 需要獨立的 3D 預訓練 |
| 靈活長度 | 處理任意長度影片 | 固定 clip 長度 |
| 推論效率 | 可用 Flash Attention 加速 | CUDA 核心優化成熟 |
何時選 3D ConvNet: 邊緣設備部署(3D ConvNet 可量化至 INT8,模型小 5–10x);或即時動作識別(延遲需求 < 50ms)。
決策 4:點雲處理用 PointNet++ vs VoxelNet
| 選擇 | 選 PointNet++ | 不選 VoxelNet |
|---|---|---|
| 記憶體效率 | 直接處理原始點,無體素化開銷 | 高解析度體素記憶體爆炸 |
| 精度 | 保留精確幾何,無量化誤差 | 體素化導致精度損失 |
| 局部特徵 | Hierarchical Grouping 多尺度 | 體素 3D CNN 感受野固定 |
何時選 VoxelNet: 需要融合圖片特徵(BEV 體素格柵易於與 2D CNN 融合);自駕中 VoxelNet 衍生的 PointPillars 是最常用的工業方案(推論 62 FPS,比 PointNet++ 快 3x)。
決策 5:部署 VLM 用 vLLM vs TGI (Text Generation Inference)
| 選擇 | 選 vLLM | 不選 TGI |
|---|---|---|
| 吞吐量 | PagedAttention 讓吞吐量高 24x | KV Cache 管理效率低 |
| 多模態支援 | 原生支援 LLaVA/Qwen-VL | 多模態支援較晚、較不完整 |
| 社群 | Pytorch 生態,貢獻活躍 | HuggingFace 官方但更新慢 |
| 靈活度 | 自訂採樣策略容易 | 更封閉的 API |
何時選 TGI: 使用 HuggingFace 生態且需要簡單部署(Docker 一鍵起);或需要 AWQ/GPTQ 量化的開箱即用支援。
決策 6:世界模型訓練用影片擴散 vs 自回歸
| 選擇 | 選影片擴散(DiT) | 不選自回歸(GPT-style) |
|---|---|---|
| 視覺品質 | 擴散模型 FID 分數低 50% | 自回歸模式模糊 |
| 長程一致性 | 去噪過程全域一致 | 自回歸累積誤差 |
| 並行訓練 | 全序列並行去噪 | token-by-token 序列訓練 |
| 條件控制 | Classifier-free guidance 精細 | 條件注入較粗糙 |
何時選自回歸: 需要影片 + 文字的交叉生成(GPT-4o 的影片理解);或需要串流輸出(擴散模型通常需要完整推論才能輸出)。
九、系統效應(2D → 3D 的能力與成本躍升)
能力對比(量化)
| 能力維度 | 純 2D CV | + VLM | + 3D 重建 | + 世界模型 |
|---|---|---|---|---|
| 場景描述 | 類別 + BBox | 自然語言描述 | 3D 結構描述 | 動態預測 |
| 定位精度 | 2D px(無深度) | 無改善 | 3D cm 級 | 軌跡預測 |
| 跨視角一致性 | 無 | 無 | 有(NeRF/3DGS) | 有 |
| 推理能力 | 無 | 有(語言推理) | 有 | 有 + 因果 |
| Zero-shot 泛化 | 差(需重訓) | 好(語言指令) | 中 | 中 |
成本躍升
| 階段 | GPU | 訓練成本/場景 | 推論延遲 | 月成本(10K QPS) |
|---|---|---|---|---|
| 2D CNN 分類 | T4 × 1 | $0(用預訓練) | 5ms | $500 |
| + VLM (LLaVA-7B) | A100 × 2 | $10(few-shot) | 300ms | $4,320 |
| + 3DGS 重建 | A100 × 4 | $50/場景 | 500ms | $9,000 |
| + Video DiT 世界模型 | H100 × 8 | $500/模型更新 | 2,000ms | $28,000 |
關鍵 threshold:
- 100 QPS 以下:GPT-4V API 比自架便宜(無運維成本)
- 100–1,000 QPS:LLaVA-7B A100 × 2 自架開始划算
- 1,000+ QPS:需要多卡 + vLLM 批次推論,延遲 SLA 是架構決策的核心約束
Before / After 實際案例數字
電商商品 3D 展示(從 2D 圖片到 3DGS):
- Before:每個 SKU 人工 3D 建模 8 小時,成本 $200
- After:手機拍攝 30 秒 + 3DGS 訓練 40 分鐘,成本 $3(GPU 費)
- 轉換率提升:+24%(3D 展示 vs 2D 圖片)
自駕感知(加入 VLM 語言理解):
- Before:規則式場景分類,漏報率 12%(長尾場景)
- After:LLaVA + 規則混合,漏報率降至 3.5%
- 延遲:從 8ms 增至 380ms(需要 Edge TPU 加速)
十、面試答題要點
面試官問: 你如何在自動駕駛感知系統中整合 VLM、3D 重建和世界模型?在 10K 場景/天的規模下,NeRF 和 3DGS 的取捨是什麼?
「我會採用三層遞進架構。第一層是 VLM 語義理解:用 LLaVA-7B 處理 RGB 影像與語言指令,實現零樣本場景描述(延遲 300ms,比 GPT-4V API 便宜 10x);第二層是 3D 空間重建:在 10K 場景/天的規模下,我會選 3D Gaussian Splatting 而非 NeRF,因為 3DGS 渲染速度達 100–200 FPS(NeRF 最快約 30 FPS),PSNR 高 2–4 dB,且高斯球可直接接物理引擎做碰撞模擬——唯一代價是儲存大 30–50x,可用場景壓縮緩解;第三層是世界模型:用動作條件式 Video DiT(類 GAIA-1 架構)預測 T+3 秒的場景狀態,為決策規劃提供虛擬前瞻,訓練資料需要感知 + 動作標記的配對影片,月成本約 $28K(H100 × 8),ROI 體現在長尾危險場景的漏報率從 12% 降至 3.5%。」
十一、系列導航
本文是「AI 工程從零開始」系列 Phase 4 的第 3 篇。
← 上一篇: Phase 4 Part 2:目標偵測、語義分割與姿態估計
→ 下一篇: Phase 5 Part 1:語音識別、TTS 與多模態語音系統
Phase 4 完整系列
| 篇 | 主題 | 核心技術 |
|---|---|---|
| Part 1 | 卷積神經網路與圖像分類 | ResNet, EfficientNet, ViT |
| Part 2 | 目標偵測、語義分割與姿態估計 | YOLO, SAM, MediaPipe |
| Part 3 | 視覺語言模型、3D 視覺與世界模型 | CLIP, LLaVA, NeRF, 3DGS, Sora |
本文為技術概念整理,架構圖為示意性說明。實際工程實作請參考各開源專案的官方文件。
