在最近的 2025 GTC大會上,NVIDIA 宣布將透過 Omniverse(虛擬實境平台)與 COSMOS(基於物理的世界基礎模型)來開發端到端自動駕駛系統。這不禁讓我思考:NVIDIA 的方法能追上 Tesla FSD 嗎?

(原文於 2025/3/23 發表於 Substack)
AlexNet
黃仁勳在會上提到,自從2012年 AlexNet 出現後,NVIDIA 就決定投入自動駕駛軟體開發。
AlexNet 是由 Alex Krizhevsky、Ilya Sutskever(前 OpenAI 首席科學家)和 Geoffrey Hinton(2024 年諾貝爾獎、2019 年圖靈獎得主)於2012年提出的卷積神經網路(CNN)架構,它在當年的 ImageNet 大規模視覺識別挑戰賽中以顯著優勢獲勝,將辨識錯誤率從26%降低到15%,開創了深度學習在計算機視覺領域的新紀元。
CNN 的運作方式就像人類觀察圖片一樣,先識別簡單的局部特徵(如線條、邊緣和顏色),再將這些特徵組合起來辨認更複雜的物體。透過大量圖片反覆訓練,系統能逐步提高辨識準確率,學會區分貓、狗或汽車等不同物體。
AlexNet 的成功,引發了視覺人工智能的革命,促成了許多我們現在常見的應用,包括自駕車技術、醫療影像的輔助診斷、手機上的臉部識別解鎖、社交媒體的自動標記功能、中國的天網監控系統,以及電商平台的以圖搜圖功能等。
CNN 的瓶頸
雖然 AlexNet 在視覺辨識上取得了突破性進展,但其 CNN 架構設計主要針對靜態圖像分類,難以處理自動駕駛等需要時序理解和多模態推理的複雜任務,過去的自駕車系統是依賴精準的視覺辨識加上工程師透過偵測的結果,寫下車輛行駛的決策過程,但這樣的發展會讓系統越來越難以維護,且執行效率也會因為程式庫的不斷增加變得緩慢。這也是為什麼自動駕駛領域開始轉向更先進的模型架構。
基於 CNN 網路架構的 AlexNet 存在明顯局限性:
- 無法實現真正「端到端」的自動駕駛系統
- 需要透過人類撰寫的程式碼來判斷視覺辨識結果
- 辨識準確率已達到瓶頸
- 架構設計主要針對靜態圖像分類,難以處理需要時序理解和多模態推理的複雜駕駛場景
- 當物件被局部遮蔽時會導致無法辨識(這也是很多車廠堅持使用光達的原因,但是被遮蔽的是路標時光達就沒用了)
Transformer 的優勢
Transformer 模型最初是為自然語言處理而設計,憑藉其注意力機制能夠「關注」輸入序列中的重要部分,使其特別適合處理序列數據。應用到自動駕駛時,Transformer 能同時考慮多個時間點的視覺資訊,理解車輛、行人和道路標誌之間的空間關係,並能整合攝影機、雷達等多種傳感器資料。它在自動駕駛領域具有以下關鍵優勢:
- 圖片資料:Vector data 比像素儲存更有效率地使用,也更能避免周圍環境被遮蔽或是物件不完全導致辨識不清楚
- 注意力機制:能夠更有效地專注於駕駛環境中的重要元素,如行人過馬路或突然切入的車輛
- 長距離依賴性處理:可以更好地理解連續駕駛畫面間的時序關係,預測其他道路使用者的行為
- 端到端學習:從原始感測器資料直接映射到駕駛決策,無需人工設計的中間步驟,大幅簡化系統架構
- 擴展性與多模態融合:在模型擴展和多種資料整合方面具有顯著優勢,能同時處理來自不同傳感器的數據
Tesla FSD 領先的關鍵
Tesla 在自動駕駛領域遙遙領先其他競爭者,這一優勢主要源於三個關鍵因素。
- 擁有超越其他所有車廠總和的真實世界駕駛資料。每天有數百萬輛 Tesla 車輛在各種天氣、道路和交通狀況下行駛,不斷豐富他們的數據庫,這種數據規模優勢難以被模擬環境所替代。
- FSD 已經過渡到基於 Transformer 架構的純視覺辨識模型。雖然 Transformer 需要大量資料才能發揮優勢,但 Tesla 龐大的車隊正好解決了這一挑戰。
- 垂直整合模式讓他們能夠快速迭代軟硬體。從自研晶片到數據收集策略,從模型訓練到系統部署,Tesla 掌控著完整的技術鏈條。FSD 系統(v12)逐漸採用 Transformer 架構後,車輛能夠更好地應對複雜多變的道路情況,尤其在惡劣天氣或繁忙路口等挑戰性環境中表現更佳,進一步擴大了他們的技術領先優勢。
NVIDIA 的自動駕駛方案
NVIDIA 在這次 2025 GTC 大會上提出的自動駕駛解決方案核心是透過 Omniverse 與 COSMOS 技術的結合,創建一個強大的虛擬開發環境。這一方案具有三大關鍵優勢:
- 數據合成與擴增:結合真實資料在 Omniverse 環境中生成新的模擬訓練資料,能夠創建無限多樣的駕駛場景,包括罕見的危險情況和極端天氣條件。這種方法可以產生數百萬小時的模擬駕駛數據,大幅超越單純依賴實際道路收集的數據量。
- 物理準確性驗證:使用 COSMOS 世界物理模型來優化和驗證訓練結果,確保 AI 系統對物體、車輛和行人的行為預測符合真實世界的物理規律。COSMOS 能模擬從簡單的車輛動力學到複雜的多物體交互,甚至包括不同材質道路上的輪胎抓地力變化。
- 封閉循環訓練:建立封閉循環(close-loop)訓練流程加快開發,使 AI 模型能夠從每次模擬中學習並改進。系統會不斷評估模型表現,識別失敗案例,然後生成更多類似場景進行針對性訓練,形成一個自我完善的迭代過程。
提出這種方法應該是為了解決在自動駕駛開發中資料不足的問題。與 Tesla 依靠大量真實車輛收集數據的策略不同,NVIDIA 嘗試用技術創新來彌補實際道路數據收集的劣勢。這種虛擬開發平台特別適合那些沒有大規模車隊的傳統汽車製造商,讓他們能夠加速自動駕駛技術的開發與測試,同時降低研發成本和風險。
AI 模型比較
現在領先的車廠都有一個共識,就是使用「端到端」的AI模型作為自動駕駛系統(從輸入影片直接到輸出決策使用同一個模型)。一個AI模型由三個核心部分組成:訓練資料、算法和優化。透過設計好的算法來運行搜集來的資料,再透過驗證資料來優化算法上的權重,不斷重複這個過程來逼近理想表現。以下比較 NVIDIA 及其合作夥伴與 Tesla 在這三個部分的差異:
- 算法:自 Tesla 舉辦過兩次 AI-Day 後就神秘地沒有再舉辦,從過去 DeepSeek 等公司發表開源大型語言模型的成果來看,我認為在 AI 賽道上,算法已經是各個開發團隊差距最小的部分。
- 訓練資料:Tesla 擁有豐富的真實世界資料,包含道路駕駛畫面、駕駛時間、各國路況與駕駛風格等。NVIDIA 則透過 Omniverse 生成模擬資料,其合作夥伴如小米、比亞迪等中國車廠也在積極收集真實數據。理想的方式可能是混合使用兩種數據:真實數據提供日常駕駛基礎,而合成數據則補充罕見危險場景和極端天氣條件下的訓練案例。
- 優化:NVIDIA 使用 COSMOS 物理模型作為強化學習(RL)的驗證機制,這種方式有助於保證基本行車安全性。而 Tesla 則能直接從全球車主的駕駛干預中學習,獲得更符合人類期望的駕駛表現。
從整體來看,NVIDIA 的方案為小米、比亞迪等沒有長期數據積累的車企提供了技術捷徑;而 Tesla 的優勢在於真實數據的規模和閉環反饋系統。兩種方法各有所長,長期來看可能會走向混合解決方案。
結論
NVIDIA的自動駕駛解決方案已被眾多電動車廠廣泛採用,包括小米、比亞迪、賓士和豐田等。豐田甚至計劃基於Orin晶片打造下一代汽車,並運行NVIDIA DriveOS作業系統。面對這些後起電動車廠商在自駕系統經驗與數據積累的不足,NVIDIA提出了創新的Omniverse和COSMOS解決方案。然而,我認為NVIDIA提出的並非自駕車系統的「最佳解法」,而更像是「最多算力解」的方向。
作為繪圖晶片的領導者,NVIDIA自然傾向於提供高算力的解決方案。但打造優秀的自駕車系統需要軟硬體的深度整合,以及長期的技術積累和迭代優化。在這方面,各家車廠與Tesla相比仍存在顯著差距。此外,自動駕駛系統的成功也取決於車輛架構的配合。傳統燃油車難以提供足夠電力支持高度自動駕駛所需的運算負載,這使得電動化成為實現高階自動駕駛的必要條件。NVIDIA作為系統提供商,不僅無法完全彌補合作夥伴在整車設計與軟體整合方面的經驗不足,還會受到合作車廠電動化轉型進度的制約,這讓NVIDIA在自駕賽道上處於相對被動的位置。
Tesla作為原生純電動車製造商,從一開始就設計了能支持高算力需求的整車架構,在電力管理和車載計算方面具有先天優勢。相比之下,NVIDIA的合作夥伴中雖然有比亞迪、小鵬等純電動車企業,但多數傳統車廠仍在電動化轉型過程中,這無疑會影響自動駕駛技術的實際落地速度。
長期來看,自動駕駛領域的競爭可能會向混合模式發展,真實數據和合成數據各自發揮優勢,但Tesla憑藉其垂直整合的商業模式、純電動車架構和龐大的真實世界數據庫,在這場技術競賽中依然保持領先地位。NVIDIA與其合作夥伴雖然在追趕,但要真正超越Tesla的整體解決方案,還需要在車輛架構、數據收集和軟硬體整合等多個方面同時取得突破。
這部解說影片很詳細且輕鬆的解釋了 FSD Transformer 解決的問題
純視覺走泥土路



















