brunch

테슬라의 자율주행 접근법

Ashok Elluswamy가 전한 ICCV 2025 학회에서 전한 내용

by 드라이트리

테슬라가 자율주행을 해결하기 위해 어떤 접근법을 사용하는지 핵심 내용을 설명하겠습니다.

X에서 Ashok Elluswamy 님 : "Tesla's approach to Autonomy" / X


1️⃣ 엔드 투 엔드 신경망 (End-to-End Neural Network)


테슬라는 여러 대의 카메라가 촬영한 픽셀 이미지, 운동 신호(차량 속도 등), 오디오, 지도와 내비게이션 데이터를 입력으로 받아 자동차를 실제로 조작하는 제어 명령(control commands) 을 생성하는 엔드 투 엔드 신경망 방식을 사용합니다.


왜 엔드 투 엔드인가?


다른 자율주행 개발사들은 센서 중심의 모듈형 접근(Perception → Planning → Control)을 취하지만, 테슬라는 전체를 하나의 신경망으로 학습시키는 구조가 더 효율적이라 판단합니다. 그 이유는 다음과 같습니다.

인간의 판단(가치)을 코드로 명시하기는 매우 어렵지만, 데이터로부터 학습하는 것은 가능하다.

인지–예측–계획의 경계가 모호한데, 엔드 투 엔드는 그 경계를 없애고 전체 네트워크를 통합적으로 최적화할 수 있다.

실세계의 복잡한 상황(long-tail)을 더 잘 일반화할 수 있다.

동질적인 연산 환경과 예측 가능한 지연시간(latency) 을 제공한다.

“Scaling law(확장법칙)” 관점에서 올바른 방향에 있다.


2️⃣ 사례 1: “웅덩이를 피할까, 차선을 넘을까”


아래 영상에서는 차량이 큰 웅덩이를 피해 중앙선을 넘어야 하는 상황이 나옵니다. 보통 중앙선을 넘는 것은 위험하지만, 이 경우 충분한 시야 확보가 되어 있고, 웅덩이가 매우 커서 피하는 것이 합리적입니다. 이런 미묘한 판단은 전통적인 프로그래밍 로직으로 명시하기 어렵지만, 사람은 직관적으로 할 수 있습니다. 테슬라의 AI는 사람의 데이터를 학습함으로써 이런 ‘인간적 가치 판단’을 내재화합니다.


https://x.com/AIDRIVR/status/1760841783708418094


3️⃣ 사례 2: “닭은 길을 건너고, 거위는 머무른다”


한 영상에서는 닭이 도로를 건너려 하고, 다른 영상에서는 거위가 그저 길가에 머물러 있습니다. 기존의 모듈형 시스템으로는 이런 미묘한 “의도”를 표현하기 어렵습니다. 하지만 엔드 투 엔드 방식에서는 이런 ‘은연중의 의도’를 잠재 표현(latent representation)으로 자연스럽게 학습할 수 있습니다.


https://x.com/SnowmanSmasher/status/1772041984049631308


4️⃣ 실세계 문제: 데이터 차원의 저주 (Curse of Dimensionality)


자율주행은 초당 수십 프레임의 고해상도 영상, 다수의 카메라, 센서, 오디오, 지도 데이터를 처리해야 합니다. 테슬라 차량 기준으로 하루 데이터는 약 20억 개의 입력 토큰에 달합니다. 이 엄청난 입력을 단 두 개의 출력(핸들 조향, 가속/감속)으로 압축해내는 것은 매우 복잡한 인과 학습 문제입니다.


테슬라는 매일 전 세계 차량에서 인간의 500년치 운전 데이터에 해당하는 양을 수집하며, 그중 가장 의미 있고 다양한 데이터를 데이터 엔진 파이프라인을 통해 선별·학습합니다. 이 덕분에 매우 드문 코너 케이스(corner case) 상황에서도 일반화된 성능을 보입니다. 예를 들어, AI가 비 오는 날 선행 차량이 미끄러질 가능성을 미리 예측하고 5초 전부터 브레이크를 밟는 사례가 있습니다. 이것은 단순한 인식이 아니라 상황의 2차적 결과까지 추론하는 고차원적 예측 능력입니다.


5️⃣ 해석 가능성과 안전성 (Interpretability & Safety)


엔드 투 엔드 시스템은 디버깅이 어렵다고 알려져 있지만, 테슬라의 모델은 중간 추론 토큰(intermediate reasoning tokens) 을 생성해 필요 시 이를 이해 가능한 형태로 시각화할 수 있습니다. 또한 테슬라는 Generative Gaussian Splatting이라는 기술을 개발했습니다. 기존 방식보다 220ms 이내에 3D 장면을 생성하며, 초기화 과정 없이 동적 객체를 모델링할 수 있고, AI 네트워크와 공동 학습(joint training) 이 가능합니다. 이 모든 과정은 양산 차량 카메라 데이터만으로 이뤄집니다.


G4AApVHWYAA7DYq?format=jpg&name=small X에서 Ashok Elluswamy 님 : "Tesla's approach to Autonomy" / X


6️⃣ 자연어 기반 추론과 영상 결합 (Multimodal Reasoning)


테슬라는 비디오 기반 모델에 자연어 추론(Natural Language Reasoning) 기능을 결합했습니다. 이 모델의 소형 버전은 이미 FSD(Full Self-Driving) v14.x에 탑재되어 있습니다.


7️⃣ 평가(Evaluation)와 신경 시뮬레이터 (Neural World Simulator)


테슬라는 실제 주행 데이터를 단순히 예측(loss)으로 평가하지 않고, ‘Neural World Simulator’ 라는 신경망 기반 가상 환경을 개발했습니다. 이 시뮬레이터는 동일한 대규모 데이터셋으로 학습되어, 현재 상태와 다음 행동으로부터 미래의 영상을 생성합니다. 즉, 자율주행 정책(policy)을 닫힌 루프(closed loop)로 테스트할 수 있습니다. 이 시뮬레이터는 고해상도, 고프레임 비디오를 실시간으로 생성하며, 심지어 사용자가 6분 이상 “AI가 생성한 세계 속에서” 실제로 주행하는 비디오 게임 형태로도 구현됩니다.


G4AZAEcWwAA5jXI?format=jpg&name=small X에서 Ashok Elluswamy 님 : "Tesla's approach to Autonomy" / X


8️⃣ 옵티머스(Optimus)로의 확장


이러한 기술은 차량 자율주행뿐 아니라, 테슬라의 휴머노이드 로봇 Optimus에도 그대로 적용됩니다. Optimus가 공장 내부를 이동할 때도 동일한 신경망 시뮬레이터 환경에서 비디오 생성 및 경로 계획을 수행합니다.


1.png X에서 Ashok Elluswamy 님 : "Tesla's approach to Autonomy" / X


9️⃣ 결론


테슬라는 ‘실세계 로보틱스(real-world robotics)’의 중심지입니다. 이미 세계적 수준의 기술력과 데이터, 연구팀을 보유하고 있으며, 이곳에서의 연구는 인류 전체에 혜택을 가져올 것입니다.


“우리는 수백만 대의 지능적이고 유용한 로봇을 세상에 탄생시킬 준비가 되어 있다.”

tesla.com/AI

이 발표의 주된 이유는 미국 최고의 컴퓨터 엔지니어들을 테슬라로 모이게 하기 위한 일종의 취업 설명회(?)였습니다. ㅎㅎ


위 글의 내용을 통해 테슬라가 기존 OEM의 “모듈식 접근”을 비판하고 있으며, AI 시대에는 ‘하드웨어보다 데이터와 신경망이 핵심 자산’ 임을 강조하고 있습니다. 즉, 테슬라는 단순한 자동차 제조업체가 아니라, “엔드 투 엔드 AI 로보틱스 기업” 으로 자신을 규정하고 있다 할 수 있습니다.

keyword
매거진의 이전글테슬라 FSD v14 특허와 경쟁사 비교