Ashok Elluswamy가 전한 ICCV 2025 학회에서 전한 내용
테슬라가 자율주행을 해결하기 위해 어떤 접근법을 사용하는지 핵심 내용을 설명하겠습니다.
X에서 Ashok Elluswamy 님 : "Tesla's approach to Autonomy" / X
테슬라는 여러 대의 카메라가 촬영한 픽셀 이미지, 운동 신호(차량 속도 등), 오디오, 지도와 내비게이션 데이터를 입력으로 받아 자동차를 실제로 조작하는 제어 명령(control commands) 을 생성하는 엔드 투 엔드 신경망 방식을 사용합니다.
다른 자율주행 개발사들은 센서 중심의 모듈형 접근(Perception → Planning → Control)을 취하지만, 테슬라는 전체를 하나의 신경망으로 학습시키는 구조가 더 효율적이라 판단합니다. 그 이유는 다음과 같습니다.
인간의 판단(가치)을 코드로 명시하기는 매우 어렵지만, 데이터로부터 학습하는 것은 가능하다.
인지–예측–계획의 경계가 모호한데, 엔드 투 엔드는 그 경계를 없애고 전체 네트워크를 통합적으로 최적화할 수 있다.
실세계의 복잡한 상황(long-tail)을 더 잘 일반화할 수 있다.
동질적인 연산 환경과 예측 가능한 지연시간(latency) 을 제공한다.
“Scaling law(확장법칙)” 관점에서 올바른 방향에 있다.
아래 영상에서는 차량이 큰 웅덩이를 피해 중앙선을 넘어야 하는 상황이 나옵니다. 보통 중앙선을 넘는 것은 위험하지만, 이 경우 충분한 시야 확보가 되어 있고, 웅덩이가 매우 커서 피하는 것이 합리적입니다. 이런 미묘한 판단은 전통적인 프로그래밍 로직으로 명시하기 어렵지만, 사람은 직관적으로 할 수 있습니다. 테슬라의 AI는 사람의 데이터를 학습함으로써 이런 ‘인간적 가치 판단’을 내재화합니다.
https://x.com/AIDRIVR/status/1760841783708418094
한 영상에서는 닭이 도로를 건너려 하고, 다른 영상에서는 거위가 그저 길가에 머물러 있습니다. 기존의 모듈형 시스템으로는 이런 미묘한 “의도”를 표현하기 어렵습니다. 하지만 엔드 투 엔드 방식에서는 이런 ‘은연중의 의도’를 잠재 표현(latent representation)으로 자연스럽게 학습할 수 있습니다.
https://x.com/SnowmanSmasher/status/1772041984049631308
자율주행은 초당 수십 프레임의 고해상도 영상, 다수의 카메라, 센서, 오디오, 지도 데이터를 처리해야 합니다. 테슬라 차량 기준으로 하루 데이터는 약 20억 개의 입력 토큰에 달합니다. 이 엄청난 입력을 단 두 개의 출력(핸들 조향, 가속/감속)으로 압축해내는 것은 매우 복잡한 인과 학습 문제입니다.
테슬라는 매일 전 세계 차량에서 인간의 500년치 운전 데이터에 해당하는 양을 수집하며, 그중 가장 의미 있고 다양한 데이터를 데이터 엔진 파이프라인을 통해 선별·학습합니다. 이 덕분에 매우 드문 코너 케이스(corner case) 상황에서도 일반화된 성능을 보입니다. 예를 들어, AI가 비 오는 날 선행 차량이 미끄러질 가능성을 미리 예측하고 5초 전부터 브레이크를 밟는 사례가 있습니다. 이것은 단순한 인식이 아니라 상황의 2차적 결과까지 추론하는 고차원적 예측 능력입니다.
엔드 투 엔드 시스템은 디버깅이 어렵다고 알려져 있지만, 테슬라의 모델은 중간 추론 토큰(intermediate reasoning tokens) 을 생성해 필요 시 이를 이해 가능한 형태로 시각화할 수 있습니다. 또한 테슬라는 Generative Gaussian Splatting이라는 기술을 개발했습니다. 기존 방식보다 220ms 이내에 3D 장면을 생성하며, 초기화 과정 없이 동적 객체를 모델링할 수 있고, AI 네트워크와 공동 학습(joint training) 이 가능합니다. 이 모든 과정은 양산 차량 카메라 데이터만으로 이뤄집니다.
테슬라는 비디오 기반 모델에 자연어 추론(Natural Language Reasoning) 기능을 결합했습니다. 이 모델의 소형 버전은 이미 FSD(Full Self-Driving) v14.x에 탑재되어 있습니다.
테슬라는 실제 주행 데이터를 단순히 예측(loss)으로 평가하지 않고, ‘Neural World Simulator’ 라는 신경망 기반 가상 환경을 개발했습니다. 이 시뮬레이터는 동일한 대규모 데이터셋으로 학습되어, 현재 상태와 다음 행동으로부터 미래의 영상을 생성합니다. 즉, 자율주행 정책(policy)을 닫힌 루프(closed loop)로 테스트할 수 있습니다. 이 시뮬레이터는 고해상도, 고프레임 비디오를 실시간으로 생성하며, 심지어 사용자가 6분 이상 “AI가 생성한 세계 속에서” 실제로 주행하는 비디오 게임 형태로도 구현됩니다.
이러한 기술은 차량 자율주행뿐 아니라, 테슬라의 휴머노이드 로봇 Optimus에도 그대로 적용됩니다. Optimus가 공장 내부를 이동할 때도 동일한 신경망 시뮬레이터 환경에서 비디오 생성 및 경로 계획을 수행합니다.
테슬라는 ‘실세계 로보틱스(real-world robotics)’의 중심지입니다. 이미 세계적 수준의 기술력과 데이터, 연구팀을 보유하고 있으며, 이곳에서의 연구는 인류 전체에 혜택을 가져올 것입니다.
“우리는 수백만 대의 지능적이고 유용한 로봇을 세상에 탄생시킬 준비가 되어 있다.”
이 발표의 주된 이유는 미국 최고의 컴퓨터 엔지니어들을 테슬라로 모이게 하기 위한 일종의 취업 설명회(?)였습니다. ㅎㅎ
위 글의 내용을 통해 테슬라가 기존 OEM의 “모듈식 접근”을 비판하고 있으며, AI 시대에는 ‘하드웨어보다 데이터와 신경망이 핵심 자산’ 임을 강조하고 있습니다. 즉, 테슬라는 단순한 자동차 제조업체가 아니라, “엔드 투 엔드 AI 로보틱스 기업” 으로 자신을 규정하고 있다 할 수 있습니다.