모듈(module)형과 앤드투앤드(end-to-end) 방식
자율주행 기술은 미래 교통 시스템의 핵심으로 자리 잡으며, 이를 구현하기 위한 다양한 접근 방식이 논의되고 있다. 그중에서도 모듈형(module) 방식과 앤드투앤드(end-to-end) 방식은 대표적인 두 가지 설계 철학으로 주목받고 있다.
모듈형 방식은 자율주행의 각 기능을 감지, 예측, 계획 및 제어와 같은 독립된 모듈로 나누어 설계하는 전통적인 접근법으로, 안정성과 해석 가능성을 중시한다. 반면, 앤드투앤드 방식은 단일 인공지능 모델이 원시 데이터 입력에서부터 최종 출력까지 직접적으로 처리하도록 설계하여 통합 최적화와 단순화를 목표로 한다.
두 방식은 기술적 철학과 구현 방식에서 큰 차이를 보이며, 각기 다른 장단점과 응용 가능성을 지닌다. 자율주행 시스템의 성공적인 구현을 위해서는 이 두 접근법의 특징과 적합성을 명확히 이해하는 것이 중요하다.
모듈(module)형 방식
그림 1은 자율주행을 위한 데이터 흐름과 처리 모듈을 나타낸다. 여기서 위치 추정(Localization)은 감지 모듈(Perception module)의 일부로 간주된다.
https://dl.acm.org/doi/10.1145/3368756.3369101
모듈형 방식은 자율주행 시스템을 구성하는 각 기능을 독립된 모듈로 나누어 설계하는 접근법이다. 이 방식은 감지, 예측, 계획 및 제어 등 자율주행의 각 기능을 개별적으로 구현하고 이를 조합하여 전체 시스템을 구성한다는 점에서 설계의 명확성과 안정성을 제공한다.
모듈형 방식의 가장 큰 장점은 해석 가능성과 유연성이다. 각 모듈이 독립적으로 설계되어 특정 기능의 동작 원리와 결과를 명확히 설명할 수 있다. 이는 시스템 오류 발생 시 문제의 원인을 특정하고 수정하는 데 유리하다. 또한, 모듈 간의 상호 의존성이 낮아 특정 모듈을 독립적으로 업그레이드하거나 교체할 수 있는 유연성도 제공한다. 이로 인해 전통적인 자동차 산업의 표준화된 설계 방식과도 잘 부합하며, 규제 및 인증 절차에서도 신뢰를 얻기 쉽다.
안전성 측면에서도 모듈형 방식은 큰 강점을 가진다. 규칙 기반 제어와 같은 보수적인 설계를 포함하여 안정적이고 예측 가능한 성능을 제공할 수 있기 때문이다. 자율주행 시스템의 상용화 초기 단계에서는 이러한 안전성과 신뢰성이 매우 중요한 요인으로 작용한다.
그러나 모듈형 방식은 여러 한계를 가지고 있다. 먼저, 각 모듈이 개별적으로 최적화되므로 시스템 전체의 통합 최적화가 어렵다는 점이다. 예를 들어, 감지 모듈에서 발생한 작은 오류가 예측 및 계획 모듈에 전달되어 전체 시스템의 성능을 저하시킬 수 있다. 또한, 여러 모듈 간 데이터 흐름과 상호작용을 처리하는 과정에서 계산 복잡성이 증가하며, 이는 시스템 개발과 유지보수에 추가적인 부담으로 작용한다. 새로운 센서나 데이터 유형을 추가하려면 기존 모듈 간의 연결성을 재설계해야 하므로 확장성 측면에서도 제한이 있을 수 있다.
앤드투앤드(end-to-end) 방식
앤드투앤드 방식은 자율주행 기술에서 데이터 입력부터 출력까지 모든 과정을 단일 인공지능 모델로 처리하는 통합적인 접근법이다. 이 방식은 원시 데이터(예: 카메라 영상, LiDAR 포인트 클라우드 등)를 입력으로 받아 차량의 제어 명령(예: 조향, 가속, 제동)을 직접 출력하는 구조로, 전통적인 모듈형 방식에서 요구되는 감지, 예측, 계획 등의 독립적인 단계를 통합하여 하나의 네트워크에서 학습한다. 이러한 설계는 각 단계 간의 정보 손실을 줄이고 시스템 전체의 최적화를 가능하게 한다.
앤드투앤드 방식의 가장 큰 장점은 설계의 단순화와 통합 최적화이다. 모듈형 방식에서는 각 단계가 개별적으로 설계되고 최적화되지만, 앤드투앤드 방식에서는 전체 시스템이 단일 목표를 기준으로 학습된다. 이를 통해 높은 효율성과 성능을 기대할 수 있으며, 대규모 데이터셋과 딥러닝 기술을 활용해 환경의 복잡한 패턴을 효과적으로 학습할 수 있다. 또한, 새로운 데이터 유형이나 센서를 추가하더라도 네트워크를 재학습하는 것으로 대응할 수 있어 확장성이 뛰어나다.
그러나 이 방식은 몇 가지 한계를 가진다. 먼저, 모델의 '블랙박스' 특성으로 인해 의사결정 과정을 해석하기 어려워 신뢰성과 안전성 확보가 도전 과제로 남아 있다. 또한, 높은 성능을 달성하기 위해 대규모의 학습 데이터와 강력한 컴퓨팅 자원이 필요하며, 드물게 발생하는 예외적 상황에서의 견고성도 보완이 필요하다. 이와 더불어, 규제 및 인증 과정에서 모델의 불투명성이 문제로 작용할 수 있다.
그렇다면 어떤 방식을 선택해야 할까?
자율주행 기술의 구현 방식으로는 모듈형 방식과 앤드투앤드 방식이 대표적이다. 두 방식은 각각의 설계 철학과 구현 원칙에 따라 장단점을 가지고 있으며, 적용 목적과 환경에 따라 선택이 달라질 수 있다.
모듈형 방식은 자율주행 시스템을 감지, 예측, 계획 및 제어와 같은 독립된 단계로 나누어 설계한다. 이 방식은 각 단계별로 설계와 최적화가 이루어지기 때문에 해석 가능성과 안정성이 높다. 문제 발생 시 원인을 특정하고 수정하기 용이하며, 규제와 인증 과정에서 신뢰를 얻는 데 유리하다. 그러나 이러한 구조는 모듈 간 정보 손실과 통합 최적화의 어려움을 초래할 수 있으며, 시스템 복잡성이 증가한다는 단점이 있다.
반면, 앤드투앤드 방식은 하나의 딥러닝 모델이 원시 데이터를 입력받아 차량 제어 명령까지 직접 출력하는 통합적인 접근법이다. 이 방식은 통합 최적화를 통해 효율성과 성능을 극대화하며, 데이터 활용 면에서도 뛰어난 장점을 지닌다. 그러나 모델의 '블랙박스' 특성으로 인해 해석 가능성과 안전성에서 한계를 보이며, 대규모 데이터와 고성능 컴퓨팅 리소스가 필요하다는 점에서 초기 진입 장벽이 높다.
정리해보면, 자율주행 기술에서 모듈형 방식과 앤드투앤드 방식의 선택은 목표, 기술 조건, 시간과 비용, 안전성 등을 종합적으로 고려해야 한다.
목표에 따라 상용화 초기 단계에서는 해석 가능성과 안정성이 높은 모듈형 방식이 규제와 소비자 신뢰를 얻기에 유리하며, 최적 성능을 추구할 경우 앤드투앤드 방식이 복잡한 환경에서도 더 높은 성능을 제공할 수 있다.
기술 조건 측면에서 대규모 데이터와 강력한 컴퓨팅 리소스가 있다면 앤드투앤드 방식이 유리하지만, 데이터가 부족하거나 제한적이라면 모듈형 방식이 안정적이다. 시간과 비용 관점에서 모듈형 방식은 단기적으로 빠른 개발과 수정이 가능하며, 앤드투앤드 방식은 초기 비용이 높지만 장기적으로 확장성과 유연성이 뛰어나다.
안전성과 신뢰성을 최우선으로 고려한다면 안정적이고 예측 가능한 모듈형 방식이 적합하며, 혁신적 기술 구현을 목표로 한다면 앤드투앤드 방식이 적합하다.
그럼 우리가 테슬라 방식의 카메라 기반 모델에 대해서는 어떻게 생각해야 할까?
테슬라의 카메라 기반 자율주행 모델은 기존 LiDAR 및 다중 센서 융합 방식과는 차별화된 단순화된 접근법으로, 비용 효율성과 대규모 데이터 활용 측면에서 강력한 장점을 지닌다. 테슬라는 인간의 시각 체계와 유사한 고해상도 RGB 카메라를 활용하여 환경을 인식하고 판단하며, LiDAR와 같은 고비용 센서를 배제하고 저렴한 카메라를 대량 생산 가능한 방식으로 채택하여 차량 제조 비용을 크게 절감한다. 이를 기반으로 테슬라는 전 세계 차량에서 수집된 방대한 데이터를 활용하고, Dojo 슈퍼컴퓨터를 통해 대규모 학습을 진행함으로써 지속적인 모델 개선을 이루고 있다.
이 접근법은 자율주행 기술의 상용화 문턱을 낮추는 데 기여하며, 이미 많은 차량에 장착된 카메라를 활용해 소프트웨어 업데이트만으로 자율주행 기능을 제공할 수 있어 확장성과 접근성이 뛰어나다. 또한, 인간 운전자의 시각적 데이터 의존 방식을 모방하여 자연스러운 주행 경험을 가능하게 한다는 점도 특징적이다.
그러나 테슬라 방식은 몇 가지 한계를 지닌다. 카메라만으로는 3D 공간 정보를 정확히 감지하기 어려워 복잡한 환경이나 가시성이 낮은 상황에서 취약하며, 안전성과 규제 문제에서도 도전 과제에 직면해 있다. 특히, 규제 기관은 신뢰성과 안전성을 보장하기 위해 고정밀 센서인 LiDAR를 선호하며, 카메라 기반 접근은 단일 센서 의존으로 인해 치명적인 고장 상황에서 위험을 초래할 가능성이 있다. 또한, 카메라 데이터는 대규모로 처리해야 하므로 높은 연산 비용이 요구되며, 센서 다중화의 부재로 인해 데이터의 신뢰성과 보완성을 확보하기 어려운 측면도 있다.
앤드투앤드 방식의 가능성: 작동 프레임워크
그림 2는 앤드투앤드 자율주행 시스템의 설계 개요를 시각적으로 보여주며, 기존 모듈형 방식과의 차별성을 중심으로 앤드투앤드 접근법의 통합적 설계 방식을 설명한다. 자율주행 기술의 전통적 모듈형 방식은 감지, 예측, 계획, 제어와 같은 각 단계를 독립적으로 설계하며, 단계별 데이터 전달과 처리 과정을 거친다. 이는 각 모듈의 해석 가능성을 높이는 장점이 있지만, 모듈 간 정보 손실과 최적화 불일치로 인해 전체 시스템 성능이 제한될 가능성이 크다.
https://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=10614862
반면, 앤드투앤드 방식은 원시 센서 데이터를 입력받아 차량 제어 명령(조향, 가속, 감속)을 직접 생성하는 단일 신경망 모델로 구성된다. 이를 통해 시스템 전반을 통합적으로 최적화하며, 정보 손실을 최소화한다. 이 방식은 특히 대규모 데이터셋을 활용하여 환경의 복잡한 상호작용을 학습하고, 시스템의 예측 및 제어 능력을 향상시킬 수 있다.
그림 2는 또한 앤드투앤드 방식에서 사용하는 두 가지 학습 기법인 모방 학습(Imitation Learning)과 강화 학습(Reinforcement Learning)을 설명한다. 모방 학습은 인간 운전자의 행동 데이터를 기반으로 시스템이 운전 정책을 학습하는 방식이며, 실제 도로 주행 데이터를 활용해 비교적 짧은 시간 내에 효율적으로 학습할 수 있다. 반면, 강화 학습은 시스템이 환경과의 상호작용을 통해 보상을 최대화하는 최적 정책을 학습하며, 주로 시뮬레이션 환경에서 사용된다. 두 학습 방법은 각기 다른 장점과 단점을 지니며, 특정 목표와 조건에 따라 선택적으로 활용된다.
앤드투앤드 방식의 역사
그림 3은 앤드투앤드 자율주행 기술의 발전 과정과 주요 이정표를 시각적으로 보여주는 그림으로, 초기 연구부터 최근의 첨단 기술에 이르기까지 자율주행 기술의 혁신적 진보를 설명한다.
초기 연구에서는 단순한 구조의 신경망 모델이 사용되었다. 1988년 개발된 ALVINN 시스템은 카메라 데이터를 기반으로 자율주행을 구현한 대표적인 사례로, End-to-End 방식의 가능성을 처음으로 보여주었다. 이후 2016년 NVIDIA가 제안한 CNN 기반 시스템은 GPU 컴퓨팅 기술을 활용하여 원시 이미지 데이터를 처리하고 차량 제어 명령을 출력하는 방식으로 End-to-End 자율주행 기술의 부흥을 이끌었다. 이 연구는 자율주행의 실용성을 입증하며, 대규모 딥러닝 모델이 자율주행의 핵심 기술로 자리 잡는 계기를 마련했다.
2021년 이후로는 트랜스포머 기반 모델과 같은 첨단 딥러닝 기술이 도입되면서 앤드투앤드 자율주행의 성능이 크게 향상되었다. 특히, Bird’s Eye View(BEV)와 같은 고차원적 데이터 표현 방식이 정책 학습과 환경 이해를 최적화하는 데 기여하였다. 또한, CARLA, nuPlan과 같은 고도화된 시뮬레이션 환경의 도입으로 자율주행 시스템의 벤치마킹 및 테스트가 더 정교해졌다. 이러한 시뮬레이션 환경은 복잡한 도로 상황과 다양한 주행 시나리오를 모델링하여 시스템의 일반화 능력을 평가하는 데 중요한 역할을 하고 있다.
입력 모달리티와 융합 전략
그림 4는 자율주행 시스템에서 다양한 입력 모달리티(센서 데이터)와 이를 통합하는 융합 전략을 설명한다. 입력 모달리티는 시스템이 환경을 이해하기 위해 사용하는 여러 종류의 센서 데이터를 의미하며, 카메라, LiDAR, 레이더, IMU(관성 측정 장치), GPS 등의 센서가 포함된다. 각 센서는 고유한 데이터를 제공하며, 예를 들어, 카메라는 시각적 정보를, LiDAR는 3D 거리 데이터를 제공한다.
융합 전략은 이러한 데이터를 결합해 시스템의 성능을 최적화하는 방식을 뜻한다. 그림 4는 초기 융합(Early Fusion), 중간 융합(Mid Fusion), 후기 융합(Late Fusion)의 세 가지 접근법을 보여준다. 초기 융합은 입력 데이터를 네트워크에 전달하기 전에 결합하는 방식으로 단순하지만 정렬 문제를 고려해야 한다. 중간 융합은 각 센서를 독립적으로 인코딩한 후 네트워크의 중간 단계에서 특징을 결합하며, 트랜스포머와 같은 주의 메커니즘이 자주 사용된다. 후기 융합은 각각의 센서를 별도로 처리한 후 최종적으로 결합하는 방식으로 구현이 간단하지만 성능은 상대적으로 낮을 수 있다.
그림 4는 또한 Bird’s Eye View(BEV)와 같은 공간적 통합 표현 방식이 다양한 모달리티 데이터를 효과적으로 결합하는 데 유용하다는 점도 시사한다. 이는 자율주행 시스템의 성능 향상과 안전성을 높이기 위한 중요한 기술적 접근법이다.
정책 증류(Policy Distillation)
그림 5는 자율주행 시스템에서 정책 증류(Policy Distillation) 과정의 구조를 설명한다. 정책 증류는 고성능 전문가 모델(Teacher)의 지식을 저성능 학생 모델(Student)에 전달하여, 학생 모델이 더 가벼운 구조로 높은 성능을 낼 수 있도록 학습시키는 기법이다.
전문가 모델은 풍부한 환경 정보를 활용하여 고급 정책을 학습하며, 이를 통해 높은 성능을 보여준다. 그러나 이러한 모델은 계산 비용이 높고 실시간 적용이 어렵다는 한계가 있다. 반면, 학생 모델은 제한된 센서 데이터(예: 카메라 입력만)를 기반으로 학습하며, 전문가 모델의 출력을 모방하여 실시간 운용 가능성을 높인다.
정책 증류 과정은 크게 출력 증류(Output Distillation)와 특징 증류(Feature Distillation)로 나뉜다. 출력 증류는 전문가 모델의 최종 정책 출력을 모방하는 방식이고, 특징 증류는 중간 단계에서 학습된 특징 표현을 학생 모델로 전달하는 방식이다. 이를 통해 학생 모델은 전문가의 내부 지식까지 학습할 수 있다.
그림 5는 이 과정을 통해 자율주행 시스템이 경량화되면서도 성능을 유지하거나 개선할 수 있음을 보여주며, 특히 센서 리소스가 제한된 환경에서도 효과적으로 적용될 수 있음을 강조한다. 정책 증류는 앤드투앤드 학습 방식에서 계산 효율성과 성능 간의 균형을 맞추는 핵심 기술로 평가된다.
앤드투앤드 자율주행 학습 프레임워크
그림 6은 End-to-End 자율주행 시스템의 학습 과정을 설명하며, 데이터 입력부터 최종 제어 출력까지의 전체 파이프라인을 시각적으로 나타낸다. 입력 단계에서는 카메라, LiDAR, GPS, 속도계와 같은 다양한 센서 데이터를 수집하며, 이를 신경망 모델의 입력으로 사용한다.
네트워크는 먼저 특징 추출기(Feature Extractor)를 통해 각 센서 데이터의 저차원 특징 벡터를 생성하고, 특징 융합(Fusion Layer) 단계를 통해 데이터를 통합하여 정책 학습에 활용한다. 출력 단계에서는 차량의 조향, 가속, 감속 등의 제어 명령을 생성한다. 학습 과정에서 손실 함수(Loss Function)는 주행 경로의 정확성과 안전성(예: 충돌 회피)을 기준으로 설계되며, 시스템 성능을 최적화한다.
학습된 모델은 시뮬레이션 환경(Open-Loop 및 Closed-Loop)과 실제 주행 테스트를 통해 평가되며, 이를 통해 모델의 일반화 능력과 안정성을 검증한다. 그림 6은 앤드투앤드 방식이 통합된 학습 설계를 통해 자율주행 시스템의 효율성과 성능을 높일 수 있음을 보여준다.
앤드투앤드 방식의 도전과제
앤드투앤드 자율주행 시스템은 기존 방식에 비해 통합 최적화를 가능하게 하지만, 여러 도전 과제에 직면하고 있다. 먼저, 다양한 센서를 통합하는 작업은 각 센서의 특성과 비용 차이로 인해 설계와 융합이 어렵다. 특히, 카메라, LiDAR, 레이더 데이터를 효과적으로 결합하기 위해 중간 융합 방식과 트랜스포머 기반 방법이 주목받고 있다. 또한, 자연어 명령을 포함한 언어 입력을 활용해 고수준 행동 예측을 시도하지만, 실시간 적용에는 한계가 있다.
시각적 추상화에 대한 의존성도 문제로, 3D 표현 방식(Bird’s Eye View)은 정책 학습에 유용하지만 계산 비용이 크며, 고품질 지도 표현을 대체할 실시간 맵핑 기술은 아직 최적화되지 않았다. 자기지도 학습을 통한 표현 학습이 이러한 문제를 완화하려는 시도로 주목받고 있다. 세계 모델링은 모델 기반 강화 학습을 통해 환경을 예측하여 효율성을 높이려 하지만, 복잡한 교통 환경의 동적 특성을 효과적으로 모델링하기는 어려운 상황이다.
다중 과제 학습은 환경 이해를 위해 여러 과제를 공유하여 비용을 절감하지만, 희소한 감독 신호와 대규모 주석 데이터 구축의 현실적 제약이 문제로 작용한다. 정책 증류 과정에서는 전문가 데이터를 활용하지만, 전문가의 한계와 비효율성이 문제가 되며, 이를 보완하기 위해 강화 학습 기반 강력한 전문가 모델이 활용되고 있다.
앤드투앤드 모델의 블랙박스 특성은 해석 가능성을 저해하며, 이를 해결하기 위해 주의 메커니즘, 비용 학습, 언어적 설명과 같은 방법론이 연구되고 있다. 안전 보장 부족은 학습 기반 프레임워크의 한계로, 안전 제약 조건과 후처리 절차를 통해 보완이 시도되고 있다. 또한, 과거 데이터에 의존하여 잘못된 상관관계를 학습하는 원인 혼동 문제는 데이터 표현 병목 제거와 과거 상태 재조정을 통해 해결하려 하고 있다.
마지막으로, 드문 상황에서의 일반화 능력 부족(긴 꼬리 분포)과 학습 데이터와 실제 데이터 간 차이로 인한 공변량 변화 문제는 시뮬레이션 시나리오 생성과 도메인 적응 기법을 통해 개선하려는 노력이 이어지고 있다. 이러한 도전 과제들은 End-to-End 자율주행 기술의 성능과 신뢰성을 높이기 위한 핵심 연구 영역으로 주목받고 있다.
앤드투앤드 미래 연구 방향
앤드투앤드 자율주행 시스템의 미래 방향은 시스템의 성능과 실용성을 동시에 향상시키기 위해 세 가지 주요 접근법을 강조한다. 첫째, 제로샷(Zero-Shot) 학습과 소량 학습(Few-Shot Learning)은 훈련 데이터에 포함되지 않은 새로운 시나리오에서도 시스템이 적응할 수 있도록 하는 기술로, 데이터 라벨이 부족하거나 새로운 도메인에서 모델의 일반화 능력을 높이는 데 초점을 맞춘다. 이는 자율주행 시스템이 예외적 상황에서도 안정적으로 작동할 수 있도록 지원한다.
둘째, 모듈형 앤드투앤드 계획은 통합 최적화의 강점을 유지하면서도 모듈별 해석 가능성과 안정성을 결합하려는 접근법이다. 이 방식은 특정 모듈에서 앤드투앤드 학습을 활용하여 복잡한 작업에서 통합된 성능을 제공하면서도, 다른 영역에서는 독립적으로 설계된 모듈을 유지해 문제를 쉽게 분석하고 수정할 수 있는 유연성을 제공한다.
셋째, 데이터 엔진(Data Engine)은 대규모 데이터의 레이블링과 학습 데이터 개선을 자동화하여 모델의 성능을 지속적으로 향상시키는 체계적 프레임워크다. 데이터 엔진은 복잡하거나 드문 상황(하드 케이스)을 탐지하고 이를 학습 데이터로 활용하며, 자율주행 시스템이 다양한 주행 환경에서도 높은 성능을 발휘할 수 있도록 돕는다. 이러한 접근은 대규모 데이터셋의 생성과 관리, 학습 데이터의 다양성과 품질을 보장하는 데 중점을 둔다.
참고문헌
Chehri, A., Quadar, N., & Saadane, R. (2019). Survey on Localization Methods for Autonomous Vehicles in Smart Cities. Proceedings of the ACM SCA2019, Casablanca, Morocco.
https://doi.org/10.1145/3368756.3369101.
Chen, L., Wu, P., Chitta, K., Jaeger, B., Geiger, A., & Li, H. (2024). End-to-End Autonomous Driving: Challenges and Frontiers. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(12), 10164-10189. https://doi.org/10.1109/TPAMI.2024.3435937.