언제나 다다익선이 최선은 아니다.
테슬라의 한계는 또 있는데, 주행 데이터가 원본 영상이 아니라, 추출된 파라미터(벡터화된 정보) 위주로 데이터를 수집한다고 밝혀온 점이다. 테슬라는 여러 차례 프레젠테이션에서 “벡터 스페이스(vector space)”라는 표현을 사용하며, 카메라 영상에서 추출된 객체, 거리, 속도, 차선, 신호 상태 등을 추상화한 벡터 표현을 학습의 기본 단위로 활용한다고 설명했다. 파라미터나 벡터화된 정보 위주로 데이터 수집을 하는 전략은 저장공간과 전송 대역폭을 크게 줄여 준다는 점에서 명백한 장점이 있다. 특히 테슬라처럼 전 세계 수백만 대 차량에서 동시에 데이터를 수집하는 회사는, 원본 영상을 상시로 모두 업로드하는 방식은 현실적으로 비용이 감당되지 않는다. 따라서 특정 이벤트가 발생했을 때만 원시 영상 일부를 수집하거나, 사용자의 동의를 받았을 때만 사고 전후 영상을 전송하는 방식으로 절충을 택한 것으로 보인다. 실제로 테슬라는 차량 설정 메뉴에서 데이터 공유와 영상 업로드에 대한 동의를 묻고 있으며, 사고 발생 시 일정 구간의 영상이 테슬라 서버로 전송될 수 있다는 점을 명시하고 있다.
그러나 이 전략은 약점을 갖는다. 만약 차량이 어떤 상황에서 이상한 판단을 했을 때, 그 원인이 “영상 인식 단계의 오류”인지, “인식된 파라미터를 조합한 판단 로직의 문제인지”, 혹은 “브레이크나 센서의 기계적 결함”인지 명확하게 분리해 진단하려면, 가능한 한 원시 영상과 센서의 생데이터가 필요하다. 파라미터로 축약된 데이터는 이미 “AI가 해석한 결과”만 담고 있기 때문에, 그전 단계에서 무엇을 잘못 보거나 잘못 추출했는지 역추적하기가 어렵다. 이는 디버깅과 안전성 개선의 관점에서 분명한 제약이다.
아래 그림에서 보이듯 테슬라의 카메라로 촬영된 영상은 영상 처리 AI를 거쳐서, 상황 판단 AI가 위험 상황으로 판단하면 브레이크나 조향을 이용하여 사고를 방지해야 한다. 하지만, 사고가 났다면 원본 영상을 확보하고 있어야 어느 단계에서 문제가 생겼는지 확인할 수 있다. 하지만, 테슬라는 이미 변형된 파라미터만 보유하고 있어서 문제를 확인하기 어려운 단점이 있다. 다른 자율주행 업체들은 이 지점을 다르게 접근해 왔다. 웨이모, 크루즈, 모빌아이 등은 제한된 수의 차량에서라도 고해상도 라이다, 레이더, 카메라, GPS, IMU 등 다양한 센서의 원시 데이터를 수집하고, 이를 클라우드로 올려 오프라인에서 철저히 재분석한다. 특히 사고나 위험 이벤트가 발생했을 때는 원시 데이터를 최대한 상세히 보존해, 인식·판단·제어 체인의 어느 부분에서 문제가 발생했는지 추적한다. 물론 이 역시 비용과 프라이버시 이슈가 크지만, 안전 인증과 규제 대응, 사고 소송 대비 차원에서 상당한 가치를 가진다. 이런 차이는 테슬라와 타사 간의 기술 철학과 위험 감수성의 차이로 해석할 수 있다.
다음 사진은 FSD 14 버전을 사용해서 주차하던 중 기둥에 충돌하는 영상인데, 이런 사고의 경우 영상 제공에 동의했어도 충돌 사고가 크지 않아서 경미한 사고로 판단하여 영상 자료 전달이 안되면, 이런 사고에 대한 자료를 수집하지 못해서 주차시에 이런 사고가 자주 일어날 수도 있다. 이런 현상은 수백만 대의 자동차에서 운행정보를 얻어오는 방식의 한계일 수 있다.
기술 발전 측면에서 보면 “테슬라가 120억 km 데이터를 가지고 있으니, 다른 회사는 절대 따라올 수 없다”는 주장은 어느 정도나 사실일까. 우선, 절대량 측면에서는 테슬라는 분명한 선발주자이다. 도로 위에 깔린 차량 수, 데이터 수집 기간, 지리적 다양성 면에서 상당한 우위를 확보해 왔다. 그러나 이 우위가 “영구적이고 절대적인 격차”로 이어지느냐 하면, 그렇다고 단언할 수는 없다. 이 글에서 언급하듯, 기술 발전은 아래 그림과 같은 로지스틱 함수 형태, 즉 S자 곡선을 그리며 진행되는 경우가 많다. 초기에는 데이터와 경험이 부족해 작은 개선도 어렵지만, 어느 순간 노하우와 도구, 인프라가 갖춰지면 성능이 빠르게 상승하고, 다시 어느 지점 이후에는 극적인 개선이 점점 더 어려워지는 구간에 진입한다.
자율주행에서도 비슷한 양상이 관찰된다. 고속도로 차선 유지와 전방 차량 추종 같은 기능은 비교적 적은 데이터와 단순 알고리즘으로도 꽤 빨리 80% 수준까지 올라온다. 반면 복잡한 도심, 비정형 교차로, 애매한 표지판, 보행자의 돌발 행동, 공사 구간처럼 불확실성이 높은 환경에서 “95%에서 99%”로의 도약은 매우 고통스럽다. 이 구간에서는 “얼마나 많은 데이터를 쌓았느냐”보다 “오작동 케이스들을 얼마나 잘 포착하고, 이를 어떻게 학습했느냐”가 더 중요해진다. 이때 후발주자는 선발주자의 논문, 특허, 제품, 심지어 리버스 엔지니어링을 통해 시행착오의 상당 부분을 건너뛸 수 있다. 이는 선두 주자가 겪는 '수확 체감의 법칙'인 동시에, 후발 주자가 가지는 '후발 주자의 이점'이다. 서구에서 수백 년간 쌓은 산업기술은 일본은 100년 만에 따라잡았고, 우리나라는 50년 만에, 중국은 30년 만에 따라잡은 것도 같은 이유이다.
최근 AI 업계에서 중국의 딥시크(DeepSeek)가 적은 비용으로 ChatGPT에 준하는 성능을 낸 사례는 ChatGPT를 활용한 '지식 증류'와 효율적인 데이터 큐레이션의 힘을 증명한다. 후발 주자들은 선두 주자가 시행착오를 겪으며 축적한 방법론을 벤치마킹하고, 정제된 고품질 데이터만을 집중적으로 학습시킴으로써 120억 km라는 물리적 주행 거리의 격차를 예상보다 적은 비용으로 빠르게 좁힐 것이다.
요약하면, 데이터는 많다고 무조건 좋은 것이 아니고, 정제되고 의미 있는 데이터가 중요하다. 자율주행에서 정상 주행 데이터는 일정 수준 이상이 되면 한계 효용이 급격히 줄어들고, 오히려 사고나 준사고, 오작동, 고스트 브레이킹 같이 위험과 연관된 희귀 이벤트 데이터가 가치의 대부분을 차지하게 된다. 이런 데이터는 자율주행 시스템이 고도화될수록 더 얻기 어렵고, 또 전체 데이터 안에서 찾아내는 과정 자체가 고난도의 작업이다. 테슬라가 파라미터 중심의 데이터 수집 방식을 취함으로써 얻는 효율성은 크지만, 영상 인식 단계와 판단 단계, 그리고 하드웨어 결함을 정밀하게 구분해 분석하기에는 정보량이 부족할 가능성이 있다. 이 점은 안전성 개선과 규제 대응 측면에서 잠재적 약점이 될 수 있다.