언제나 다다익선이 최선은 아니다.
며칠 전 한 대형 유튜브 채널의 출연자가 테슬라는 압도적으로 긴 주행 데이터를 가지고 있어서 다른 업체가 도저히 따라올 수 없으며, 같은 데이터를 확보하기 위해서는 엄청난 자금을 투자해야 한다는 취지의 주장을 하는 것을 보았다.
이 출연자는 일정 규모 이상의 데이터를 다뤄본 경험이 없을 것이라고 확신한다. 대형 데이터를 다뤄보면 데이터가 많은 게 중요한 것이 아니라 데이터의 질이 중요하다는 것을 알았을 테니 말이다.
자율 주행에는 두 가지 축이 성능을 결정한다. 정상 운전 성능 축과 안전 운전 축이다. 자동차는 사고가 났을 때 탑승자의 생명까지 위협할 수 있어서 안전 운전이 매우 중요하다. 정상 운전은 일상적으로 수행하는 운전이다. 앞으로 가고, 코너를 돌고, 정지하는 등 자동차의 움직임이 얼마나 자연스럽고 부드러운가를 결정한다. 안전 운전 축은 사고가 발생할 가능성을 미리 감지하여 사고가 나지 않도록 하는 능력이다. 이 두 가지 축을 중심으로 AI를 학습시켜야 평소에는 부드럽고 자연스러운 운행을 하고, 사고 위험이 감지되면 적절한 대처를 하여 사고 발생을 방지한다.
아래 그림을 보면 운행 데이터를 정규 분포처럼 나타내었다. 운행 데이터의 대부분은 별일 없이 정상적으로 운행하는 데이터이고, 양 끝단에는 두 가지 데이터가 나타나는데, 먼저 [위험하지 않은데 위험하다고 판단] 한 경우로 예를 들면 고스트 브레이킹처럼 위험이 없는데도 과민 반응한 경우와 두 번째 데이터 유형은 [위험한데 위험하지 않다고 판단] 한 경우로 이 두 가지 경우가 다 오작동한 경우이다. 문제는 정상 운전 상태와 오작동 상태가 서로 반대라는 것이다. 즉 자율 주행 성능이 좋아져서 오른쪽 그림같이 정상 운행 데이터가 많이 분포되면, 오작동 케이스가 점점 적어져서 학습에 활용할 수 없게 된다. 오작동 케이스를 학습에 활용하지 못하면 자율주행 시스템의 성능 발전이 한계를 가지게 된다. 쉬운 예를 들면 시험에서 30점 받는 학생이라면 공부하는 것이 중요하지만(정상 주행을 학습하는 것), 90점 받는 학생은 오답(오작동 사례)을 철저하게 공부해야 100점을 받을 수 있는 것과 같다.
즉 일정 수준에 다다른 자율주행 AI가 학습해야 할 대상은 이러한 정상 주행이 아니라, 갑자기 튀어나오는 보행자, 역주행 차량, 악천후 속의 센서 오류와 같은 희귀한 '에지 케이스(Edge Case)'들이다. 이미 수억 km를 주행하며 정상 주행을 마스터한 AI에게, 추가적인 100억 km의 고속도로 주행 데이터는 성능 향상에 도움이 안 되는 중복 데이터일 뿐이다. 수많은 데이터 중에서 필요한 오작동 케이스(에지 케이스)를 찾아서 학습에 활용하는 데이터 마이닝을 통해서 좋은 오작동 데이터를 학습시켜야 자율주행 성능 향상을 얻을 수 있다. 초기 단계의 자율주행 시스템은 빈번하게 실수하기 때문에, 그 실수를 기록하는 것만으로도 훌륭한 학습 자료가 된다. 그러나 시스템이 안정화되어 99%의 상황을 잘 처리하게 되면, 남은 1%의 치명적인 오류 데이터를 수집하기 위해 엄청난 시간과 비용을 쏟아부어야 한다.
일론 머스크가 XAI의 GROK 모델의 발전에 관해 이야기하면서 언급했던 "더 이상 학습할 데이터가 없다"는 취지의 발언이나, 최근 거대언어모델(LLM) 분야에서 제기되는 데이터 고갈론은 이러한 맥락과 닿아 있다. AI 모델의 성능이 일정 수준에 도달하자, AI 모델 성능 향상에 도움이 되는 자료를 더 이상 구하기 어려워진 현실을 보여준다. 자율주행에서도 단순히 주행 거리를 늘리는 '마구잡이식 수집'은 분석 비용만 증가시킬 뿐, 안전성이라는 핵심 가치를 증진하는 데에는 한계가 명확하다. 진정으로 필요한 것은 사고 직전의 상황이나 AI가 오판한 순간을 정확히 포착하여 정제해 낸 '고순도 데이터'이다.