그래도 희망은 있다
2025년 1월 9일, 일론 머스크가 던진 한 마디가 AI 업계를 술렁이게 했다. “AI가 배울 수 있는 인간 지식은 거의 다 썼다.” 그가 보여준 그래프는 더 충격적이었다. 인간이 만든 공개 데이터는 2026년쯤 정점을 찍고, 그 이후로는 AI가 만든 데이터가 학습의 주재료가 된다는 것이다.
문제는 여기서 시작된다. AI가 스스로 만든 데이터를 다시 학습하면 품질이 점점 떨어질 수 있다는 것. 마치 복사기로 복사본을 또 복사하면 점점 흐릿해지는 것처럼 말이다.
인터넷에 남은 ‘진짜 지식’이 얼마나 될까
생각해보면 당연한 이야기다. 인터넷에 올라온 모든 텍스트, 이미지, 영상을 AI가 이미 학습했다면 더 이상 배울 것이 없다. 위키피디아의 모든 문서, 유튜브의 수억 개 영상, 논문 데이터베이스, SNS의 무수한 게시물까지. ChatGPT, Claude, Gemini 같은 거대 AI들은 이미 인류가 디지털로 남긴 지식의 대부분을 흡수했다.
그렇다면 다음 단계는? AI 기업들은 두 가지 길을 선택할 수밖에 없다. 하나는 아직 디지털화되지 않은 ‘오프라인 지식’을 찾아내는 것. 오래된 도서관의 책, 연구소의 비공개 자료, 전문가들의 암묵지까지. 하지만 이것도 한계가 있다.
또 다른 길은 AI가 스스로 데이터를 만들어내는 것이다. 이미 일부 기업들은 AI가 생성한 ‘합성 데이터’로 다음 세대 AI를 훈련시키고 있다. 문제는 이 합성 데이터의 품질이다.
선생님이 학생이고, 학생이 선생님이면
상상해보자. 훌륭한 선생님에게 배운 학생이 있다. 그 학생이 자라서 선생님이 되어 또 다른 학생을 가르친다. 이 과정이 반복되면 어떻게 될까? 초기 선생님의 지식은 세대를 거치며 점점 희석되고, 왜곡되고, 단순화될 것이다.
AI도 마찬가지다. GPT-4가 만든 텍스트로 GPT-5를 학습시키고, GPT-5가 만든 콘텐츠로 GPT-6을 훈련시키면? 원본 인간 지식의 뉘앙스, 창의성, 정확성이 점점 사라진다. 이를 AI 업계에서는 ‘Model Collapse(모델 붕괴)’ 또는 ’MAD(Model Autophagy Disorder, 모델 자가포식 장애)’라고 부른다.
실제로 2023년 옥스퍼드 대학 연구진은 AI가 만든 데이터로 AI를 반복 학습시키면 5세대 안에 품질이 급격히 떨어진다는 연구 결과를 발표했다. 마치 근친교배가 유전적 다양성을 떨어뜨리는 것처럼, AI끼리의 ‘지식 근친교배’가 일어나는 것이다.
그래서 무엇이 문제인가
첫째, 우리가 받는 정보의 신뢰성이 흔들린다. 이미 인터넷에는 AI가 생성한 기사, 리뷰, 논문이 넘쳐난다. 2024년 한 연구에 따르면 아마존의 자기계발서 섹션에서 AI가 쓴 것으로 추정되는 책이 전체의 20%를 넘어섰다. 이런 콘텐츠들이 다시 AI의 학습 재료가 되면서 ‘진짜’와 ‘가짜’의 경계가 모호해진다.
둘째, 창의성과 다양성이 사라진다. AI는 기존 패턴을 학습해서 새로운 것을 만들어내는데, 그 ‘기존 패턴’ 자체가 AI가 만든 것이라면? 점점 평균적이고, 안전하고, 예측 가능한 결과물만 나올 수밖에 없다. 마치 인스타그램 필터를 거듭 적용하면 모든 사진이 비슷해지는 것처럼.
셋째, 전문성의 가치가 더욱 중요해진다. 역설적이게도 AI가 발전할수록 ‘진짜 인간 전문가’의 지식과 경험이 더 귀해진다. AI가 학습하지 못한 암묵지, 현장의 노하우, 깊이 있는 통찰이 차별화 포인트가 되는 것이다.
R&D는 어떻게 달라져야 할까
국가 연구개발 전략을 세우는 입장에서 보면, 일론 머스크의 경고는 중요한 시사점을 던진다.
먼저, 데이터 주권의 중요성이다. AI 시대에는 ‘좋은 데이터’를 확보하는 것이 경쟁력이다. 특히 한국어로 된 고품질 데이터, 한국의 문화와 맥락을 담은 데이터는 글로벌 AI 기업들도 쉽게 구할 수 없다. 우리만의 고유한 지식 자산을 체계적으로 디지털화하고 관리하는 전략이 필요하다.
다음으로, 합성 데이터의 품질 관리다. AI가 만든 데이터로 AI를 학습시키는 것이 불가피하다면, 그 품질을 어떻게 검증하고 보증할 것인가? 단순히 양만 늘리는 것이 아니라, 인간 전문가의 검수와 피드백을 체계적으로 결합하는 시스템이 필요하다.
마지막으로, 인간 전문성의 재발견이다. AI가 범용적 지식을 다룬다면, 인간 연구자는 더욱 깊이 있고 창의적인 영역에 집중해야 한다. 현장의 암묵지를 발굴하고, 학제 간 융합을 시도하고, 아직 데이터화되지 않은 새로운 영역을 개척하는 것. 이것이 AI 시대 R&D의 핵심 역할이 될 것이다.
그래도 희망은 있다
일론 머스크의 경고는 무서울 수 있지만, 동시에 기회이기도 하다. AI가 인간의 지식을 다 배웠다는 것은, 이제 인간이 새로운 지식을 만들어낼 차례라는 뜻이기도 하다.
우리는 여전히 질문을 던질 수 있고, 호기심을 가질 수 있고, 실험할 수 있다. AI는 과거의 지식을 정리하고 조합하는 데는 탁월하지만, 아직 존재하지 않는 것을 상상하고 실현하는 것은 인간만이 할 수 있는 영역이다.
2026년 이후, AI가 AI를 가르치는 시대가 본격화될 때, 진짜 경쟁력은 ‘얼마나 많은 데이터를 가졌는가’가 아니라 ‘얼마나 새로운 지식을 만들어내는가’에 달려 있을지도 모른다.
그리고 그 새로운 지식은, 여전히 인간의 호기심과 창의성에서 시작될 것이다.