최근에 Jack Morris의 AI 관련 글 하나를 읽었습니다.
There Are No New Ideas in AI… Only New Datasets
(AI에는 새로운 아이디어가 없다. 오직 새로운 데이터셋만 있을 뿐이다.)
처음엔 조금 의아했습니다. AI는 매일처럼 발전하고 있고, GPT-4, Grok, Claude 같은 새로운 모델들이 끊임없이 등장하고 있는데 ‘새로운 아이디어는 없다’라니요. AI 성장의 본질이 무엇인가를 다시 생각하게 해주는 글이었습니다.
Jack Morris는 지난 10여 년간의 AI 발전을 네 번의 ‘패러다임 전환’으로 설명합니다. 그는 이 전환들이 모두 새로운 알고리즘이 아니라, 새로운 형태의 데이터가 사용되기 시작한 시점이었다고 말합니다.
1. Deep neural networks: Deep neural networks first took off after the AlexNet model won an image recognition competition in 2012
2. Transformers + LLMs: in 2017 Google proposed transformers in Attention Is All You Need, which led to BERT (Google, 2018) and the original GPT (OpenAI, 2018)
3. RLHF: first proposed (to my knowledge) in the InstructGPT paper from OpenAI in 2022
4. Reasoning: in 2024 OpenAI released O1, which led to DeepSeek R1
첫 번째 전환은 2012년, AlexNet이라는 딥러닝 모델이 이미지 분류 대회에서 압도적인 성능을 내며 시작됐습니다. 하지만 진짜 핵심은 모델이 아니라, ‘ImageNet’이라는 수백만 장의 사진과 정답이 함께 있는 대규모 이미지 데이터셋이 처음으로 활용되었다는 점이었습니다.
두 번째는 2018년, 트랜스포머 구조의 등장과 함께 언어모델들이 폭발적으로 발전한 시기입니다. 이때는 모델보다도 전 세계 웹사이트의 모든 텍스트를 긁어와 학습에 활용하기 시작한 것이 전환의 핵심이었습니다.
세 번째는 2022년, 인간의 피드백을 활용한 강화학습(RLHF)이 본격적으로 도입되면서, AI가 단순히 말하는 수준을 넘어서, ‘사람이 봤을 때 좋은 답변’을 내기 시작했습니다. 이때부터는 인간이 직접 고른 ‘좋은 대답’을 기준으로 모델을 학습시키는 새로운 방식이 등장하게 된 것입니다.
그리고 네 번째는 2024년, AI의 ‘추론 능력’이 강조되면서 단순한 언어 생성에서 더 나아가, 스스로 생각하고, 논리적으로 검증하는 능력이 생겨났다는 점입니다. 이전에는 사람이 ‘이게 맞는 답이다’라고 알려줘야 했다면, 이제는 계산기, 컴파일러 같은 정답을 자동으로 판별해줄 수 있는 시스템이 AI 학습에 직접 쓰이기 시작한 것입니다.
예를 들어, 수학 문제를 풀었을 때 계산기가 ‘맞다’ 혹은 ‘틀렸다’를 바로 알려주거나, 코드를 작성했을 때 컴파일러가 에러 여부를 판단해주는 것처럼 기계가 직접 모델의 답을 평가하고, 그것을 학습 데이터로 활용하는 방식이 등장한 것입니다. 이건 인간의 주관적인 판단 없이도, 정확하고 객관적인 피드백을 모델에게 줄 수 있다는 점에서 완전히 새로운 형태의 데이터 활용이라고 볼 수 있습니다.
이 글의 핵심 메시지는 여기에서 나옵니다. AI 성능을 결정짓는 것은 ‘혁신적인 구조’나 ‘정교한 알고리즘’이 아니라, 얼마나 다양하고, 잘 정리된, 새로운 종류의 데이터를 갖고 있느냐라는 점입니다.
실제로 어떤 연구팀은 기존 트랜스포머 구조가 아닌 다른 구조(State Space Model)로 BERT와 같은 언어모델을 만들어 봤습니다. 그런데 동일한 데이터로 학습시켰더니 성능 차이가 거의 없었다고 합니다. 이는 곧, 모델 구조를 아무리 바꿔도 데이터가 같다면 얻을 수 있는 결과에는 분명한 한계가 있다는 것을 보여줍니다.
예를들어 아이에게 한 권의 수학 문제집만 100번 풀게 하면, 그 아이가 아무리 머리가 좋아도 결국 배우는 내용은 거기서 거기일 수밖에 없습니다. 머리가 좋은지, 공부 방법이 다른지는 중요할 수 있지만 진짜 실력이 늘려면 새로운 문제, 다른 스타일의 질문, 실전 경험 같은 다양한 자극이 필요하잖아요? AI도 비슷한 셈입니다. 배우는 대상(데이터)이 같다면, 학습 방식(모델 구조)을 바꿔도 실력 향상에 한계가 있는 겁니다.
그렇다면 다음 패러다임 전환은 어디에서 올 수 있을까요? Jack Morris는 두 가지 가능성을 제시합니다.
하나는 유튜브 같은 영상 데이터입니다. 현재도 유튜브에는 매분 500시간 이상의 영상이 올라오고 있다고 합니다. 이 영상들에는 단순한 텍스트 정보보다 훨씬 더 풍부한 맥락과 의미가 담겨 있습니다. 표정, 말투, 움직임, 분위기 같은 것들은 텍스트만으로는 절대 포착할 수 없는 정보죠.
다른 하나는 현실 세계에서 수집되는 로봇의 센서 데이터입니다. AI가 스스로 주변 환경을 관찰하고, 물건을 만지고, 걸어 다니며 겪은 경험을 데이터로 저장하고 활용할 수 있다면 AI는 말 그대로 ‘경험에서 배우는 존재’가 될 수 있을지도 모릅니다.
요즘은 AI 관련 뉴스나 기술이 너무 빠르게 쏟아져 나와서, 정작 무엇이 진짜 중요한지를 놓치기 쉬울 때가 많습니다. 이 글은 AI의 다음 혁신은 어디서부터 시작될 수 있을지 조심스럽게 짚어줍니다. 그 시작점은 아마도 새로운 데이터를 어떻게 수집하고, 다루고, 이해하느냐에 달려 있을 것 같습니다.