데이터가 만드는 지능
ChatGPT 같은 인공지능을 처음 사용하는 사람들은 종종 이런 질문을 한다.
“AI는 이걸 어디서 배운 거야?”
역사 이야기도 하고, 프로그래밍도 설명하고, 때로는 시를 쓰기도 한다. 그러다 보니 마치 인공지능이 스스로 공부해서 똑똑해진 것처럼 느껴지기도 한다.
하지만 실제로는 그렇지 않다.
인공지능은 학교에 다니지도 않았고 책을 읽지도 않았다. 대신 엄청난 양의 데이터를 통해 학습한다.
이 점을 이해하면 생성형 AI가 어떻게 작동하는지 절반은 이해한 셈이다.
사람이 공부하는 과정을 떠올려 보자. 우리는 책을 읽고 경험을 쌓고 실수를 하면서 배운다. 어떤 사실을 이해하고, 그것을 기억하고, 필요할 때 다시 꺼내 쓴다. 인간의 지식은 경험과 기억 속에서 조금씩 축적된다.
하지만 인공지능은 세상을 직접 경험하지 않는다. 대신 인터넷에 존재하는 수많은 문장을 분석한다. 뉴스 기사, 블로그 글, 책, 논문 같은 텍스트 데이터가 그 재료가 된다.
이 데이터 속에서 인공지능은 언어의 패턴을 찾는다.
어떤 단어 다음에 어떤 단어가 등장하는지, 어떤 문장이 어떤 문맥에서 사용되는지, 어떤 표현이 어떤 상황에서 자연스러운지 같은 규칙을 통계적으로 분석한다.
중요한 점은 이것이다.
AI는 내용을 이해하기보다 패턴을 학습한다.
예를 들어 “오늘 날씨가 너무 …”라는 문장이 있다고 하자. 인간이라면 상황을 떠올리며 자연스럽게 “좋다”나 “덥다” 같은 단어를 말할 것이다. 인공지능도 비슷한 방식으로 작동하지만 그 과정은 전혀 다르다.
AI는 수많은 문장을 학습하면서 “날씨가 너무” 다음에 어떤 단어가 등장했는지 확률을 계산한다. 그리고 그 확률이 가장 높은 단어를 선택한다.
이런 방식으로 단어 하나, 문장 하나가 만들어진다.
이 과정을 처음 들으면 약간 단순하게 느껴질 수도 있다. 하지만 여기에는 하나의 조건이 있다.
데이터의 규모다.
오늘날의 대형 언어 모델은 수십억 개에서 수조 개에 이르는 단어를 학습한다. 인간이 평생 읽을 수 있는 텍스트보다 훨씬 많은 양이다. 이 거대한 데이터 속에서 언어의 패턴이 추출되고, 그 패턴이 모델 안에 압축된다.
그래서 생성형 AI는 한 사람의 지식을 가진 시스템이라기보다 인터넷에 축적된 인간 지식의 통계적 요약에 가깝다.
이 구조는 인공지능의 능력을 설명해 주는 동시에 한계를 설명해 주기도 한다.
AI는 데이터를 기반으로 작동한다. 그래서 데이터가 충분히 많은 영역에서는 놀라운 성능을 보여준다. 번역, 글쓰기, 코드 작성 같은 분야가 대표적인 예다.
하지만 데이터가 부족하거나 모호한 영역에서는 성능이 급격히 떨어지기도 한다.
결국 AI의 지식은 AI 자체에서 나오는 것이 아니라 인간이 만들어온 데이터에서 나온다.
이 사실은 조금 흥미로운 질문을 남긴다.
인공지능이 점점 더 똑똑해지고 있는 시대에 우리는 종종 AI의 능력에 놀란다. 하지만 그 능력의 원천을 따라가 보면 결국 인간이 남긴 글과 정보, 그리고 기록들이 있다.
어떤 의미에서 보면 인공지능의 발전은 기술의 발전이기도 하지만 동시에 인류가 남긴 데이터의 역사이기도 하다.