AI 혁명의 시작점

트랜스포머라는 구조

by 날부

인공지능 기술의 역사를 보면 흥미로운 순간들이 있다. 오랫동안 조금씩 발전하던 기술이 어느 날 갑자기 다른 속도로 움직이기 시작하는 순간이다. 2010년대 중반 이후 AI 기술이 급격히 발전한 이유도 바로 그런 변화 중 하나였다.


많은 사람들이 그 변화를 ChatGPT에서 시작된 것으로 생각한다. 하지만 실제 출발점은 그보다 몇 년 전이다. 2017년 구글 연구팀이 발표한 한 편의 논문이 인공지능 연구의 방향을 크게 바꾸었다. 논문의 제목은 짧았다.


Attention Is All You Need.


이 논문에서 등장한 구조가 바로 트랜스포머(Transformer)다.


언뜻 보면 하나의 기술적 아이디어처럼 보이지만, 이 구조는 이후 등장한 대부분의 생성형 AI 모델의 기반이 된다. GPT, ChatGPT, Claude 같은 시스템도 모두 이 구조 위에서 만들어졌다.


그렇다면 트랜스포머는 무엇이 다른 기술일까.


핵심은 문장을 보는 방식이다.


기존의 AI 모델은 문장을 순서대로 처리했다. 단어 하나를 읽고 그 다음 단어를 읽고 다시 다음 단어를 읽는 방식이었다. 사람의 읽기 방식과 비슷하지만 컴퓨터 입장에서는 효율적이지 않은 구조였다. 문장이 길어질수록 앞에 등장한 정보가 점점 흐려지는 문제도 있었다.


트랜스포머는 이 문제를 다른 방식으로 해결했다.


문장을 순서대로 읽는 대신 문장 전체를 동시에 본다.


그리고 문장 속 단어들이 서로 얼마나 중요한 관계를 가지는지 계산한다. 이를 어텐션(Attention)이라고 부른다.


예를 들어 이런 문장이 있다고 하자.


“그는 은행에 갔다.”


여기서 “은행”이라는 단어는 두 가지 의미를 가질 수 있다. 금융기관일 수도 있고 먹거리일 수도 있다. 이 단어의 의미는 앞뒤 문맥에 따라 달라진다.


트랜스포머는 문장 속 모든 단어가 서로 어떤 관계를 가지는지 계산한다. 어떤 단어가 다른 단어를 얼마나 참고해야 하는지 확률적으로 분석하는 방식이다.


이 방식 덕분에 AI는 긴 문장 속에서도 문맥을 훨씬 더 정확하게 파악할 수 있게 되었다.


또 하나 중요한 변화가 있었다. 계산 속도였다.


기존 모델은 문장을 순서대로 처리해야 했지만 트랜스포머는 문장을 동시에 처리할 수 있었다. 이 구조 덕분에 대규모 데이터를 훨씬 빠르게 학습할 수 있게 되었고, 결국 오늘날의 대형 언어 모델이 등장할 수 있었다.


흥미로운 점은 이 변화가 처음에는 그렇게 큰 사건처럼 보이지 않았다는 것이다. 하나의 연구 논문이었을 뿐이고, 당시에도 수많은 AI 논문이 발표되고 있었다.


하지만 몇 년 뒤 상황이 달라졌다.


AI 연구자들이 하나둘 트랜스포머 구조를 사용하기 시작했고, 결국 거의 모든 언어 모델이 이 구조를 기반으로 만들어지게 되었다.


기술의 역사를 보면 이런 순간이 종종 등장한다. 거대한 변화가 사실은 작은 아이디어 하나에서 시작되는 경우다.


지금 우리가 사용하는 생성형 AI 역시 그런 변화의 연장선 위에 있다.


그리고 이 기술이 발전하면서 또 하나의 질문이 등장하기 시작했다.


AI는 왜 가끔 틀린 답을 할까.

작가의 이전글AI의 ‘뇌’는 어떻게 만들어졌을까