brunch

인공지능이 갑자기 다가온 이유

2017년 트랜스포머, AI의 코페르니쿠스 혁명 - 내가 묻고 AI가 답

by 신피질

인공지능(AI)이 대중의 일상 속으로 깊숙이 들어온 건 불과 몇 년 전의 일이다.


하지만 이 짧은 시간 동안의 변화는 마치 천동설에서 지동설로 전환되던 과학혁명과 닮아 있다. 그 ‘지동설’에 해당하는 사건이 바로 2017년 트랜스포머(Transformer)의 등장이다.

1. 그전까지의 AI — 발전은 있었지만 한계도 뚜렷


2010년대 초중반의 AI는 딥러닝 붐 속에서 빠르게 성장했다.


이미지 인식에서는 CNN(합성곱 신경망), 음성·언어 처리에서는 RNN(순환 신경망)과 LSTM이 활약했다.

* LSTM(Long Short- Term Memory)장단기 메모리 : 기억을 오래 유지하거나 선택적으로 잊는 메카니즘


그러나 이 구조들은 문맥이 긴 정보를 처리하는 데 약했고, 학습 속도도 느렸다. GPU 성능이 좋아져도 모델 구조 자체의 병목을 해결하기는 어려웠다.

2. 2017년, ‘Attention Is All You Need’


구글 브레인 팀이 2017년 발표한 논문 Attention Is All You Need는 기존 방식의 틀을 깨뜨렸다. 핵심은 Self-Attention 메커니즘이다.


- 문장을 한 단어씩 순서대로 처리하던 RNN과 달리, 트랜스포머는 전체 문맥을 한 번에 바라본다.

* RNN(Recurrent Neural Network 순환 신경망. 데이터의 순서를 고려해 처리하는 인공 신경망


- 단어와 단어 사이의 관계(의미적 거리)를 효율적으로 계산해, 긴 문장도 빠르고 정확하게 이해한다.


- 모든 처리를 병렬로 할 수 있어 GPU 효율이 극대화됐다.
이 구조 덕분에 모델은 더 크고, 더 깊고, 더 빠르게 성장할 수 있었다.



3. 인프라와 데이터의 결합


트랜스포머의 잠재력은 곧 GPU·TPU 등 AI 특화 하드웨어의 발전과 맞물렸다.


NVIDIA A100, H100 같은 칩은 대규모 병렬 연산에 최적화돼 있었고, 클라우드 컴퓨팅은 수천 개 GPU를 묶어 하나의 학습 작업에 투입할 수 있는 환경을 제공했다.


같은 시기, 인터넷에는 이미 방대한 텍스트·이미지·코드 데이터가 쌓여 있었다. 위키백과, 뉴스, 논문, 오픈소스 코드, 소셜미디어… 이 모든 것이 학습의 원료가 됐다.

4. RLHF — 사람의 감각을 AI에 입히다


모델이 커졌다고 해서 곧바로 ‘사람 같은’ AI가 되지는 않는다. GPT-3(2020)는 놀라운 문장 생성 능력을 보여줬지만, 여전히 말 같지만 틀린 답을 내놓는 경우가 많았다.


이를 바꾼 것이 RLHF(Reinforcement Learning from Human Feedback)다.


사람이 AI의 답변을 보고 ‘좋은 답’과 ‘나쁜 답’을 가르쳐 주면서, AI가 인간 선호에 맞춰 스스로를 조정하게 한 것이다. 이 과정이 ChatGPT의 등장(2022)으로 이어졌다.



5. 코페르니쿠스적 순간
지동설이 세상을 바라보는 관점을 바꿨듯, 트랜스포머는 AI가 언어와 세상을 이해하는 방식을 근본적으로 뒤집었다.
그 이후의 변화는 폭발적이었다.


- 모델 크기는 수억 → 수천억 매개변수로 확대
- 언어, 이미지, 음성, 코드까지 멀티모달 AI로 확장
- AI 스타트업과 빅테크의 투자 경쟁 가속

6. 앞으로의 여정


트랜스포머가 닦아 놓은 길 위에서 AI는 계속 진화하고 있다.
다음 ‘코페르니쿠스 혁명’은 멀티모달 AI의 완성, AGI(범용 인공지능)로 가는 길목, 그리고 AI가 스스로 목표를 세우고 행동하는 자율형 에이전트가 될 때 올지도 모른다.

정리
AI의 갑작스러운 도약은 우연이 아니다.
트랜스포머라는 구조 혁신, 폭발한 데이터, 초강력 계산 인프라, 인간 피드백의 결합이 만들어 낸 역사적 필연이었다.
2017년은 AI 역사에서 결코 지워지지 않을 ‘혁명의 해’로 기록될 것이다.

keyword
이전 01화일반 인공지능 (AGI)