AI 학습:딥러닝의 진화와 트랜스포머의 시대

내가 묻고 AI가 답하다

by 한재영 신피질

지금까지 인공지능과 머신러닝, 딥러닝의 기본 구조를 차례차례 정리해 보았다.

이제는 그 기술들이 어떻게 진화해 왔고, 무엇이 지금의 인공지능을 가능하게 했는가를 들여다볼 차례다. 그리고 그 중심에는 한 단어가 있다: 트랜스포머(Transformer).


딥러닝, 왜 '깊이'가 중요한가?

딥러닝은 머신러닝보다 한 단계 더 진보한 기술이다. 사람이 데이터를 정리해 주는 대신, 기계가 스스로 중요한 특징(feature)을 찾아내고, 그걸 바탕으로 판단을 내리는 것이 핵심이다.

초기의 딥러닝 모델은 주로 이미지 처리에서 뛰어난 성능을 보였다. 이미지넷 대회에서 'AlexNet'이 등장하며 CNN(합성곱 신경망)이 각광받았고, 이후 영상, 음성, 자율주행 등에서 딥러닝은 빠르게 영역을 넓혀갔다.

하지만 자연어—즉, 사람의 언어를 이해하고 생성하는 일은 훨씬 더 까다로운 문제였다.


문장은 단어가 줄지어 나열된 것 같지만, 사실은 맥락(context)과 의미의 흐름이 중요하다. 사람은 앞뒤 문장을 보며 중의적인 표현도 자연스럽게 이해한다. 하지만 기계는 단어 하나하나만 놓고 판단하려는 경향이 강했다.

초기의 자연어 딥러닝 모델은 이 문제를 잘 풀지 못했다. RNN(순환신경망), LSTM(장단기 메모리 네트워크) 등 여러 시도가 있었지만, 문장이 길어질수록 정보가 뒤로 갈수록 희미해지는 ‘장기 의존성 문제’에 부딪혔다.



트랜스포머의 등장은 혁명이었다



2017년, 구글은 논문 한 편을 발표한다. 제목은 단순했다.
“Attention is All You Need”

이 논문에서 제시된 모델이 바로 트랜스포머(Transformer)다. 트랜스포머는 기존의 딥러닝 방식과는 완전히 다른 사고를 제시했다.


핵심 아이디어 : 모든 단어는 서로를 바라볼 수 있다."



기존 RNN이 단어를 차례대로 읽어갔다면, 트랜스포머는 문장 전체를 한꺼번에 보고, 각 단어가 문장 안의 다른 모든 단어에 집중(attention)하도록 설계했다.


트랜스포머(Self-Attention) 사례—

그녀는 사과를 집어 먹었다”
Self-Attention은 문장에서 단어들이 서로 얼마나 관련 있는지를 계산해, 중요한 단어끼리 연결을 강하게 해 주는 방식이다.

1. 문장:
그녀는 사과를 집어 먹었다

2. Self-Attention이 하는 일:
- “사과”라는 단어를 볼 때, 모델은 “먹었다”와의 관련성을 높게 잡는다.
- “그녀”라는 단어를 볼 때, “집어”·“먹었다”보다 인물 정보와 연결된 부분에 더 주목한다.
- 이렇게 단어끼리 서로 '누가 누구와 관련이 깊은지'를 계산해, 중요한 관계에 더 많은 비중을 둔다.

3. 핵심 포인트:
- 모든 단어가 서로를 ‘한 번씩 다 바라보며’ 관계를 평가한다.
- 멀리 떨어진 단어라도 중요한 관계라면 강하게 연결한다.
- 이 과정 덕분에 문장의 의미를 더 정확하게 이해할 수 있다.

Self-Attention은 문장의 모든 단어가 서로를 바라보고 중요한 연결에 집중하는 기술이다. 마치 대화에서 중요한 사람의 말에 더 귀를 기울이는 것과 같다.

이를 자기 주의(Self-Attention)라고 한다. 이 방식은 문장의 길이와 상관없이, 어떤 단어가 어떤 단어와 관련 있는지를 계산해 내는 능력이 뛰어나다.


트랜스포머가 나온 이후, 자연어처리 기술은 말 그대로 폭발적으로 발전했다.

GPT, BERT, T5, RoBERTa, ChatGPT, Claude… 오늘날 우리가 쓰는 대부분의 대형 언어 모델들은 모두 트랜스포머 구조 위에서 만들어진 것이다.

GPT는 트랜스포머의 생성적(generative) 구조를 활용해 사람처럼 글을 쓴다.
BERT는 문장 사이의 이해(comprehension)를 중심으로 설계되어 검색, 분류 등에 강하다.
최근에는 멀티모달 트랜스포머가 등장하면서, 텍스트뿐 아니라 이미지, 소리, 비디오까지 함께 처리하는 AI가 현실화되고 있다.

작가의 이전글지리산 천왕봉 일출