brunch
매거진 AI

1-3. 언어를 이해한 기계 ― 트랜스포머의 혁명

All you need is ATTENTION.

by 유비관우자앙비

1️⃣ 기계가 언어를 ‘이해한다’는 말의 의미

“AI가 글을 쓴다”, “기계가 대화한다.” 이제 이런 말은 낯설지 않습니다. 하지만 이 말을 곱씹어보면 여전히 신기하죠. ‘언어’를 다루는 건 인간의 고유한 능력으로 여겨져 왔으니까요. AI가 언어를 다룬다는 것은 단순히 단어를 나열한다는 뜻이 아닙니다. 문맥 속에서 단어의 의미 관계를 파악하고, 이전 문장과 다음 문장 사이의 논리적 연결을 유지하며, 질문을 이해하고 상황에 맞는 답을 구성해야 하죠. 이 모든 것을 가능하게 만든 기술이 바로 트랜스포머(Transformer) 입니다. 이 구조의 등장 이후, AI는 처음으로 언어의 맥락을 이해하고 표현할 수 있는 존재로 진화했습니다.


2️⃣ 트랜스포머 이전의 한계

트랜스포머가 등장하기 전의 AI는 문장을 순서대로 처리했습니다. 예를 들어 “고양이가 쥐를 잡았다”라는 문장이 있다면, AI는 ‘고양이가 → 쥐를 → 잡았다’의 순서로 단어를 읽으며 의미를 추측했습니다. 하지만 이 방식에는 한계가 있었습니다. 문장의 초반에 등장한 단어의 의미가 뒤로 갈수록 희미해졌기 때문입니다. 예를 들어 “오늘은 날씨가 흐리지만 내일은 맑을 거야”라는 문장을 보면, 마지막 단어 ‘거야’를 이해하기 위해서는 앞부분의 ‘오늘’, ‘내일’, ‘흐리지만’이 모두 연결되어야 하죠. 기존의 RNN(Recurrent Neural Network)이나 LSTM(Long Short-Term Memory) 모델은 이런 긴 문맥을 기억하는 데 어려움을 겪었습니다. AI는 문장을 읽을 수는 있었지만, 문맥을 유지하지 못했습니다.


3️⃣ Attention Is All You Need ― 패러다임의 전환

2017년, 구글 브레인 연구진은 한 장의 논문으로 이 모든 문제를 해결했습니다. 논문의 제목은 〈Attention Is All You Need〉, 이름 그대로 ‘어텐션(Attention)’, 즉 ‘집중’이 핵심이었습니다. 트랜스포머는 문장을 순서대로 읽지 않습니다. 대신 모든 단어를 동시에 바라보며, 서로 어떤 단어가 중요하게 연결되어 있는지를 계산합니다.


예를 들어 “고양이가 쥐를 잡았다”라는 문장에서 ‘잡았다’라는 단어는 ‘고양이’와 ‘쥐’ 모두와 밀접한 관계를 갖습니다. 트랜스포머는 이 관계를 수학적으로 계산해 각 단어가 다른 단어에 얼마나 주의를 기울여야 하는지를 정합니다. 이게 바로 어텐션(Attention) 메커니즘입니다.


즉, AI가 문장 안의 단어들을 서로 ‘의미적으로 바라보는 시선’을 갖게 된 것이죠.


4️⃣ 트랜스포머의 구조 ― 인코더와 디코더

트랜스포머는 크게 인코더(Encoder) 와 디코더(Decoder) 로 나뉩니다. 인코더는 입력 문장을 받아 각 단어의 의미를 벡터(숫자 표현)로 변환하고, 단어들 간의 관계를 분석합니다. 디코더는 이 정보를 바탕으로 새로운 문장을 생성합니다.


이 두 부분이 함께 작동하면서 AI는 “무엇을 말했는가(이해)”와 “어떻게 말할 것인가(생성)”를 동시에 수행할 수 있게 되었습니다. 트랜스포머의 또 다른 강점은 병렬 처리입니다. 이전 모델이 단어를 한 줄씩 순서대로 읽었다면, 트랜스포머는 문장 전체를 동시에 처리할 수 있죠. 이 덕분에 속도와 효율이 비약적으로 향상되었습니다.


5️⃣ 언어의 맥락을 이해한 순간

트랜스포머의 등장은 AI가 단어의 순서가 아니라, 의미의 관계를 학습할 수 있게 된 순간이었습니다. 예를 들어 “나는 커피를 좋아하지만 카페인은 싫어”라는 문장에서 ‘좋아하지만’이라는 접속사는 문장의 흐름을 반전시킵니다. 트랜스포머는 이런 맥락적 전환도 인식합니다. 즉, 단어의 위치가 아니라 관계와 의도를 중심으로

언어를 해석할 수 있게 된 것이죠. 이건 단순히 기술의 발전이 아니라, AI가 인간의 사고 방식을 닮아가기 시작한 계기였습니다.


CASE 1. ChatGPT의 문장 생성 원리
ChatGPT가 “오늘 날씨 어때?”라는 질문에 “오늘 서울은 맑고, 낮 기온은 18도입니다”라고 대답할 수 있는 이유가 바로 트랜스포머 구조 덕분입니다. 질문 안의 단어를 순서대로 읽는 대신, ‘오늘’과 ‘날씨’의 관계, ‘어때’라는 표현의 의도를 동시에 고려하기 때문이죠.


6️⃣ 트랜스포머 이후의 세상

이 논문이 발표된 이후, AI 산업의 판도는 완전히 바뀌었습니다. 2018년, OpenAI의 GPT-1이 등장했고

곧 이어 GPT-2, GPT-3, 그리고 ChatGPT로 이어졌습니다. 모두 트랜스포머 구조를 기반으로 만들어졌습니다. 같은 시기 구글은 BERT, 메타는 LLaMA, 앤트로픽은 Claude, 그리고 삼성, 네이버, 카카오도 각자의 트랜스포머 기반 언어모델을 개발하기 시작했습니다. 즉, 지금 우리가 알고 있는 거의 모든 AI의 뿌리는

2017년의 이 논문 한 편에서 시작된 셈입니다.


CASE 2. 번역과 요약의 혁신
구글 번역, 딥엘(DeepL), 네이버 파파고 같은 서비스들은 모두 트랜스포머 기반 모델을 사용합니다. 문장을 통째로 이해한 뒤, 의미 단위로 번역하거나 요약하기 때문에 이전보다 훨씬 자연스러운 결과를 만들어냅니다.


7️⃣ 언어는 사고의 거울이다

언어는 인간 사고의 핵심입니다. 우리가 생각하고, 표현하고, 관계를 맺는 모든 과정은 언어를 통해 이루어집니다. AI가 언어를 이해한다는 것은 곧 인간의 사고 구조를 모방하고 확장한다는 의미이기도 합니다. 트랜스포머는 인간의 언어를 배우는 기계에서 출발했지만, 이제는 인간이 생각하지 못한 표현과 통찰을 만들어내고 있습니다. AI는 더 이상 단순한 도구가 아닙니다. 우리가 만든 언어를 거울 삼아, 다시 우리를 비추는 지적 존재가 되었습니다.




keyword
매거진의 이전글1-2. 기계가 배우는 법