효율화 전쟁의 서막
2화에서 우리는 트랜스포머라는 거인의 탄생을 목격했다.
'트랜스포머 + 더 많은 데이터 + 더 강력한 컴퓨팅 = 더 뛰어난 성능'.
이 성공 공식은 지난 몇 년간 AI 산업의 황금률처럼 여겨졌다. AI의 '버전업'은 곧 더 거대한 모델의 등장을 의미했고, AI의 미래는 끝없는 규모의 경쟁처럼 보였다.하지만 2022년, AI 연구계의 거인 구글 딥마인드가 이 공식에 거대한 물음표를 던졌다. 과연 '더 큰 것'이 항상 '더 똑똑한 것'을 의미할까?
딥마인드의 연구진은 '친칠라(Chinchilla)'라는 이름의 연구를 통해 세상에 도발적인 질문을 던졌다. 마치 한 편의 다윗과 골리앗 이야기 같았다. 당시 AI 연구자들은 두 명의 수험생을 두고 고민에 빠져 있었다. 한 명은 덩치(매개변수)는 크지만 교과서(데이터)를 한 번만 대충 훑어본 수험생이었고, 다른 한 명은 덩치는 작지만 같은 교과서를 여러 번 정독하여 완벽하게 소화한 수험생이었다. 과연 누가 시험을 잘 볼까?
딥마인드는 이 질문에 답하기 위해 직접 실험을 했다. 이전의 거대 모델 '고퍼(Gopher)'는 2,800억 개의 매개변수를 가졌지만, '친칠라'는 그보다 4배나 작은 700억 개의 매개변수만 가졌다. 대신 훈련 데이터의 양은 4배로 늘렸다.
결과는 충격적이었다. 거의 모든 언어 작업에서 몸집은 작지만 더 많이 공부한 '친칠라'가 무작정 덩치만 키운 '고퍼'를 압도했다. 더 놀라운 사실은 친칠라가 같은 컴퓨팅 비용으로 고퍼보다 3배 더 나은 성능을 보였다는 점이었다.
이는 AI 개발의 패러다임을 '얼마나 큰가(Scale)'에서 '얼마나 효율적으로 학습하는가(Efficiency)'로 바꿔놓은 결정적 사건이었다. AI의 '버전업'이 단순히 더 큰 모델을 만드는 것이 아니라, 주어진 자원 안에서 최적의 균형점을 찾는 '보이지 않는 전쟁'의 서막을 알린 것이다.
친칠라가 쏘아 올린 신호탄은 AI 생태계 전체를 뒤흔들었다. '더 적게 쓰고 더 많이 얻어야 한다'는 절박함은 AI의 두뇌(소프트웨어)와 심장(하드웨어)이라는 두 개의 전선에서 동시에 치열한 기술 전쟁을 촉발시켰다.
제1전선: 더 영리한 두뇌를 만드는 알고리즘
첫 번째 전선은 AI 모델 자체를 더 똑똑하게 만들어 계산의 낭비를 줄이는 소프트웨어 영역이다.
- MoE (Mixture of Experts): 필요할 때만 나서는 전문가 군단
MoE는 거대한 AI 모델을 하나의 통으로 보지 않는다. 대신 모델 내부에 각기 다른 전문 분야를 가진 수많은 '전문가(Expert)' 네트워크를 둔다. 그리고 질문이 들어오면 모든 전문가가 나서는 것이 아니라, 질문의 내용과 가장 관련 있는 소수의 전문가만 활성화하여 답을 찾는다.
마치 거대한 종합병원에서 환자의 증상에 맞는 전문의 몇 명만 호출하는 것과 같다. 복통 환자에게 정형외과, 피부과, 안과 의사까지 모두 부를 필요는 없지 않은가. 이 방식으로 전체 모델의 극히 일부만 사용하면서도 거대한 모델 전체가 작동하는 것과 비슷한 성능을 낸다.
구글의 Switch Transformer는 1.6조 개의 매개변수를 가지면서도, 실제로는 그중 1% 미만만 사용해 기존 T5 모델과 동등한 성능을 보였다. 마치 거대한 백과사전을 통째로 읽는 대신, 필요한 항목만 찾아보는 것처럼 효율적이다.
- RAG (Retrieval-Augmented Generation): 똑똑한 오픈북 시험
RAG는 AI가 모든 지식을 머릿속에 외울 필요가 없다는 아이디어에서 출발한다. 대신 질문을 받으면 먼저 외부의 방대한 데이터베이스에서 가장 정확한 최신 정보를 찾아(Retrieval) 그 내용을 참고, 증강(Augment)하여 답변을 생성(Generation)한다. '오픈북 시험'을 보는 셈이다.
이 방식의 장점은 명확하다. 모델 자체는 작게 유지하면서도 최신 정보에 접근할 수 있고, 특정 분야의 전문 지식도 외부 데이터베이스를 통해 보완할 수 있다. Microsoft의 Bing Chat이나 Google의 Gemini가 실시간 검색 결과를 활용하는 것이 대표적인 예다.
하지만 이 오픈북 시험에도 함정은 있다. AI가 '잘못된 페이지'를 펼치거나(부정확한 검색), 책에 답이 없는데도 '답을 지어내는' 새로운 유형의 환각(hallucination)이 발생하기 때문이다. 이 때문에 최근 연구자들은 AI가 스스로 검색한 내용이 올바른지 검증하고 수정하는 '자기성찰(Self-Reflection)' RAG 기술을 개발하며 더 똑똑하게 오픈북 시험을 치르는 방법을 연구하고 있다.
제2전선: 주어진 심장을 극한까지 뛰게 하는 인프라
두 번째 전선은 알고리즘을 실행하는 물리적 인프라, 즉 하드웨어의 효율을 마지막 한 방울까지 쥐어짜내는 시스템 엔지니어링의 영역이다. 핵심 질문은 이것이다. "어떻게 하면 같은 데이터센터에서 더 큰 LLM을 돌리거나, 같은 LLM을 더 작은 데이터센터에서 돌릴 수 있을까?"
- GPU 나누고 합치기 (가상화와 파티셔닝)
NVIDIA의 MIG(Multi-Instance GPU) 같은 기술은 하나의 거대한 GPU를 논리적으로 여러 개의 작은 GPU처럼 나누어 쓴다. 추론(inference)처럼 작은 연산이 수없이 발생할 때마다 거대한 GPU 전체를 할당하는 낭비를 막는다.
마치 하나의 큰 주방을 여러 요리사가 칸막이를 치고 동시에 사용하듯, 자원을 효율적으로 분배하여 GPU의 유휴 시간을 최소화한다. 실제로 A100 GPU 하나를 7개의 독립적인 인스턴스로 나누어, 각각 다른 AI 모델을 동시에 실행할 수 있다.
- AI 작업 맞춤형 번역기 (특화 컴파일러)
NVIDIA Triton이나 최근 주목받는 Mojo 같은 AI 특화 컴파일러는 AI 코드를 GPU가 가장 효율적으로 실행할 수 있는 기계어로 '번역'한다. AI 연산의 특징을 미리 파악하여 GPU 하드웨어 구조에 최적화된 실행 계획을 짜주는, 마치 특정 분야의 전문 용어까지 완벽하게 이해하는 동시통역사와 같다.
- 장보기는 한 번에 (커널 퓨전)
AI 연산은 수많은 작은 계산 단계로 이루어지며, 각 단계마다 메모리에서 데이터를 가져와야 한다. 커널 퓨전(Kernel Fusion)은 이 여러 개의 작은 계산을 하나의 큰 계산으로 합쳐버린다.
마치 요리할 때 필요한 모든 재료를 한 번에 다 꺼내놓고 시작하는 것처럼, 메모리 접근 횟수를 획기적으로 줄여 GPU가 기다리는 시간 없이 연산에만 몰두하게 만든다. 이를 통해 같은 연산을 2-3배 빠르게 수행할 수 있다.
- 뇌신경처럼 연결하기 (초고속 인터커넥트)
거대 AI 모델은 수만 개의 GPU가 한 문제를 푸는 '집단 지성'이다. 이때 개별 GPU의 성능만큼 중요한 것이 GPU 간의 통신 속도다. 만약 한 GPU가 계산을 끝내고 다른 GPU의 결과를 기다리느라 시간을 허비한다면, 전체 시스템의 효율은 급격히 떨어진다.
NVIDIA NVLink나 InfiniBand 같은 초고속 인터커넥트 기술은 GPU들을 일반 네트워크가 아닌, 마치 하나의 거대한 뇌를 구성하는 뉴런들처럼 촘촘하고 빠르게 연결한다. 이를 통해 데이터 병목을 최소화하고, 모든 GPU가 한 몸처럼 움직이게 만든다.
- 그래서, 얼마나 효율적인가?
그렇다면 이 치열한 노력들은 실제로 얼마나 큰 차이를 만들까? F1 경주에서 엔진 출력만큼이나 공기역학과 타이어 전략이 중요하듯, AI의 성능 역시 단순 계산 능력(FLOPS)만으로 결정되지 않는다.
각각의 기술과 기존 방식 대비 추정 기대 효과는 다음과 같다.
이 숫자들을 종합하면 그 의미는 더욱 명확해진다. 전통적인 방식으로는 100대의 GPU가 필요했던 모델을, 알고리즘과 인프라 최적화를 통해 30~50대의 GPU만으로도 운영할 수 있게 된다는 뜻이다. 혹은 같은 100대의 GPU로 3~5배 더 많은 사용자의 요청을 처리할 수 있게 된다. 이것이 바로 '효율화 전쟁'의 실체다.
이 '효율화 전쟁'은 단순히 연구자들 사이의 기술 경쟁이 아니다. 소프트웨어와 하드웨어, 양쪽 전선에서 모두 앞서 나가는 기업만이 미래의 AI 패권을 쥘 수 있다. 이는 국가와 기업의 운명을 가르는 전략적 격차로 직결된다.
결국 효율화 전쟁의 승자는 AI 기술의 발전 속도를 지배하게 된다. 같은 예산으로 더 나은 AI를 만들 수 있다면, 그 기업은 경쟁자들을 압도할 수 있다. 반대로 효율화에서 뒤처진다면, 아무리 많은 돈을 투입해도 따라잡기 어려워진다. 이는 기술의 문제가 아니라, 우리 사회의 공정성과 기회의 문제, 나아가 국가 간의 'AI 격차'라는 지정학적 문제로 이어진다.
진화의 엔진은 이제 단순히 몸집을 키우는 것을 넘어, 더 영리하고 효율적으로 작동하는 방향으로 스스로를 최적화하고 있다. 하지만 이 똑똑해진 엔진조차도 곧 피할 수 없는 거대한 물리적 장벽과 마주하게 된다. 바로 실리콘 반도체가 도달할 수 있는 물리적 한계, 그리고 그 너머에서 기다리고 있는 전혀 새로운 가능성들이다.
다음 화에서는 바로 그 벽, '실리콘의 마지막 불꽃'에 대해 이야기해 보려 한다.