DeepSeek가 촉발한 AI전쟁

GenAI, 우리도 할 수 있다. 정신 똑띠 차리자. ('25.3 작성)

by 지우맘

최근 참석한 네이버 AI센터장인 하정우 센터장의 AI 세미나를 바탕으로 지금 전 세계를 뒤흔들고 있는 AI 흐름과 그 중심에 선 중국의 DeepSeek가 왜 이렇게 화두인지에 대하여 정리해 보려 합니다.


이제까지 AI는 OpenAI를 필두로 Google, Anthropic, Perplexity 등 미국이 주도하고 있었죠. 물론 중국의 알리바바에서도 좋은 모델들이 나오긴 했지만 미국의 AI에 필적할 만한 모델이라고 보기는 어려웠는데, 이번 DeepSeek는 오히려 좀 더 강력한 모델을 오픈 소스로. 공개하는 바람에 AI 경쟁이 훨씬 더 치열해지는 것 같습니다.


AI의 진화: '글 잘 쓰는 AI'에서 '생각하는 AI'로

이전까지 우리가 알고 있던 AI는 글을 요약하고 이메일을 쓰는 데 매우 유용했습니다. 이들을 "Knowledge AI"라고 부르죠. 이들은 엄청나게 많은 양의 데이터들을 다음 단어 맞추기 또는 다음 단어 맞추기 하는 형태로 한 12조번 했더니, 언어를 이해하는 능력, 글을 쓰는 능력과 약간의 계획을 수립하는 능력이 있는 AI입니다. GPT-4, Claude 3.5, Gemini 2.0, 네이버의 하이퍼클로바x, 삼성의 Gauss, Meta의 Llama 등이 있습니다.


하지만 최근에는 추론 능력, 즉 문제를 스스로 분석하고 논증하는 과정을 거쳐 해답을 도출하는 AI, 이른바 "Thinking AI"가 등장하고 있어요. CoT(Chain of Thought)라고 하죠? 복잡한 문제를 단계적으로 풀어나가는 사고 과정이요, 생각이 단계별 절차를 거치며 차례차례 생각의 흐름을 정리하고 이를 다시 검증하면서 다음 단계로 나아가는 방식입니다. Knowledge AI들은 사람이 질문을 하면 그냥 한방에 글을 쭉 써내려 갑니다. 그런데 이 Thinking AI들은 한 방에 쓰는 게 아니라 자기가 글을 써 놓고 제대로 썼는지, 안 썼는지 스스로 생각도 하고 검증도 하고 평가도 한 다음에 더 좋은 방법을 찾아 고쳐쓰기를 하는 거죠.


대표적인 사례로는:

OpenAI의 O1: 복잡한 수학 문제도 단계별로 풀이하며 스스로 오류를 고칩니다.

Anthropic의 Claude 3.7 Sonnet: OpenAI의 Sam Altman이 GPT5부터는 글쓰기 모델과 Reasoning 모델을 구분하지 않고 그냥 요청만 하면 자체적으로 판단해서 글 쓰기 모델을 쓸 지, Reasoning 모델을 쓸 지를 통합해 버리겠다고 했는데 이를 OpenAI보다 먼저 해 낸 최초의 AI입니다. 논문 글쓰기와 코딩을 매우 잘한다고 합니다.

DeepSeek-R1: O1과 필적할 만하면서 특히 코딩, 수학, 과학 등에 역량을 보이고 있습니다.

Grok3: Elon Musk의 x.AI에서 만든 Grok3는 H100 GPU 20만개로 학습중인데, 아직 반밖에 학습하지 못했음에도 OpenAI의 O1을 뛰어넘는다고 합니다.


화면 캡처 2025-11-25 152219.jpg


이런 AI는 단순히 정답을 내는 걸 넘어서, 생각의 흐름을 보여주며 사용자와 협업하는 수준까지 왔습니다.

이렇게 능력치를 보인 것까지는 좋은데 대신 비쌉니다. GPT4에 비해 O1은 100만 토큰 기준 단가가 3배 정도 비쌉니다. 단가만 비싼 게 아니라 쓰는 토큰의 양도 많아집니다. Knowledge AI는 한방에 글을 써 내려갔잖아요, Thinking AI는 추론 과정을 거치는데 이것이 많게는 글의 양의 4배까지 됩니다. 그러면 단가 3배에 글 쓰는 양 4배, 12배는 돈을 더 써야 하는 겁니다.


▷ 모델 별 토큰당 단가 테이블

화면 캡처 2025-11-25 152450.jpg 출처 : https://gpt40mni.com/openai-o1/pricing/


▷ Comparison of Models: Quality, Performance & Price Analysis” by Artificial Analysis

화면 캡처 2025-11-25 152625.jpg 남색은 결과물에 소요된 토큰 수, 보라색은 추론을 위해 소요된 토큰 수, 출처: ibbaka, 2025.1.7.


중국 발 DeepSeek, 왜 이렇게 주목 받을까?

DeepSeek는 중국 헤지펀드 자회사 하이플라이어가 만든 오픈소스 AI인데요, 단순히 "모델을 잘 만들었다"가 아니라, Elon Musk나 Sam Altman이 아니어도 강력한 AI를 빠르고 싸게 만들 수 있다는 가능성을 오픈소스와 기술문서까지 공개함으로써 현실화시켰다는 것이 충격입니다.

기술 문서에 상세한 학습 구조와 최적화 기법까지 다 공개했어요. MoE(Mixture of Experts), MLA (Multi-Head Latent Attention), Knowledge Distillation 등을 통해서 ChatGPT나 Grok3처럼 엄청난 학습량, 즉 엄청난 GPU 와 인건비 등을 쓰지 않고도 높은 성능과 효율을 동시에 잡았습니다. 자체 검증, 숙고(reflection), 긴 CoT(Chain-of-Thought) 생성 등 뛰어난 능력을 보여줍니다.


MoE, MLA, distill, 너무 어렵지 않나요? 저 같이 답답하신 분들을 위하여 하나씩 설명 들어갑니다.


MoE(Mixture of Experts)

딥러닝 모델을 여러 개의 전문 하위 네트워크(Expert)로 구성하고, 입력 데이터에 따라 그 중 일부만 활성화하여 연산을 수행하는 구조입니다. 각 Expert는 특정 업무나 입력 유형에 최적화되어 있으며, Gating Network가 입력을 분석해 어떤 Expert를 사용할 지 결정합니다. 솔트룩스의 이경일 대표는 이를, 한 명을 의사, 변호사, 프로그래머 등 모든 것을 다 할 수 있게 학습시키는 방식이 아니라 여러 명에게 각각 역할을 부여해서 공부를 시키고 그들이 협업해서 문제를 해결할 수 있게 하는 방식이라고 비유하더군요.


이렇게 하면 다음과 같은 이점을 가지게 됩니다.

전체 모델은 수천억개 파라미터를 가져도 실제 연산 시에는 일부만 사용하므로 연산 효율성이 극대화됩니다.

다양한 전문가(예. 금융, 법률, 교육, 코딩 등)를 통해 해당 업무에 특화된 처리가 가능해집니다.

예를 들어, DeepSeek V3는 총 64개의 Expert를 포함한 MoE 구조를 채택했으며, 입력마다 8개만 활성화하여 실행됩니다. 이를 통해 6,710억 파라미터를 보유하면서도 실행 시에는 370억개 파라미터만 사용하는 거죠.


MLA(Multi-Head Latent Attention)

입력과 출력 간의 직접적인 Attention 연결 대신 잠재(Latent) 공간 상의 공유된 중간 표현을 통해 정보를 교환하는 구조입니다. 이 방식은 복잡한 관계를 추론할 때 연산 효율성과 확장성을 동시에 확보할 수 있는 장점이 있습니다.


이 구조는 Google의 Perceiver, Meta의 Perceiver IO 등 다양한 모델에서 채택되며, 입력 길이에 비례하는 연산량을 입력 크기와 무관한 잠재 공간 크기로 제한할 수 있어 특히 긴 입력이나 멀티모달 입력 처리에 유리하다네요. 기존 Transformer 구조는 입력길이가 길어질수록 Attention 연산량이 n2으로 증가했으나 MLA는 입력 Token들이 잠재 노드와만 상호작용하고 잠재노드끼리 정보를 요약하고 다시 출력방향으로 전달하는 방식입니다.

어쩐지 요즘엔 아무리 긴 내용을 Prompt에 넣어도 다 받아주더라구요?


Knowledge Distillation(지식 증류)

큰 규모의 고성능 모델(Teacher Model)로부터 작은 규모의 모델(Student Model)이 학습할 수 있도록 설계된 모델 최적화 기법입니다.

이 방식은 다음과 같은 장점을 가집니다.

모델 크기를 줄이면서도 성능을 최대한 유지할 수 있습니다.

학습 속도를 향상시키고 추론 비용을 절감할 수 있습니다.

실제 레이블보다 Teacher의 ‘경험 기반’ 확률 분포를 학습함으로써 더 일반화된 성능을 확보할 수 있습니다.

최근에는 단순 모델 압축을 넘어, 다음과 같은 다양한 활용으로 확장되고 있습니다.

Chain of Thought Distillation: Teacher가 추론한 사고 과정을 학습(예.DeepSeek R1, OpenAI O1)

Self-Distillation: 같은 모델이 자신의 예측을 다시 학습

Cross-Model Distillation: GPT-4로 생성된 데이터를 다른 오픈모델이 학습

이는 오픈소스 LLM에서 자주 활용되며 특히 고성능 모델(O1, GPT-4)에서 생성한 데이터를 바탕으로 더 경량화된 모델에 추론 능력을 전이시키는 수단으로 각광받고 있습니다.


실제 DeepSeek 기술문서에 명확히 명시되진 않았지만 DeepSeek R1이 GPT-4와 O1의 Chain of Thought 능력을 오픈소스 모델로 흡수하였다는 추정이 있습니다. DeepSeek 개발팀이 공개된 O1이나 GPT-4 API를 활용해서 수십만개의 고난도 문제를 생성하거나 수집하고 RLHF(Reinforcement Learning from Human Feedback)까지 GPT나 O1을 활용했을 것이라는 썰은 이제 공공연한 비밀입니다. SNS상에 문제와 풀이 방식이 O1과 1:1로 일치한다는 샘플이 다수 올라오고, DeepSeek 기술문서에 CoT 예시로 든 것에 OpenAI 공식 문서의 샘플과 동일한 문장을 포함하고 있는 등 흔적들이 포착되고 있습니다. 실제로, 2025년 2월 Microsoft Azure는 LLM API 사용 고객 중 특정 트래픽 패턴이 있으면 조사하라는 내부지침을 내렸다고 합니다. OpenAI도 조사에 착수했다는 설이 있습니다. 사실 OpenAI 약관에는 API 결과물을 모델 학습에 사용하거나 역제작(reverse-engineering)하는 것을 명확히 금지하고 있거든요.


2025년 1월 20일 오픈소스 모델로 공개된 DeepSeek-R1은 DeepSeek V3 모델을 기반으로 학습에 약 80억 원이 든 것으로 추정됩니다. 이것은 개발비는 아니고 학습시키는 데 들어간 GPU비용이긴 합니다만, 그래도 이런저런 개발비를 합쳐도 수백억 정도만 들었을 것으로 예상됩니다. 참고로 GPT-3가 200억, GPT-4가 2천억 O1은 수천억~1조원이 들었을 것으로 추산됩니다. 그러니, DeepSeek가 이를 우회학습했다면 상당한 수준의 기술도용문제로 이어질 수 있다는 게 OpenAI 측 입장이겠지요. 그러나 DeepSeek가 썼던 Distillation 같은 기술들은 이미 10년전부터 이야기되어 왔던 기술이고 OpenAI 도 썼던 기술이에요. DeepSeek가 OpenAI 데이터를 대량으로 베껴왔다고 소송을 걸 수 있을까요? 저는 어렵다고 봅니다. OpenAI도 정말 엄청난 양의 데이터를 허락 없이 가져와서 만들었거든요. 어떤 사이트의 경우 방문객의 90%가 OpenAI 의 bot이었다고 하더라구요. 지금은 DeepSeek를 우회학습하는 많은 후발 LLM들이 있구요.


DeepSeek는 단순히 OpenAI를 도용만 한 것은 아닙니다. MoE, MLA, Distillation, Reinforce Learning 등 효율적으로 AI를 구현할 수 있는 기술들을 발전시켜 OpenAI나 x.AI의 Grok3처럼 천문학적인 자본을 넣지 않고도 그만한 성능의 AI를 구현할 수 있다는 것을 증명한 데에 있습니다.

� 참고로, DeepSeek 기술문서에서는 학습에 사용된 GPU 시간, 비용 추산, 데이터 증류 과정까지 모두 투명하게 밝혔습니다.

화면 캡처 2025-11-25 153755.jpg


작년부터 학습량을 늘려서 성능을 향상시키는 스케일링이 한계에 달했다는 얘기가 간간히 들렸죠? GPT-2, GPT-3, GPT-4로 갈수록 파라미터 수는 기하급수적으로 증가했지만 성능 향상은 점점 둔화되고 있습니다. 예를 들어 벤치마크 점수에서 GPT-4는 GPT-3.5 대비 10~15% 정도 개선이지만 비용은 수배 증가했지요. 훈련 비용도 GPT-4가 수백억원대, Grok3가 수천억원대라고 하는데, 연산량 증가 속도가 수익화 속도를 앞지르고 있다고들 해요. 배보다 배꼽이 더 크다? 거기에 가용할 수 있는 데이터도 한계가 있고요. 그래서 업계에서는 성능을 향상시키기 위한 다른 스케일링을 적용하고 있습니다. Post-training scaling, Test-time scaling으로 이름 붙여가면서 말이죠. 저는 DeepSeek가 이런 다른 스케일링 기법을 많이 동원했다고 봅니다. GPU 연산량을 무한정 늘리는 대신, 다른 방법들을 고민하고 만들어낸 것이죠. “Constraints breed creativity”


OpenAI나 Elon Musk 같은 초거대 자본 없이도, 그 동안 축적된 데이터 없이도 GenAI를 버금가게 만들어낼 수 있다는 희망이 전세계를 뒤흔든 것이 아닌가 싶습니다.

▷ 젠슨황의 CES2025 기조연설 중 언급된 3가지 Scaling 법칙

화면 캡처 2025-11-25 154415.jpg 출처 : CES2025

DeepSeek로 촉발된 Sovereign AI

DeepSeek로 인해 AI에 대한 진입장벽이 낮아지고, 중국에 개인정보가 유출되는 것 아니냐는 우려가 나타나고, 중국이 미국을 추월할 지 모른다는 위기의식으로 실리콘밸리에서는 저작권을 없애 달라고 로비중인데다가, 미국은 NVIDIA의 AI칩 수출을 제한하는 등, AI를 전략 자산화할 것이라는 추측이 정론화되다 보니 Sovereign AI 에 대한 관심이 고조되고 있습니다.


Sovereign AI란 자체 인프라, 데이터, 인력 및 비즈니스 네트워크를 사용하여 AI를 구축하는 ‘자주적인 AI’를 의미합니다. 작년까지 Sovereign AI는 국가나 특정 지역의 언어와 문화 그리고 정치, 사회에 특화된 AI 모델을 개발하고 이를 통해 해당 지역의 데이터와 요구사항을 반영한 맞춤형 AI 솔루션을 제공하고자 하는 움직임이었습니다. 그러나 DeepSeek 이용약관에 키보드 입력 패턴도 수집한다는 항목이 등재되고 논란이 되다 보니, 개인정보 침해 논란이 벌어졌고 데이터 주권(Data Sovereignty)을 지키기 위한 것으로 중심이 옮겨가고 있습니다. GenAI 모델 학습에 사용되는 데이터는 글로벌 인터넷에서 수집된 정보인데 그 안에는 각국의 개인정보와 민감한 정보가 포함될 수 있으니까요.


24년5월 EU AI Act를 발표하며 인공지능 기술 규제법을 만들어 인권침해적 요소를 지닌 AI 서비스를 금지하던 유럽에서조차 규제보다 개발에 힘을 싣고 있는 분위기입니다. 25년 1월에는 프랑스에서 열린 AI Action Summit에서 ‘유럽이 AI 산업발전을 저해하는 과도한 규제를 줄이고 세계와 발맞추어 나가야 한다’며 규제를 완화하겠다고 밝혔습니다. 구체적으로는 여러 국가와 글로벌 기업이 참여하는 AI 협력 프로젝트 ‘Current AI’를 출범시키며 향후 5년간 25억달러(약 3조 3천억원)까지 투자를 확대할 계획입니다.


프랑스 소재 Scaleway라는 illiad 그룹 자회사는 유럽에서 가장 강력한 Cloud Native AI Super Computer를 구축하고 있습니다.


스위스 정부가 대주주로 있는 Swisscom Group은 최근 이탈리아 자회사인 Fastweb이 이탈리아 최초이자 가장 강력한 NVIDIA DGX 기반 Super Computer를 구축할 예정이며, 이 Super Computer 역시 NVIDIA AI Enterprise Software를 사용하여 이탈리아어로 기본 훈련된 최초의 LLM을 개발할 것이라고 발표했습니다.


인도 정부도 인력 개발, 지속 가능한 컴퓨팅, 국내 컴퓨팅 역량에 대한 민간 부문 투자를 촉진하는 Sovereign AI 이니셔티브를 발표했습니다. 예를 들어, 인도에 본사를 둔 Tata 그룹은 NVIDIA GH200 칩을 기반으로 대규모 AI 인프라를 구축하고 있으며, Reliance Industries는 세계에서 가장 인구가 많은 국가의 다양한 언어로 훈련된 GenAI에 맞춘 LLM을 개발할 예정입니다.


일본은 과대투자보다 과소투자가 더 위험하다며 소프트뱅크를 필두로 ‘AI 독립전쟁’에 나서고 있습니다. 일본 정부는 NVIDIA 본사를 몇 번씩이나 직접 방문해 “최신 모델 GPU를 일본에 우선적으로 공급해 달라”고 요청하고 경제산업성은 기업의 데이터센터 건립 및 GPU 구매 비용을 절반을 지원하겠다고 밝혔습니다.


마지막으로 싱가포르는 NVIDIA 와 협력하여 국가 Super Computer Center(NSCC)를 NVIDIA H100 GPU로 업그레이드하는 등 다양한 Sovereign AI 프로그램을 육성하고 있습니다. 또한, 동남아시아 전역에 에너지 효율적인 AI 공장을 구축하는 선도적인 통신 서비스 제공업체인 Singtel은 NVIDIA GPU 및 AI Reference를 확대하고 있습니다.


AI는 더 이상 실험실 기술이 아니라 산업 경쟁력의 핵심이 되었습니다.


Conclusion: 우리나라도 이젠 뛰어야 합니다.

세미나에서 하정우 박사는 이렇게 말했습니다:

"우리는 LLM을 미국, 중국에 이어 3번째로 개발해 낸 Knowledge AI 만렙 국가입니다. 하지만 Thinking AI로 진화하려면 GPU 인프라와 CoT 기반 데이터, 산업화 역량이 필요합니다."


AI는 어렵습니다. 천문학적인 자본이 투자되어야 하고, GPU는 돈만 있다고 살 수 있는 것도 아닙니다. AI는 인터넷보다도 훨씬 파괴력이 큰 기술이 될 것입니다. 소프트뱅크의 손정의 회장은 일본이 지난 인터넷 혁명에 올라타지 못해서 30년을 잃어버렸다고 합니다. 이번 AI혁명만큼은 제대로 올라타겠다. 그리고 AI를 누가 개발하든 협력해서 잘 활용해 보겠다가 아니고 직접 개발하겠다고 나서고 있습니다. 손정의 회장은 아무리 생각해 봐도 오픈AI를 이길 수는 없겠더라고 이야기합니다. 그럼에도 불구하고 AI에 모든 것을 걸고 있습니다. 일본 정부는 NVIDIA 본사를 찾아가 GPU를 달라고 하고 또 가서 또 달라고 합니다. 그리고 일본 기업들이 GPU 구매를 하면 절반은 정부에서 지원합니다. 가장 혜택을 많이 본 건 소프트뱅크 산하 기업들일 텐데도 일본 국민들은 자신들의 혈세가 소프트뱅크로 들어가는 것에 불만이 없습니다. 소프트뱅크가 있어서, 손정의 회장이 있어서 다행이라고 생각하고 있지요.


일본에 소프트뱅크가 있다면 한국에는 삼성이 있습니다.


우리도 뛰어 봅시다. 우리가 뛰면 정부도 뛸 것이고 NVIDIA도 움직일 테고 실리콘밸리도 움직일 겁니다. 한번 해 봅시다. 죽이 되든 밥이 되든 뛰어 봅시다!


지금은 고민할 때가 아니라 실행할 때입니다.

keyword
작가의 이전글GenAI, 서베이로 알아본 기업들의 솔직한 마음