brunch

DeepSeek 논문 분석

LLM도 알파고의 길을 가는가

by 이호준 변리사

시작하며

최근 AI 업계 소식을 접하다 보면 DeepSeek이라는 이름이 심심찮게 등장합니다. 특히 중국의 헤지펀드 회사인 환팡퀀트(幻方量化)에서 인공지능 연구를 목적으로 설립한 팀이자, 그들이 발표한 오픈소스 언어 모델 제품군으로도 주목받고 있는데요. 이번 글에서는 DeepSeek이 왜 중요한지, 그리고 그 핵심 아이디어가 무엇인지를 최대한 쉽게 풀어보려 합니다.


이 글을 읽으시면, ‘DeepSeek 모델이 도대체 어떤 기술적 특징을 가졌고, 왜 AI 업계에서 화제가 되고 있는지’를 개괄적으로 알게 될 거예요. 너무 어려운 기술 용어는 조금씩 풀어가며 설명해 드릴 테니, 편하게 따라오시면 됩니다.


KakaoTalk_20250129_021746477.jpg


DeepSeek이란?

DeepSeek은 중국의 퀀트(Quant) 투자 회사인 환팡퀀트(幻方量化)의 AI 연구 조직에서 탄생한 대규모 언어 모델(LLM) 프로젝트이자, 해당 조직이 직접 개발·공개한 모델 제품군의 이름입니다.

배경: 환팡퀀트는 금융 분야에서 복잡한 알고리즘과 데이터 분석을 활용해 왔습니다. 이런 분석 역량을 AI에 접목하면서, 대규모 언어 모델 연구에도 적극적으로 뛰어들게 되었죠.

오픈소스: DeepSeek 모델들은 공개 소스 형태로 배포되어, 많은 연구자와 개발자가 자유롭게 활용할 수 있다는 점이 큰 특징입니다.

쉽게 말해 “금융에 특화된 기술력을 쌓은 회사가, 자연어 처리(NLP)와 딥러닝 분야에서도 상당히 독창적인 모델들을 내놓고 있다”고 보면 되겠습니다.


핵심 기술 원리


DeepSeek이 주목받는 이유 중 하나는 Chain-of-Thought와 순수 강화학습(RL)이라는 두 가지 포인트 때문입니다.


1. Chain-of-Thought(논리적 사고 과정)

64f22ad9d815ad419b828733_VhZP3toFq0MO5IUjVETfa4JbQmuvTqYX8OmcLS9SxIdaSq8lpB_BCT2AUrT6qjTXZ0AiD8WjN2s-4fBXea9FfEW2xMFQnlZHtum6ssPaDvQX83P8zy5UdjJA7wRVoaxE3oEghDpmZpUWT9gkgYFZHWw.jpeg

최근 대규모 언어 모델이 복잡한 문제(수학 문제, 논리 퍼즐 등)를 풀 때, 단순히 정답만 내놓는 것보다는 생각의 과정 자체를 토큰화해 풀어내도록 유도하면 정확도가 크게 높아진다는 사실이 알려졌습니다.

DeepSeek 모델은 이 논리 단계를 더 체계적으로 학습하여, 사람처럼 단계별 사고를 거치는 것에 가깝게 답변을 생성합니다.


2. 순수 강화학습(Reinforcement Learning, RL)


보통은 방대한 ‘지도학습(Supervised Fine-Tuning)’ 데이터를 기반으로 모델을 먼저 학습시키고, 여기에 RLHF(인간 피드백을 활용한 강화학습)를 추가하는 방식이 일반적입니다.

그런데 DeepSeek 팀은, 아주 제한된 양의 지도 데이터만 쓰거나 심지어 없이도(DeepSeek-R1-Zero 모델), 오로지 강화학습만으로 모델에게 추론 능력을 습득시키는 방법론을 시도했습니다.

이는 마치 “학생에게 문제와 정답 여부(보상)만 계속 알려주면서, 스스로 풀이 과정을 정립하도록 하는” 방식과 유사합니다.


3. Cold Start 데이터 & 다단계 RL 파이프라인


순수 RL만으로는 답변이 난해해지거나 언어가 뒤섞이는 문제가 있었기에, DeepSeek-R1에서는 초기 단계에서 소량의 ‘고품질 예시(CoT) 데이터’를 모델에 주입해 답변 형식을 안정화했습니다.

그런 다음, 고난도 문제들을 중심으로 다단계 강화학습을 거쳐 논리적 사고력을 한층 더 높였습니다.


4. Distillation(지식 증류)


커다란 모델(파라미터가 수십억 개 이상)이 배우고 난 고급 추론 패턴을, 더 작은 모델(7억, 14억 파라미터 등)에 옮겨주는 과정을 말합니다.

DeepSeek은 이렇게 압축된 모델들을 오픈소스로 공개해, 연구자나 개발자가 바로 활용할 수 있게끔 했습니다.


주요 성능 지표와 의미


DeepSeek 논문에서 강조하는 대표적인 벤치마크에는 AIME(수학 경시 대회 문제), Codeforces(알고리즘 문제 대회), MMLU(상식·학술 지식 평가), 그리고 GPQA Diamond(장문 독해·질의응답) 등이 있습니다.

스크린샷_29-1-2025_22029_arxiv.org.jpeg

결과 요약:


DeepSeek-R1 모델은 이 분야에서 유명한 여러 언어 모델들과 비교했을 때, 수학이나 프로그래밍 퍼즐 같은 고난도 테스트에서 상위권 모델(OpenAI 계열 등) 수준으로 성능을 냈다고 합니다.


왜 대단한가?


수학·코딩 문제 해결은 LLM 입장에서 쉽지 않은 영역입니다. 정답만 맞히는 게 아니라, 논리적으로 타당한 풀이 과정을 안정적으로 내놓아야 하기 때문이죠.

DeepSeek-R1은 순수 강화학습과 소량의 Cold Start 예시만으로 이런 수준까지 올렸기에, 다른 연구진들의 관심을 한 몸에 받고 있습니다.


적용 가능성과 중요한 이유


금융 분야 응용


환팡퀀트가 퀀트 투자 기업인 만큼, 방대한 금융 데이터와 시계열 분석이 결합될 여지가 많습니다.

예를 들어 시장 보고서 요약, 경제 뉴스 분석, 자동화된 투자 전략 수립 같은 곳에 DeepSeek 모델을 적용할 수 있겠죠.


범용적 활용


꼭 금융만이 아니라, 일반 문서 요약·비즈니스 보고서 작성·기술 문서 자동 생성 등 다양한 산업 분야에서 고급 추론 능력이 필요합니다.

DeepSeek-R1이 추론 중심의 RL 프레임워크를 완비했기 때문에, 많은 기업이나 연구소가 이 모델을 기초 레퍼런스로 삼아 자신의 도메인에 맞게 커스터마이징할 수 있습니다.


오픈소스 Distilled 모델


대형 모델을 직접 학습시키려면 막대한 컴퓨팅 자원과 비용이 필요합니다.

하지만 이미 학습된 DeepSeek-R1의 지식을 소형 모델에 옮긴 Distilled 버전을 활용하면, 훨씬 적은 자원으로도 높은 성능을 기대할 수 있습니다.

이는 연구자나 중소 규모 개발팀에게도 큰 기회가 됩니다.


알파고 사례로 본 DeepSeek의 시사점


DeepSeek 연구는 자연어 처리 분야의 “알파고 제로” 같은 느낌을 준다는 소감입니다. 알파고 역시 처음에는 프로 기보 데이터(지도학습)를 활용했고, 나중에는 오직 자기 대국만으로 학습해 최강의 실력을 보여줬습니다. 이처럼 지도학습을 줄이고 강화학습에 집중하는 전략은 다음과 같은 시사점을 줍니다:


지도 데이터 없이도 가능성을 열다


알파고 제로가 프로 기보를 버리고도 세계 최정상급 실력에 올랐듯, DeepSeek-R1-Zero는 광범위한 SFT 없이도 모델이 스스로 ‘논리적 사고’를 학습하게 만듭니다.

이는 데이터가 귀한 분야나, 데이터 라벨링에 높은 비용이 드는 상황에서 순수 RL이 대안이 될 수 있음을 보여주죠.


자체 피드백 루프(Self-play/Self-feedback)의 강점


알파고 제로가 끊임없이 자신과 대국을 하며 실력을 키운 것처럼, DeepSeek의 RL 파이프라인도 모델이 만든 답안을 평가·선별해 다시 학습에 반영(Rejection Sampling)하는 방식으로 “스스로” 문제해결 능력을 개선합니다.

즉, 전문가가 일일이 맞춤 데이터를 주지 않아도 모델이 끊임없이 자기 피드백을 통해 발전할 수 있다는 의미입니다.


폭발적 성장 가능성과 자원 문제


알파고 제로는 수천~수만 대 국(局)을 스스로 두며 성능을 끌어올렸고, DeepSeek도 거대한 연산 자원을 활용해 많은 RL 스텝을 거칩니다.

따라서 ‘순수 RL’을 고집하려면 여전히 막대한 컴퓨팅 파워가 필요하다는 것이 한계이자 앞으로의 과제이기도 합니다.

이처럼 알파고가 “지도 없이도 강화학습만으로 대단한 성과를 낼 수 있다”는 사실을 전 세계에 각인시켰듯, DeepSeek도 대규모 언어 모델 분야에서 비슷한 가능성을 보여주고 있습니다.


맺음말

DeepSeek은 “강화학습 중심의 접근으로 언어 모델의 추론 능력을 획기적으로 끌어올릴 수 있다”는 점을 입증한, 대규모 언어 모델 연구의 중요한 사례입니다. 알파고가 바둑에서 보여준 ‘순수 RL의 위력’을 자연어 처리 분야로 가져왔다고 해도 과언이 아니죠.
실제로 DeepSeek 연구팀이 제시한 모델들은 수학·프로그램 문제 해법 등 고난도 영역에서 기존 상위권 모델과 어깨를 나란히 하거나, 일부는 앞서는 성능을 보였습니다. 이를 통해 금융부터 다양한 지식 산업 현장까지 폭넓은 분야에서, 보다 논리적이고 체계적인 AI를 구현할 수 있는 길이 열리고 있습니다.
앞으로 더 효율적인 학습 기법과 더 나은 모델 설계가 결합된다면, DeepSeek 같은 프로젝트가 산업 전반에 큰 변화를 가져올 가능성이 큽니다. “이제는 인간 전문가가 모든 걸 알려주지 않아도, 모델 스스로 지식을 쌓으며 발전할 수 있다”는 점에서, AI의 새로운 진화 단계를 보여주는 흥미로운 시도라 할 수 있겠습니다.


참고 자료

DeepSeek 논문: arXiv.org 링크


저자 소개 | 이호준 변리사


이호준 변리사는 국내외 유명 대기업과 AI 스타트업의 사건을 처리한 경험을 가지고 있으며 삼성전자의 자회사인 SEMES에서 IP리스크 분석을 수행하였습니다. 또한, 밴처캐피탈인 빅뱅벤처스의 이사로 Deep Tech 기업에 대한 투자 심사를 수행하고 있습니다.

Deep Tech, 스타트업 분야의 전문성을 살려 기술 기반 기업에 대한 지식재산권 컨설팅, 창업 보육, 지식재산권 포트폴리오 관리를 수행하고 있습니다.








ABCIP_Basic KR_resize_200.png

언제든 궁금하신 사항이 있으시면 ABC특허법률사무소로 문의 바랍니다.

abcip@abcip.co.kr

https://abcip.co.kr/

keyword
작가의 이전글오픈소스 라이선스와 특허권: Eclipse SDV