DeepSeek 개발 - TPS 사상 연계

효율성과 혁신의 융합

Feb 6. 2025

DeepSeek 개발 과정과 도요타 생산방식(TPS)의 활용: 효율성과 혁신의 융합

글쓴이는 AI 분야의 전문가가 아니다. 다만, 언론 보도와 전문가 리포트를 통해 접한 DeepSeek의 개발 스토리를 살펴보면서, 이십여 년간 학습하고 현장에서 적용해 온 도요타 생산방식(TPS)의 철학이 이들의 개발과 운영 전략에 녹아 있는 것이 아닐까 하는 막연한 생각이 들었다. 이에 관련 정보를 수집하고 분석하여 평가·판단한 내용을 바탕으로 이 글을 작성했다. 일부 내용은 상상력을 동원해 추정하고 재구성한 부분이 있음을 밝힌다. 전문적인 논술이 아닌 비전문가의 시각에서 바라본 해석이므로 가볍게 읽어주시길 바란다.

들어가며

DeepSeek은 중국의 AI 스타트업이 개발한 대규모 언어 모델로, 제한된 자원과 기술적 제약 속에서도 OpenAI의 ChatGPT와 경쟁할 수 있는 기술력을 보여주며 주목받고 있다. 특히 DeepSeek의 개발 과정에서 강조된 효율성, 비용 절감, 그리고 가치 중심의 접근 방식은 일본 도요타 생산방식(Toyota Production System, TPS)과 철학적으로 유사한 점이 많다. TPS는 자원 부족 상황에서도 최대한의 가치를 창출하기 위한 체계적 접근법으로, DeepSeek의 개발 철학과 운영 전략에서 그 원칙이 반영된 것으로 보인다.

이 글은 DeepSeek이 TPS 원칙을 어떻게 활용했는지 분석하며, 구체적인 사례를 통해 두 접근법 간의 연관성을 조명한다. 이를 통해 AI 기술 개발과 제조업 간의 교차점을 탐구하고, 효율성과 혁신을 동시에 달성할 수 있는 방법론적 시사점을 제시한다.

1. 도요타 생산방식(TPS)의 개요

TPS의 역사와 철학

도요타 생산방식은 20세기 중반 도요타 자동차가 자원의 제약 속에서 생산 효율성을 극대화하기 위해 개발한 시스템으로, 현대 경영학과 제조업에 큰 영향을 미쳤다. TPS는 다음과 같은 철학적 원칙을 기반으로 한다.

▪︎ 낭비 제거(Muda Elimination): 불필요한 작업이나 자원 낭비를 제거하여 효율성을 높인다.
▪︎ 지속적 개선(Kaizen): 프로세스를 지속적으로 개선하여 성과를 점진적으로 향상시킨다.
▪︎ 유연성(Flexibility): 변화하는 환경에 신속히 대응할 수 있는 시스템 구축한다.
▪︎ 칸반(Kanban): 필요한 만큼만 생산하여 재고를 최소화한다.

TPS는 단순히 제조 공정에 국한되지 않고, 효율성과 가치 창출을 목표로 하는 모든 산업에 적용 가능한 철학으로 발전했다.

TPS의 핵심 원칙

TPS는 크게 두 가지 축으로 나눌 수 있다.

▪︎ JIT(Just-In-Time): 필요한 것을 필요한 시점에 필요한 양만큼 생산하는 방식으로 과잉 생산을 방지하고 재고 비용을 최소화한다.
▪︎ 자동화(Jidoka): 문제가 발생하면 즉시 공정을 중단하고 문제를 해결하는 시스템으로 품질 관리와 효율성을 동시에 달성한다.

현대적 적용

TPS는 제조업뿐만 아니라 서비스업, IT 산업, 의료 산업 등 다양한 분야에 적용되고 있다. 특히 AI 기술 개발과 같은 첨단 산업에서도 TPS의 철학이 반영될 수 있음을 DeepSeek 사례를 통해 확인할 수 있다.

2. DeepSeek 개발 과정

DeepSeek은 미국의 AI 반도체 수출 규제와 같은 외부 제약 속에서도 혁신적인 기술을 통해 고성능 AI 모델을 개발했다. 이는 TPS의 "제약 조건 속 혁신" 원칙과 유사한 접근법을 보여준다.

주요 개발 단계

DeepSeek은 2023년부터 2025년까지 다양한 혁신적 기술을 도입하며 발전해 왔다.

DeepSeek-V3 (2024년 출시)
▪︎ FP8 정밀도 학습 도입으로 메모리 소모를 줄이고 학습 속도를 향상.
▪︎ DualPipe 구조(주1)를 통해 병렬 처리와 메모리 최적화를 실현.
▪︎ 기존 GPT-3 대비 약 30% 빠른 학습 속도를 기록하며 비용 절감 효과를 달성.

DeepSeek-R1 (2025년 출시)
▪︎ Group Relative Policy Optimization (GRPO) 알고리즘(주2)을 활용해 Critic 모델(주3) 없이 강화 학습을 수행.
▪︎ 학습 비용을 줄이면서도 높은 성능을 확보하였으며, OpenAI o1 모델과 경쟁 가능한 수준에 도달.

비용 절감 전략

DeepSeek은 엔비디아 H800 GPU와 같은 저사양 하드웨어를 활용해 고성능을 구현했다. 이는 기존 AI 모델 대비 약 80% 낮은 비용으로 개발되었으며, TPS의 "낭비 제거" 원칙과 유사한 접근법이다. (연산 오버헤드를 약 20% 감소시키고, 추론 성능 향상에도 기여)

3. TPS 원칙과 DeepSeek 개발 과정의 유사성

제약 조건을 통한 혁신

TPS는 자원 부족 상황에서 창의적인 해결책을 찾는 데 중점을 둔다. DeepSeek 역시 미국 제재로 인해 고성능 하드웨어에 접근이 제한된 상황에서 GPU 최적화 기술을 개발하여 이를 극복했다.

사례 1) Nvidia H800 GPU 최적화
DeepSeek은 성능이 제한된 Nvidia H800 GPU를 사용하면서도 최적화 기술을 적용하여 성능 저하를 최소화했다.
- GPU 클러스터 간 통신 병목 현상 해결: NVLink와 NVSwitch 연결 구조(주4)를 활용하여 데이터 전송 속도를 최적화
- DualPipe 알고리즘 활용: 기존 대비 약 13% 더 높은 처리 성능을 달성.
- H800 클러스터 최적화를 통해 병목 현상을 약 13% 줄였으며, 전체 학습 비용을 약 557만 달러로 절감.

낭비 제거와 효율성 극대화

TPS는 불필요한 작업과 자원 낭비를 줄이는 데 집중한다. DeepSeek은 GRPO 알고리즘을 통해 Critic 모델 없이 강화 학습을 수행하며 연산 오버헤드를 감소시켰다.

사례 2) FP8 정밀도 학습
FP8 혼합 정밀도(FP8 Mixed Precision) 학습 방식은 기존 FP16/FP32 방식보다 메모리 사용량을 최대 50%까지 줄이면서도 모델 정확도를 유지하는 데 성공했다.
- 미세 양자화(fine-grained quantization) 적용: 학습 안정성을 높이고 연산 비용 절감.
- 효율적인 대규모 데이터 처리: 14조 개 이상의 토큰을 학습하는 데 최적화됨
- 기존 대비 약 30% 빠른 학습 속도를 기록

가치 중심 접근

TPS는 고객에게 실질적인 가치를 제공하는 것을 목표로 한다. DeepSeek은 대규모 모델 대신 특정 도메인에 최적화된 소규모 모델(7B, 14B 파라미터)을 개발하여 실질적인 문제 해결 능력을 강화했다.

사례 3) 전문가 혼합(Mixture of Experts) 기술
DeepSeek은 Mixture of Experts(MoE) 기술을 활용하여 필요 없는 매개변수를 비활성화하고 특정 작업에 적합한 부분만 활성화함으로써 리소스를 효율적으로 활용했다.
- 특정 도메인 최적화: 수학 및 프로그래밍 영역에서 GPT-4 수준의 성능 구현.
- 연산 자원 절약: 기존 대비 약 40%의 연산 자원을 절감.
- 상기 '전문가 혼합 기술'은 사용자의 요구에 응답할 때도 '도메인 최적화 모델'이 문제 해결에 동원됨. 이는 TPS의 JIT(Just-In-Time) 사상과도 일치한다.

DeepSeek은 도요타 생산방식(TPS)의 철학을 AI 모델 개발에 적용함으로써 효율성과 혁신을 동시에 달성한 사례로 평가할 수 있다. 이는 AI 기술 발전뿐만 아니라 다양한 산업 분야에서도 중요한 교훈을 제공한다. 특히 자원이 제한된 상황에서도 창의적인 접근법과 체계적인 전략이 혁신을 이끌어낼 수 있음을 보여준다.

DeepSeek의 사례는 전 세계에 상당한 충격을 주었다. 이는 산업계를 넘어 다양한 분야에서도 응용 가능한 혁신적인 접근법을 제시하며 큰 주목을 받고 있다. 이러한 성과를 충분히 숙고하고 발전시킨다면 더욱 의미 있는 성취를 이루는 데 기여할 수 있을 것이다. 끝.

각주

주 1) DualPipe 구조란?

DualPipe 구조는 DeepSeek이 대규모 언어 모델 학습 및 추론 과정에서 계산 효율성을 극대화하고 메모리 사용을 최적화하기 위해 개발한 혁신적인 알고리즘이다. 이 구조는 계산(computation)과 통신(communication) 작업을 병렬로 수행하여, 기존의 병목현상을 줄이고 학습 속도를 크게 향상시키는 데 초점을 맞추고 있다.

발표 자료에 따른 DualPipe 구조의 구체적 사례
(1) DeepSeek-V3의 대규모 데이터 학습
DeepSeek-V3는 14.8조 개의 고품질 토큰으로 구성된 방대한 데이터셋을 학습하는 과정에서 DualPipe 구조를 활용했다.
- 효과: 계산과 통신을 병렬로 처리함으로써 전체 학습 시간을 약 30% 단축했다.
- GPU 시간 절감: 278만 8천 GPU 시간($557만)의 비용으로 기존 대비 경제적인 학습 환경을 구현했다.

(2) Nvidia H800 GPU 최적화
DualPipe는 Nvidia H800 GPU와 같은 저비용 하드웨어에서도 효율적으로 작동하도록 설계되었다.
- 효율성 증대: H800 GPU 클러스터에서 DualPipe를 활용해 병목현상을 약 13% 줄였으며, 비용 대비 효율성을 크게 향상시켰다.

(3) 분산 학습 환경에서의 활용
DualPipe는 분산 학습 환경에서도 뛰어난 성능을 발휘했다.
- 맞춤형 커뮤니케이션 커널: 여러 GPU 간 데이터 전송 속도를 높여, 대규모 모델의 분산 학습 시 발생하는 통신 지연 문제를 해결했다.
- 효율적인 파이프라인 처리: 각 GPU가 독립적으로 계산 및 통신 작업을 수행하여, 클러스터 전체의 자원 활용도를 극대화했다.

➥ DualPipe 구조와 도요타 생산방식(TPS)의 연관성
DualPipe 구조는 일본 도요타 생산방식(TPS)의 핵심 원칙인 【낭비 제거(Muda Elimination)】와 【효율성 극대화】 철학을 반영하고 있다.
① 낭비 제거: TPS는 불필요한 공정이나 자원 낭비를 제거하는 데 중점을 둔다. DualPipe 역시 계산과 통신 간 병목현상을 제거하여 GPU 자원을 최대한 활용하도록 설계되었다.
② 지속적 개선: TPS의 지속적 개선(Kaizen) 원칙처럼, DualPipe는 기존의 순차적 처리 방식을 개선하여 병렬 처리를 도입함으로써 성능을 지속적으로 향상시켰다.
③ 유연성: TPS는 변화하는 환경에 신속히 적응할 수 있는 유연성을 강조한다. DualPipe 역시 다양한 하드웨어 환경에서 최적의 성능을 발휘할 수 있도록 설계되었다.

주2) GRPO 알고리즘이란?

GRPO (Group Relative Policy Optimization)는 DeepSeek-R1과 같은 대규모 언어 모델(LLM)의 학습에서 효율성을 극대화하기 위해 설계된 강화학습 알고리즘이다. 기존의 PPO(Proximal Policy Optimization)와 같은 강화학습 기법은 Critic 모델(보상 예측 모델)을 사용하여 정책(Policy)을 최적화했으나, GRPO는 Critic 모델을 제거하고 대신 그룹 내 상대적 보상(Group Scores)을 활용하여 학습 비용을 대폭 절감하고 안정성을 향상시켰다.

GRPO의 주요 특징
(1) Critic 모델 제거: Critic 모델 없이 그룹 내 상대적 평가를 통해 정책 최적화 수행.
(2) 상대적 보상 활용: 절대적인 보상값 대신 그룹 내 여러 출력 간의 상대적인 우수성을 평가.
(3) 정책 안정성 보장: KL 발산 페널티와 클리핑 기법을 사용해 정책 업데이트 과정에서 안정성을 유지.
(4) 효율성 증대: 기존 RL 기법 대비 계산 비용이 약 20~30% 절감되며, 학습 속도가 향상됨.

GRPO의 작동 방식
(1) 출력 그룹 생성: 하나의 질문(q)에 대해 여러 개의 답변(o₁, o₂, ..., o_G)을 생성하여 출력 그룹 형성.
(2) 그룹 내 상대적 평가: 각 답변 간 상대적 우수성을 평가해 보상을 부여.(예: "2+2는 얼마인가?"라는 질문에 대해 "4"가 가장 높은 보상을 받고, 부정확하거나 장황한 답변은 낮은 보상을 받음.
(3) 정책 업데이트: 상대적 보상을 기반으로 Advantage를 계산하고, 정책을 최적화.

➥ GRPO와 TPS 사상이 맞닿는 지점
GRPO 알고리즘과 일본 도요타 생산방식은 서로 다른 분야에서 개발되었지만, 철학적으로 유사한 원칙들을 공유한다. 특히 낭비 제거(Muda Elimination), 지속적 개선(Kaizen), 그리고 가치 중심 접근(Value-Centered Approach)이라는 TPS의 핵심 원칙들이 GRPO 알고리즘에 반영되어 있다.
① 낭비 제거 (Muda Elimination): Critic 모델을 제거함으로써 강화학습 과정에서 발생하는 불필요한 계산 비용과 메모리 사용량을 줄였다. (연산 비용을 약 20% 절감)
② 지속적 개선 (Kaizen): 기존 PPO 알고리즘의 한계를 분석하고 Critic 모델 없이도 안정적인 정책 업데이트가 가능하도록 개선했다. GRPO는 강화학습 과정에서 발생하던 불안정성을 줄이고, 더 나은 성능을 지속적으로 달성할 수 있도록 설계되었다.
③ 가치 중심 접근 (Value-Centered Approach) : GRPO는 절대적인 보상 기준 대신 그룹 내 상대적 평가 방식을 도입하여 학습 신호를 명확히 하고, 더 나은 답변을 생성하도록 모델을 최적화한다. 이는 LLM이 사용자에게 더 높은 품질의 결과를 제공하도록 설계되었다는 점에서 TPS의 가치 중심 철학과 유사하다.

주3) Critic 모델이란?

Critic 모델은 강화학습(특히 Actor-Critic 알고리즘)에서 사용되는 구성 요소로, 에이전트가 선택한 행동(Action)의 가치를 평가하는 역할을 한다. Critic은 가치 함수(Value Function) 또는 액션 가치 함수(Action-Value Function)를 학습하여, 주어진 상태(State)에서 특정 행동을 취했을 때 기대되는 보상을 추정한다. 이 정보를 바탕으로 Actor(정책 네트워크)가 더 나은 행동을 선택하도록 학습을 유도한다.

Critic 모델의 주요 역할
1. 가치 평가: 특정 상태에서의 행동이 얼마나 좋은지 평가하여 Actor가 정책을 개선할 수 있도록 피드백 제공.
2.TD 에러 계산: Temporal Difference Error(시간차 오차)를 계산하여 가치 함수와 정책 업데이트에 활용.
3. 보상 예측: 보상(reward)과 미래 예상 보상을 결합한 총 기대 보상(Return)을 추정.

주4) NVLink와 NVSwitch 연결 구조란?

NVLink와 NVSwitch는 NVIDIA가 개발한 GPU 간 고속 통신 기술로, 대규모 병렬 연산 환경에서 GPU 간 데이터 전송 속도를 극대화하기 위해 설계. 이 두 기술은 고성능 컴퓨팅(HPC), AI 모델 학습, 데이터센터 환경에서 GPU 클러스터의 효율성을 높이는 데 중요한 역할을 한다.

NVLink: GPU 간 또는 GPU와 CPU 간 데이터를 전송하기 위한 고속 점대점(Direct Point-to-Point) 인터커넥트 기술. 기존 PCIe(Peripheral Component Interconnect Express) 대비 훨씬 높은 대역폭과 낮은 지연 시간을 제공한다. (대역폭 25GB/s, 다수의 NVLink를 병렬로 연결하면 더 높은 대역폭을 구현할 수 있다.)

NVSwitch: 여러 NVLink를 연결하여 다수의 GPU가 완전히 상호 연결(All-to-All Communication)될 수 있도록 지원하는 네트워크 스위치 역할을 한다. 이는 단일 서버 내 또는 서버 간 GPU 클러스터에서 데이터 전송 효율성을 극대화한다.

NVLink와 NVSwitch의 결합 : NVLink와 NVSwitch는 함께 사용되어 고성능 GPU 클러스터를 구축하는 데 핵심적인 역할을 한다.
결합 구조의 장점
① 완전한 상호 연결성(Full Interconnectivity): 모든 GPU가 다른 모든 GPU와 직접 연결되어 병목현상을 방지.
② 높은 확장성(Scalability): 추가적인 NVSwitch를 통해 클러스터 크기를 쉽게 확장 가능.
③ 최대 대역폭 유지(Maximum Bandwidth): 예를 들어, NVIDIA DGX-2 시스템에서는 16개의 GPU가 NVSwitch를 통해 최대 300GB/s의 대역폭으로 통신한다.
④ 낮은 지연 시간(Low Latency): 중간 홉 없이 데이터가 이동하므로 지연 시간이 최소화됨.

keyword

매거진의 이전글[Tip] Understanding Complexity『스톨포인트』로 비춰본 삼성전자매거진의 다음글