안녕하세요. 더클라쎄 특허법률사무소 정혜윤 변리사입니다.
최근 중국의 AI 스타트업 딥시크(DeepSeek)는 자체 기술로 개발한 AI 모델 R1을 공개하면서 큰 파장을 불러일으켰습니다.
모든 면에서 더 '효율적인' AI 모델을 제시했습니다.
딥시크에서 공개한 R1은 그 이전 버전인 V3에 기반을 두고 있습니다. V3는 크게 (1) MoE(Mixture of Experts) 구조, (2) MLA(Multi-Head Latent Attention) 기법을 사용한다는 점에서 획기적인 효율성을 달성했으며, 이번에 공개한 R1은 지식증류기법(Distillation)을 통해 생성되었다는 점에서 차별성을 가지고 있습니다.
이번 칼럼에서는 DeepSeek-V3와 DeepSeek-R1의 특징, 그리고 딥시크의 특허 포트폴리오를 살펴보겠습니다.
거대 언어 모델(LLM)은 수많은 파라미터를 필요로 하기 때문에 막대한 연산 비용이 수반됩니다. 딥시크의 AI 모델은 (1) MoE구조와 MLA 기법을 통해 연산량을 획기적으로 줄였습니다.
첫 번째 특징인 MoE 구조는 문제 해결에 필요한 AI만 활성화하는 방식입니다.
MoE는 전문가 혼합 방식으로 불리기도 하는데요. 특정 분야의 여러 전문가가 모여 각자의 작업을 수행하는 것처럼, 특정 작업에 특화된 여러 LLM을 모아서 작업의 종류에 따라 필요한 LLM만 활성화하는 것입니다. MoE는 여러 개의 Expert(전문가)와 이를 조율하는 Router(라우터)로 구성되며, Router는 입력 토큰을 어떤 Expert가 이용하는 것이 좋을지 판단합니다. 이렇게 구성하면 전체 모델의 파라미터는 커지지만, 매 토큰을 계산할 때에는 일부 Expert만 활성화되기 때문에 연산 속도에서 매우 큰 이점이 생깁니다.
일반적인 MoE 방식에서 딥시크는 위 그림의 (c)에서 보이는 것과 같이 Shared Expert를 추가하였습니다. Shared Expert는 각 Expert가 가지고 있는 전문 지식이 아닌 일반 지식을 갖도록 학습된 것으로, 어떤 토큰이 입력되어도 활성화됩니다. 즉, Shared Expert를 통해 여러 태스크에서 공유되는 자원을 효율적으로 사용하고 중복 학습을 줄일 수 있도록 합니다.
두 번째 특징인 MLA 기법은 기존의 Multi-Head Attention 구조를 개선한 것으로, 대규모 AI 모델이 정보를 처리하는 방식을 개선해 효율적으로 정보를 압축하고 처리할 수 있게 합니다. MLA는 입력된 정보의 중요한 부분을 추려내 이를 요약하고 저장합니다.
위 그림에서 빗금 친 부분의 잠재 벡터만 캐시에 저장하여 메모리 효율을 높입니다.
딥시크의 새로운 DeepSeek R1 모델에서는 지식 증류 기법이 도입되었습니다.
지식 증류란 대형 AI 모델(Teacher Model)에서 축적된 지식을 소형 AI 모델(Student Model)로 이전하는 기술입니다. 지식 증류 기술의 핵심은 확률 분포 학습에 있습니다. 대형 모델이 특정 입력에 대해 생성하는 확률 분포(soft target)를 소형 모델이 최대한 정확하게 모방하도록 하는 것입니다. 마치 선생님이 학생을 가르치는 것과 같다고 하여, Teacher Model - Student Model이라고 부르고 있습니다.
딥시크는 이 방법을 통해 6,710억 개의 파라미터를 갖는 대형 모델의 핵심 기능을 소형 모델로 효과적으로 옮겨, 비용은 줄이면서도 원본 모델의 우수한 성능을 유지할 수 있게 되었습니다.
최근 딥시크가 자체 기술로 모델을 구현한 것이 아니라, OpenAI의 API를 대규모로 활용해 학습 데이터를 생성했다는 의혹이 제기되면서 논란이 되고 있습니다. 이는 AI 개발에서의 윤리적인 문제와 지식재산권 보호에 관한 이슈를 불러일으키고 있습니다.
DeepSeek(杭州幻方人工 智能基础研究有限公司)는 현재까지 총 14개의 특허를 출원하였으며, 해당 특허들은 모두 중국에서 출원이 진행되었습니다. 14개의 특허 출원 중 총 3개의 특허가 2024년 등록되었습니다.
딥시크가 보유한 등록 특허들(CN114138441, CN112862098, CN112925640)은 모두 GPU 클러스터 구성 방식을 포함한 클러스터 트레이닝과 관리 방법에 초점을 맞추고 있습니다.
해당 등록 특허들은 특히 클러스터 내에서 노드의 효율적인 할당 및 관리, 작업 스케줄링, 환경 구성과 작업 실행의 최적화 방법을 다루고 있습니다. 각 특허는 클러스터의 노드를 관리하고 작업을 할당하는 고급 방법을 제공하여, 궁극적으로 GPU 등의 하드웨어 자원을 효율적으로 사용할 수 있도록 설계되어 있습니다.
그중 가장 권리범위가 넓은 CN112862098 특허 "Cluster training task processing method and system"의 청구항 제1항(국문 번역)을 살펴보면, 해당 등록 특허는 클러스터 트레이닝 작업을 관리하는 방법을 권리화하고 있습니다.
1. 클러스터 트레이닝 작업 처리 방법으로, 다음 단계를 포함하는 것이 특징입니다:
(1) 트레이닝 할당 파라미터 설정, 트레이닝 환경 구성 요소 선택, 클러스터 트레이닝 작업 제출; 해당 트레이닝 할당 파라미터에는 요청 그룹명, 요청 노드 수량이 포함되며, 특정 노드 번호도 포함됩니다; 노드 그룹은 하나의 프론트엔드 라우터와 여러 트리 구조의 노드로 구성됩니다; 노드는 계산 능력에 따라 미리 그룹화되며, GPU 그래픽 카드 수량과 유형이 동일한 것은 같은 그룹에 배정되며, 각 그룹은 자체적인 그룹명을 가집니다;
(2) 트레이닝 할당 파라미터에 따라 할당된 실행 노드의 집합을 획득;
(3) 할당된 실행 노드 집합 중에서 선택된 트레이닝 환경 구성 요소를 노드에 배포;
(4) 개발된 트레이닝 작업을 모든 배포 완료된 노드에 분배하고 작업 트레이닝을 시작, 트레이닝 과정 중 노드의 운영 상태를 모니터링; 할당된 실행 노드 집합 중 지정된 주 노드를 통해 트레이닝 작업 분배 단계에서 작업 분배 및 자원 조정을 완료하고, 작업 분배가 완료된 후에는 주 노드와 일반 노드가 함께 작업 실행 트레이닝을 완료합니다; 단일 기계 트레이닝의 경우, 할당된 실행 노드 집합에 노드가 하나만 있으며, 해당 노드가 주 노드로 지정되어 단일 기계에서 프로그램 모델 트레이닝 작업을 완료합니다;
(5) 트레이닝이 끝나면, 운영 결과를 요약하여 출력하고 할당된 실행 노드 자원을 해제합니다.
구체적으로, 해당 특허는 학습을 위한 파라미터를 설정하고, 노드의 계산력 차이에 따라 이를 그룹화합니다. 학습 대상에 따라 실행 노드 클러스터를 선택하고, 여기에서의 학습 과정을 모니터링합니다. 이때, 마스터 노드를 통해 작업 분배 및 자원 조정을 수행하며, 학습이 완료되면 이에 대한 실행 결과를 요약합니다. 즉, 해당 특허는 클러스터 트레이닝을 단순화하고 효율을 증가시키며, 노드 할당 및 환경 설정에 필요한 시간을 절약하는 데 중점을 두고 있습니다.
위 등록 특허들뿐만 아니라 딥시크에서 출원된 특허들은 모두 연산 효율성을 높이기 위한 방법에 대해 기재하고 있습니다. 현시점에서는 아직 딥시크의 등록 특허가 많지 않으나, 추후 특허 등록 건 수가 증가하게 되면 다시 한번 리뷰하도록 하겠습니다.
이번 칼럼에서는 딥시크의 획기적인 AI 모델과 특허 포트폴리오에 대해 알아보았습니다. 인공지능 기술 보호에 대해 궁금한 점이 있으신 경우, 언제든지 더클라쎄로 연락 주시기 바랍니다.
더클라쎄에서는 인공지능 개발자인 변리사가 AI 사건들을 대리하고 있습니다.COGNEX, 바이두, 뷰노, 마키나락스, 카카오게임즈, 넷마블, SIA 등의 AI 사건들을 수행하고, AI 기업들을 전담으로 맡아 기술특례상장평가를 총괄 심사하던 변리사를 통해 성공적인 AI 특허를 확보하세요.
저자 소개 | 정혜윤 변리사
정혜윤 변리사는 한국거래소와 나이스디앤비에서 인공지능과 소프트웨어 분야의 기술특례상장평가 전문위원으로 활동하였습니다. 또한, 국내 유수의 투자회사에서 벤처캐피털리스트로 활동하며 수준 높은 해외 딥테크 기술들을 다룬 경험을 가지고 있습니다.
IT와 BM 분야의 전문성을 살려 기술 기반 기업들의 기술특례상장평가 및 지식재산권 컨설팅을 수행하고 있습니다.
자세한 사항은 더클라쎄 특허법률사무소로 문의 부탁드립니다.
theclasseip@theclasseip.com
02-6925-6792