brunch

딥시크(DeepSeek) 등장의 시사점

김신곤 (2025.02)

by 김정덕

중국 AI 스타트업 딥시크(DeepSeek)는 지난 2025.01.20일 대형언어모델(LLM) '딥시크 V3'에 이어 '딥시크 R1'을 공개하며 약 560만 달러(한화 약 82억원)의 개발 비용으로 오픈AI의 'GPT-4o'와 유사한 성능을 달성했다고 주장한 바 있다. 딥시크가 주목받는 이유는 한마디로 ‘가성비’ 때문이다. 딥시크는 미국 빅테크 대비 10% 비용으로 빅테크들이 수십억 달러를 투자한 모델과 비슷한 성능의 AI 모델을 개발한 것이다. 메모리 사용량을 75% 줄이고 속도를 두 배 향상시키며, API 비용을 95% 절감하는 등 AI 모델 개발 비용을 크게 낮췄다. 딥시크는 저비용, 고효율, 오픈소스 전략 등으로 적은 비용으로도 우수한 추론 AI를 만들 수 있다는 것을 증명하였을 뿐만 아니라 AI 산업의 비용 구조와 접근 방식에 대한 새로운 가능성을 제시하였다.

딥시크가 채택한 전문가 혼합(MoE:Mixture of Experts)과 지식 증류(Knowledge Distillation) 기법은 가성비 높은 추론 AI의 탄생을 가능케 하였다. 딥시크 R1은 질문이 들어오면 해당 특정 영역만 활성화하여 답하는 이른바 ‘전문가 혼합(MoE·Mixture of Experts)’ 모델이다. 일반적으로 생성형 AI가 주어진 질문에 답을 하기 위해선 AI 모델 전체가 동원된다. 반면 ‘전문가 혼합’은 AI를 분야별로 나눠 훈련시키고, 질문이 입력되면 적합한 특정 AI만 활성화시켜 업무를 처리한다. 이러한 접근 방식은 기업에서 특정 문제를 해결하기 위해 모든 직원이 그 일에 투입되는 것이 아니라 해당 분야에 전문성을 가진 직원만 일하도록 해 효율적으로 업무를 끝내는 것과 비슷하다. 반면 기존 빅테크의 AI 모델은 모든 영역을 활성화해 답을 내놓는다.

지식 증류(Knowledge Distillation) 기법은 기존 AI 모델의 출력 데이터를 활용해 새로운 AI 모델을 학습시키는 방식으로 복잡하고 큰 모델(교사 모델)의 지식과 성능을 더 작고 효율적인 모델(학생 모델)로 옮기는 딥러닝 기법이다. 이것으로 대규모 모델의 성능을 유지하면서도 더 작고 빠른 모델을 만들 수 있다.

딥시크가 테크 업계를 놀라게 한 것은 비용 뿐만이 아니다. 성능도 빅테크에 못지 않다. 딥시크 R1은 AI 성능을 비교하는 방식 중 하나인 ‘미 수학경시대회(AIME) 풀이 정확도’ 테스트에서 79.8%의 정확도를 기록하며 오픈AI의 최신 모델인 ‘o1’(79.2%)’을 앞섰다. 고사양 AI칩이 없어도 AI 모델 개발이 가능하다는 게 증명된 것이다. 또한 딥시크 R1에 쓰인 코드를 일반에 공개(오픈 소스)하고 AI 기술의 접근성을 높여 누구나 검증 가능하도록 했기 때문에 딥시크의 성능 자체에 의문을 제기하는 목소리는 거의 없다.

딥시크는 연구 인력이 139명으로 미국 오픈AI(1,200명)의 9분의 1 수준이다. AI 개발 비용도 빅테크 대비 10분의 1에 불과하다. 이 기업이 어떻게 최고 수준의 생성형 AI 모델을 개발했을까? 딥시크의 모델 개발 비용과 성능, 데이터 도용에 대한 의혹이 제기되고 있긴 하다. 딥시크의 의혹 가운데 첫번째는 비현실적으로 너무 낮은 개발 비용이다. 대규모 AI 모델 개발에 필요한 GPU 자원, 인력, 데이터 및 인프라 비용을 고려할 때 딥시크가 주장한 600만 달러의 개발 비용에는 초기 AI 모델 개발 비용 등 기초 연구비는 포함되지 않았을 가능성이 크다. 기술적인 측면에서 의혹도 제기되고 있지만 딥시크의 기술적 성과 자체는 인정받고 있으며, AI 개발 비용 절감 가능성을 제시했다는 점에서 업계에 미친 영향은 상당한 것으로 평가된다.

딥시크가 AI를 개발하는데 오픈AI의 데이터를 무단 도용했다는 의혹도 있다. 빅테크들은 전 세계에서 끌어모은 데이터를 AI 모델 학습에 적합하도록 가공(pre-processing)하는 데 많은 시간과 비용을 투자한다. 딥시크가 이렇게 잘 가공된 빅테크들의 데이터를 몰래 가져다 썼을 것이라는 의혹이다. 오픈AI와 마이크로소프트(MS)는 데이터 도용 의혹을 제기하며 진상 조사에 착수했다.

2022년 말 오픈AI의 챗GPT 공개 이후, 지금까지 전 세계 AI 산업의 판도는 수백조원의 투자금을 앞세운 미국의 빅테크가 주도해 왔다. 미국의 강력한 대중(對中) 제재로 중국의 AI 기술은 미국에 못 미친다는 평가가 대부분이었다. 하지만 딥시크의 등장은 여러가지 시사점을 던져 주고 있다. 딥시크는 미국 아닌 다른 국가도, 즉 AI 후발 주자들이 더 적은 비용으로 효율적인 AI 모델을 만들 수 있다는 것을 보여줌으로써 AI가 소수 국가나 기업이 독점하는 기술이 아닐 수 있다는 것을 보여 주었다. 이런 점에서 딥시크의 AI 모델 개발 방식은 지금까지 글로벌 AI 산업의 질서에 변화를 가져올 수 있다.

또한 美中 글로벌 AI 패권 경쟁이 격화될 것으로 예상할 수 있다. 오픈AI 등 미국 기업들은 딥시크가 자사의 데이터를 무단 사용했는지 조사에 착수했다. 미국이 중국을 상대로 더 강력한 제재에 나서면서 미·중 AI 패권 전쟁은 더 격렬해질 가능성이 높다. 미 정부가 저사양 AI칩에 대해서도 대중 수출을 금지하는 방안을 검토 중인 것으로 알려졌다. 어쨌든 딥시크는 ‘AI 게임’에 미국이 유일한 주자가 아님을 알리는 경종인 것은 분명하다.

딥시크의 등장은 엔비디아 고성능 칩 판매에 악재가 될 수 있다. 딥시크 같은 경쟁자가 계속 나올수록, AI 개발에 천문학적 돈을 투입한 구글·메타 같은 빅테크는 앞으로 수익을 장담하기 어렵기 때문이다. 반면 가성비 높은 AI 모델이 나오면 AI 생태계가 확장돼, 결국 엔비디아 등 빅테크의 실적이 좋아질 것이라고 보는 견해도 있다.

딥시크가 사용한 효율적 자원 활용 기술 가운데 하나인 ‘전문가 혼합’ 방식은 글로벌 빅테크도 이용하는 것으로 알려져 있다. 다만 딥시크가 ‘전문가 혼합’ 방식에 주력하다 보니, 그 수준이 더 높다는 분석이 있다. 그렇다고 미 빅테크들의 개발 전략이 수정될 가능성은 높지 않다. 딥시크는 추론과 수학 계산 등 특정 기능을 구현하는 데는 효과가 있지만, 다양한 영역에 걸친 복잡한 질문에는 약점이 있기 때문이다. 또 미 빅테크는 궁극적으로 효율보다 인간 수준의 AI인 범용인공지능(AGI) 개발을 목표로 하고 있다. 즉 범용인공지능(AGI) 개발을 위해선 여러 영역을 동시에 활용하는 능력이 필요하기 때문에 ‘전문가 혼합’ 방식으론 한계가 있다.

딥시크의 등장으로 AI 업계에서 '저비용고성능경량화' 모델 개발 경쟁이 가속화될 것이다. 이는 온디바이스 AI 확산의 계기가 될 수도 있다. 저비용 AI 모델이 늘어나면서 대규모 투자에 대한 회의론이 제기되고 있지만 빅테크 기업들은 오히려 클라우드 컴퓨팅과 데이터센터 등의 AI 인프라 투자를 대폭 확대하고 있다. 무료로 쓰는 AI 서비스나 소액의 구독료를 받는 AI 모델은 점차 개발 효율성을 추구하는 방향으로 나아갈 것은 확실하다.


keyword
작가의 이전글대한민국의 인프라 투자 DNA