이게 뭔데 X덕아.
스푸트니크 모멘트는 기술 우위를 확신하고 안전하던 국가가 후발주자의 압도적인 기술에 충격을 받는 상황을 의미합니다. 이는, 1957년 구소련이 위성 스푸트니크 1호를 쏘아 올렸을 때 미국이 받았던 충격에서 나온 말인데요, 오늘 소개드리는 것도 미국이 충격을 받았네요.
네.
오늘 다룰 내용은 바로 '딥시크'입니다.
지난 달 27일, 미장에는 이른바 '딥시크 쇼크'가 나타났습니다.
뉴욕증권거래소에서 나스닥종합지수는 3.07% 급락했고, S&P 500 지수는 1.46% 떨어졌다고 합니다.
AI칩의 선두주자였던 엔비디아는 하루만에 주가가 17% 폭락했다고 하며, 시총 5888억 달러가 증발했다고 합니다. 이는, 단일 주식이 하루 동안 잃은 시가총액 기준 미국 증시 역사상 최대치라고 합니다.
이러한 AI 수혜주 외에도 비기술 산업에도 영향을 끼쳤다고 해요. AI 데이터 센터 구동에 막대한 전력이 들어가서 에너지 기업들도 높은 주가를 형성하고 있었는데, 콘스텔레이션 에너지, GE버노바와 같은 에너지 기업들의 주가가 약 21% 하락했다고 해요.
이는 모두, 중국의 한 스타트업이 개발한 오픈소스 생성형 AI 언어 모델 '딥시크' 때문이었습니다.
오늘은, 이 '딥시크'가 무엇인지 알아보고, 왜 이것이 '딥시크 쇼크'를 일으켰는지에 대해 간단히 알아보고자 합니다.
딥시크는 앞서 언급드린 것 처럼 '오픈소스' 생성형 AI 언어 모델입니다.
오픈소스이기 때문에 모든 사용자가 딥시크의 소스 코드와 설계 문서를 자유롭게 열람, 수정, 활용할 수 있습니다.
2025년 1월 10일 첫 무료 챗봇 앱을 출시했으며, 같은 달 27일 미국 iOS에서 Chat GPT를 제치고 가장 많이 다운로드 된 무료 앱으로 자리잡을 정도로 인기가 대단했다고 합니다.
딥시크의 AI 모델은 크게 4가지가 있습니다.
1. DeepSeek-R1: 논리적 추론과 복잡한 문제 해결에 최적화된 모델로, OpenAI의 Chat GPT와 유사한 수준의 추론 성능을 보이는 모델입니다. 가장 주목받는 모델이자, 가장 유명한 모델입니다.
2. DeepSeek-V3: 6710억 개의 매개변수를 가진 대규모 언어 모델로, 메타의 라마 3.1보다 1.5배 큰 규모를 자랑하고 있습니다. 128,000개의 토큰을 처리할 수 있는 뛰어난 컨텍스트 이해 능력을 갖추고 있다고 합니다.
3. DeepSeek-Coder: 코드 생성 및 디버깅에 특화된 모델로, 개발자 커뮤니티에서 긍정적인 평가를 받고 있다고 합니다.
4. DeepSeek-R1-Distill: R1 모델을 기반으로 합성 데이터를 활용해 정밀하게 미세 조정된 버전입니다.
딥시크 웹사이트 내 무료 챗봇에 들어간 사진입니다. 기본적으로 V3 모델을 사용할 수 있으며, 채팅창 좌측 하단에 있는 DeepThink(R1)을 누르면 R1 모델을 접할 수 있어요.
V3는 조금 더 비용효율적이고 실용성에 초점이 맞춰진 모델이에요. 반면, R1은 복잡한 데이터 분석이나 전문 보고서 생성(Python 코드 생성 등)에 더 유용한 모델이에요.
비용효율적 이라는 것은 API Pricing을 살펴보면 알 수 있어요.
입력비용: V3 - 백만 토큰 당 $0.14, R1 - 백만 토큰 당 $0.55
출력비용: V3 - 백만 토큰 당 $0.28, R1 - 백만 토큰 당 $2.19
입니다. 척 봐도 차이가 심하죠?
이러한 딥시크가 주목받는 이유에는 6가지가 있는데
첫째, 오픈 소스로 모든 코드가 완전히 공개되었다는 점입니다. 기존의 거대 언어 모델(LLM)은 소스 코드가 투명하게 공개되지 않아왔다는 점에서 이 자체가 혁신이자, 딥시크의 인지도를 높인 이유 중 하나입니다.
둘째, 딥시크는 엔비디아가 중국 수출용으로 성능을 낮춰 출시한 H800 칩을 사용해서 개발되었기 때문입니다. 국가안보를 위해 수년 간 고성능 AI칩의 중국 공급을 제한해왔는데 오히려 이것이 중국 기술자들이 보다 창의력있는 해결책을 모색하도록 자극한 것이었어요.
셋째, 무료라는 것입니다. Chat GPT와 유사한 성능을 가지고 있는 언어 모델인 V3와 R1 모두를 일반 사람들도 모두 무료로 사용할 수 있습니다.
넷째, 개발과 추론 모두에서 가성비를 이뤄냈다는 것입니다. 딥시크 V3모델에 투입된 개발 비용은 557만 6000달러로 한화 약 79억원이라고 합니다. 이는 메타 최신 AI 모델 라마 3에 든 비용의 1/10 수준이었다고 합니다. 추론의 경우에도, 추론 특화 LLM인 딥시크 R1은 오픈 AI의 최근 모델인 GPT4-o1 이상의 벤치마크 성능을 보였다고 합니다. 미국 수학경시대회 벤치마크 테스트에서 R1은 79.8%의 정확도를 기록해 o1의 79.2%를 앞섰다고 하며, 컴퓨터 프로그래밍 테스트에서도 R1은 65.9%로 o1의 63.4%을 초과하는 정확도를 보였다고 해요.
다섯째, 학습 방법의 혁신입니다. 뒤에서 자세히 다룰 예정이지만 딥시크는 전통적인 AI 학습 방식을 개선해 데이터 효율성을 극대화시켰다고 합니다. 딥시크 V3는 파라미터 값을 결정하는 사전 훈련 과정에서 2,048개의 H800 칩과 효율적인 얼고리즘을 결합해 기존 비용 대비 1/10의 비용, 훈련 소요 기간 2개월로 Chat GPT와 유사한 성능의 AI를 구현해내는 데 성공했다고 합니다.
마지막, AI 업계의 공식 'More GPU, Better AI'를 깨버렸습니다. 보통 모델 크기 단위인 파라미터가 많을 수록 LLM의 성능이 뛰어나지만, 딥시크 R1은 이러한 편견을 깨버렸습니다. R1의 파라미터는 앞서 언급드린 듯이 6710개로 o1의 1조 8000억개 대비 1/3에 불과하다고 합니다. 하지만, 비슷한 추론 성능을 내고 있다고 하죠.
그렇다면, 어떻게 딥시크는 이 공식을 깰 수 있었을까요?
크게 3가지의 이유가 있습니다.
첫째, 순수강화방식을 채택한 것입니다.
기존 AI들은 사람들이 이미 레이블링한 데이터를 학습하는 지도학습에 의존하지만, 딥시크는 인간의 간섭을 최소화한 순수 강화 학습 방식을 채택해 학습이 이루어졌다고 합니다. 이를 통해, AI모델이 스스로 학습에 필요한 데이터를 찾아냈고, 지도학습보다 덜 힘을 들이고 더 많은 데이터를 생성할 수 있었다고 합니다. 또한, R1이 채택한 강화학습은 ‘그룹 점수’라는 새로운 알고리즘을 적용하기도 했으며, 이는 여러 행동을 그룹으로 묶어 비교하고 가장 좋은 결과를 수렴해서 찾아내주는 방식입니다.
둘째, MoE(Mixture of Experts) 기술을 채택한 것입니다.
수천 개의 전문가 서브 네트워크를 활용하는 MoE 기술을 통해 연산 비용을 대폭 절감시켰다고 합니다.
MoE는 사용자가 입력한 프롬프트(입력값)의 지식 영역에 해당하는 파라미터만 활상화하는 기법으로, 실제로 딥시크 V3는 MoE를 통해 총 6,710억개의 파라미터 중 약 5%만 실제로 사용되어 비용을 대폭 절감했다고 합니다.
셋째, 멀티 토큰 기법을 채택한 것입니다.
기존 AI모델은 문장을 조각으로 나눠 읽는 반면, 딥시크 R1은 문장 전체를 하나로 처리하기 때문에 생성속도가 2배 더 빠르고 답변 정확도는 90%로 매우 높다고 합니다.
이처럼 딥시크는 정말 많은 부분에서 혁신을 이루어내며 More GPU, Better AI라는 공식을 깼어요.
이쯤 되니 제가 제목에 왜 'AI계의 스푸트니크 모멘트'라고 칭했는지 아시겠죠?
네...
이렇게 오늘은 딥시크가 구체적으로 어떤 AI길래 미장에 딥시크 쇼크를 일으켰는지 알아보았습니다.
조사하면서 느낀 건 세상이 너무 빠르게 발전하고 있다는 것?.. 조금이라도 못따라가다간 바로 뒤쳐질 거 같더라고요 하하. 항상 취준한다고 바빠서 글을 자주 못쓰는데 반성하게 되는 요즘이었습니다. 문과생에 코딩, AI 관련 내용을 공부해본 적이 전혀 없어서 다른 글보다 더 자료조사를 많이 하고 공부를 많이 했었던 거 같아요. 그럼에도, 요즘은 AI를 잘 알지 못하거나 활용하지 못하면 바로 뒤쳐지는 시대이기 때문에.. 어떻게든 공부해낼 겁니다. 그 긴 시간을 함께 해주세요 ㅎㅎ.
다음 글에서는 딥시크 쇼크 이후 글로벌적으로 어떤 상황인지, 딥시크가 어떤 영향을 실시간으로 끼치고 있는지, 그에 따른 전망이 어떤지에 대해 알아보려고 해요.
그럼 다음에 봐요 ^ㅅ^