AI 칩 경쟁, 데이터센터에서 온디바이스로

구글 AI의 해, 그리고 애플의 백기?

by Wade Paak

2025년은 구글 AI의 해였다.

연초부터 흐름이 달랐다. Gemini 2.0이 GPT-4o를 벤치마크에서 추월했다는 보도가 나왔고, 구글 검색에 AI Overview가 본격 통합되면서 "검색의 종말"을 예고했던 ChatGPT 위협론이 수그러들었다. 유튜브, 지메일, 구글 독스 전반에 Gemini가 스며들었다. 주가도 반응했다. 알파벳은 연초 대비 40% 이상 상승하며, AI 랠리의 주역이 OpenAI-마이크로소프트 축에서 구글로 이동했음을 시장이 확인해줬다.

그리고 11월, 결정적 뉴스가 터졌다.

Bloomberg의 Mark Gurman이 보도했다: 애플이 차세대 Siri에 구글의 Gemini 모델을 도입한다. 연간 10억 달러 규모의 계약. 구글이 제공하는 모델은 1.2조 파라미터, 애플의 현행 클라우드 모델은 1,500억 파라미터—8배 격차다. 애플은 OpenAI와 Anthropic도 검토했지만, 최종적으로 구글을 선택했다. 내부적으로는 이미 'AFM v10(Apple Foundation Model version 10)'이라는 코드명까지 부여됐다. 협상은 "finalizing" 단계로, 2026년 봄 iOS 26.4 출시에 맞춰 새로운 Siri가 공개될 예정이다.


표면적 해석: 구글 AI 강세의 증거

이 뉴스의 1차적 해석은 단순하다. 구글 AI 강세의 또 다른 증거.

생각해보라. 세계 최고 시가총액 기업이, 그것도 "Not Invented Here" 증후군의 대명사인 애플이, 핵심 제품의 핵심 기능에 경쟁사 기술을 빌려 쓴다. 이보다 명확한 패배 선언이 있을까? Siri는 2011년 출시 이후 14년간 애플 생태계의 관문이었다. 그 관문을 구글에게 내어주는 셈이다.

시장의 반응도 이 해석을 뒷받침했다. 보도 직후 알파벳 주가는 상승했고, 애플에 대해서는 "AI 경쟁에서 뒤처졌다"는 분석이 쏟아졌다. 2023년 ChatGPT 등장 이후 애플이 보여준 행보—Apple Intelligence의 지연된 출시, 제한적 기능, 미온적 시장 반응—를 떠올리면 자연스러운 결론이다.

하지만 이 해석은 절반만 맞다.


다른 질문: 연산은 어디서 일어나는가?

이 거래를 AI 모델 경쟁의 프레임으로만 읽으면 본질을 놓친다.

"누구의 모델이 더 크고 똑똑한가"는 2023년의 질문이다. 2025년의 질문은 다르다: AI 연산은 어디서 일어나는가? 데이터센터의 GPU 클러스터인가, 사용자 손 안의 스마트폰 칩인가. 클라우드인가, 엣지인가.

이 구조적 전환을 이해하면, 애플이 왜 단기적 열세를 감수하면서도 장기 베팅에 자신감을 갖는지 보인다. 그리고 왜 이 거래가 구글의 승리인 동시에, 애플에게도 합리적 선택인지 설명된다.

핵심은 AI 칩 산업의 이중 구조다.


훈련 칩 vs 추론 칩: 완전히 다른 게임

AI 반도체 시장은 두 개의 전혀 다른 전장으로 나뉜다.

훈련(Training) 칩은 거대한 데이터셋으로 모델을 학습시키는 데 쓰인다. OpenAI의 GPT-4는 25,000개의 NVIDIA A100 GPU로 훈련되었고, 차세대 모델들은 수십만 개의 최신 칩을 요구한다. 이 시장에서 NVIDIA는 80~95%를 장악하고 있다. H100, Grace Hopper, 그리고 최근 발표된 Rubin까지—훈련 인프라에서 NVIDIA의 지위는 사실상 독점에 가깝다.

추론(Inference) 칩은 학습된 모델로 실제 응답을 생성하는 데 쓰인다. 개별 연산 부담은 훈련보다 적지만, 사용자 요청마다 반복되기 때문에 총량은 막대하다. 여기서 게임 체인저가 등장한다: 추론은 반드시 데이터센터에서 이뤄질 필요가 없다.


엣지 AI 칩의 부상

클라우드 중심 AI의 한계는 명확하다. 수억 명의 요청을 처리하려면 전력 비용과 서버 비용이 기하급수적으로 늘어난다. 응답 지연, 네트워크 의존성, 그리고 무엇보다 프라이버시 문제.

해결책은 AI를 사용자 디바이스로 내려보내는 것이다.

퀄컴은 안드로이드 스마트폰에서 Stable Diffusion을 직접 실행하는 데 성공했다. 메타와 협업해 Llama 2를 모바일과 PC에 최적화하는 프로젝트도 진행 중이다. 스냅드래곤 칩의 Hexagon NPU는 이미 온디바이스 AI 추론에서 검증된 성능을 보여주고 있다.

애플의 Neural Engine은 더 오래된 역사를 갖는다. 2017년 A11 칩에 처음 탑재된 이후, 최신 A19 Pro의 Neural Engine은 초당 140조 회 연산을 처리한다—8년 만에 230배 이상의 성능 향상. 이 수치는 불과 몇 년 전 데이터센터용 GPU에 견줄 만한 수준이다.

온디바이스 AI의 이점은 세 가지로 압축된다:

비용 효율: 중앙 서버 부하 감소, 운영 비용 절감

저지연 + 오프라인: 네트워크 왕복 없이 즉각 응답, 오프라인에서도 작동

프라이버시: 민감 데이터가 기기 밖으로 나가지 않음


칩 설계 철학의 충돌

여기서 각 플레이어의 전략이 갈린다.

NVIDIA는 데이터센터의 제왕이다. GPU 가속기 시장 90% 장악, CUDA 생태계로 사실상 업계 표준 지위 확보. 최근 Rubin 칩으로 엣지까지 공략하려 하지만, 본질은 고성능 병렬 연산이다. 전력 효율보다 절대 성능에 방점을 찍는다.

구글은 TPU로 자체 훈련 인프라를 구축했다. Gemini 같은 초거대 모델 개발과 GCP 클라우드 서비스가 핵심. 데이터센터 중심 전략이다. 픽셀 폰이 있지만 하드웨어-소프트웨어 통합 면에서 애플에 미치지 못한다.

퀄컴은 모바일 SoC의 터줏대감이다. 안드로이드 진영의 온디바이스 AI를 선도하며, PC용 Arm 칩 시장에서 마이크로소프트와 손잡고 애플의 M칩에 도전장을 내밀었다. 에너지 효율과 모바일 최적화가 강점이다.

애플은 다른 길을 간다. 자체 SoC 설계, Neural Engine 내장, iOS/macOS 전체 스택 통제. 코어ML, Metal 등 프레임워크로 하드웨어-소프트웨어 수직 통합을 극대화한다. WWDC 2024에서 공개한 Apple Intelligence는 약 30억 파라미터의 온디바이스 LLM과 클라우드 LLM을 조합하는 하이브리드 전략을 택했다.

핵심 차이는 설계 목표다. NVIDIA와 구글은 절대 성능을, 퀄컴과 애플은 와트당 성능을 최적화한다. 데이터센터에서는 전력이 무한 자원처럼 취급되지만, 스마트폰에서는 배터리가 모든 것을 제약한다.


모델 크기의 함정

Gemini 1.2조 파라미터 vs Apple Intelligence 1,500억 파라미터. 8배 차이가 곧 8배의 능력 차이를 의미하지 않는다.

애플의 접근법은 작업 특화 모델의 분산 배치다. 텍스트 요약, 알림 정리, 이미지 생성 등 각 기능에 최적화된 중소규모 모델들이 분담한다. 거대 모델 하나가 모든 것을 처리하는 방식과 정반대다.

이 전략의 장점은 세 가지다:

디바이스 제약 극복: 수백 GB 메모리가 필요한 거대 모델은 스마트폰에 올릴 수 없다. 특화 모델은 가능하다.

응답 속도: 작은 모델은 빠르다. 사용자 경험에서 체감 성능이 올라간다.

프라이버시 유지: 데이터가 기기를 떠나지 않으면 유출 위험도 없다.

물론 한계도 있다. 복잡한 추론, 창의적 생성, 멀티모달 이해에서 초거대 모델의 능력을 따라잡기 어렵다. 애플이 구글 Gemini를 도입한 이유다—당장의 격차를 메우기 위한 시간벌기.


인프라 경쟁의 새로운 축

흥미로운 점은 AI 인프라의 정의 자체가 변하고 있다는 것이다.

과거: AI 인프라 = 데이터센터 GPU 클러스터 현재: AI 인프라 = 데이터센터 + 수십억 대의 엣지 디바이스

애플은 전자에서 열세지만, 후자에서는 압도적이다. 아이폰, 아이패드, 맥, 애플워치—모두 Neural Engine을 탑재한 AI 추론 가능 디바이스다. 이것이 분산 컴퓨팅 인프라로서의 가치를 갖는다.

구글과 마이크로소프트가 데이터센터 확장에 수십억 달러를 쏟아붓는 동안, 애플은 매년 2억 대 이상의 AI 칩을 고객에게 "판매"하고 있다. 소비자가 디바이스 가격을 지불하기 때문에 인프라 비용의 상당 부분이 전가된 셈이다.


리스크 요인

낙관적 전망만 있는 건 아니다.

모델 개발 지연: 애플은 2026년 1조 파라미터급 자체 모델 출시를 목표로 하지만, 실제 경쟁력 확보는 미지수다. 구글이나 OpenAI처럼 거대 모델을 서비스하며 축적한 실전 노하우가 부족하다.

클라우드 인프라 한계: 온디바이스 전략이 모든 것을 해결하지 못한다. 복잡한 작업은 여전히 클라우드가 필요하다. 애플의 데이터센터 역량은 AWS, Azure, GCP에 한참 못 미친다.

규제 리스크: 애플-구글 제휴는 이미 검색 엔진 계약으로 연간 200억 달러를 주고받는다. AI까지 확대되면 반독점 당국의 관심이 집중될 수 있다.

기술 변화 속도: 온디바이스 AI가 승리한다는 보장은 없다. 클라우드 기반 AGI가 먼저 도래하면 판이 뒤집힌다.


투자 시사점

AI 칩 시장을 바라보는 프레임을 재설정할 필요가 있다.

단기(1~2년): NVIDIA 중심의 데이터센터 투자 사이클 지속. 훈련 수요는 여전히 폭발적이다. 구글, MS, 메타 모두 GPU 확보 경쟁 중.

중기(2~5년): 추론 칩 시장 분화. 데이터센터용 추론(NVIDIA, AMD, 구글 TPU)과 엣지용 추론(퀄컴, 애플, 미디어텍)이 별도 시장으로 성장. 엣지 AI 칩 시장이 가장 빠르게 성장할 전망.

장기(5년+): 하드웨어-소프트웨어 통합 플레이어 유리. 칩과 OS, 서비스를 모두 통제하는 기업이 AI 경험 최적화에서 앞선다. 현재 이 조건을 충족하는 건 애플뿐이다. 구글은 픽셀로, 퀄컴은 마이크로소프트와 협력해 따라잡으려 한다.


결론: 두 개의 AI 시대

AI 칩 전쟁은 두 개의 병렬 경쟁으로 전개되고 있다.

1막은 데이터센터다. NVIDIA가 지배하고, 구글과 MS가 자체 칩으로 추격한다. 초거대 모델 훈련과 클라우드 추론이 무대다.

2막은 엣지다. 퀄컴과 애플이 선두를 다툰다. 스마트폰, PC, 웨어러블에서의 온디바이스 AI가 무대다.

애플의 구글 Gemini 도입은 1막에서의 열세를 인정한 것이다. 하지만 애플이 진짜 베팅하는 곳은 2막이다. 자체 SoC 설계 역량, 수직 통합 생태계, 수십억 대의 기기 기반—이것이 AI가 클라우드를 떠나 주머니로 들어올 때 결정적 자산이 된다.

파라미터 숫자 경쟁에 매몰되면 본질을 놓친다. AI 칩 산업의 진짜 질문은 이것이다: 연산은 어디서 일어나는가? 그 답이 "사용자 손 안"으로 이동하는 한, 온디바이스 AI의 왕좌를 두고 벌어지는 경쟁은 이제 막 시작됐을 뿐이다.

keyword
작가의 이전글독서, 인류가 발명한 최초의 AI 소프트웨어