brunch

You can make anything
by writing

C.S.Lewis

by delight Feb 11. 2023

AI검색 비용 경제학으로 구글과 마이크로소프트를 말하다

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 이번 글은 semianalysis에 올라온 글을 정리한 것입니다.


오픈AI 챗GPT는 1월에만 1억 명이 넘는 활성 사용자를 빠르게 확보하며 전 세계를 강타했다. 이는 역대 애플리케이션 중 가장 빠른 속도로 성장한 것이다. 틱톡은 1억 명을 확보하기까지 9개월, 인스타그램은 2년 반이 걸렸다.


모든 사람들이 가장 궁금해하는 것은 대규모 언어 모델(LLM)이 검색에 얼마나 파괴적인 영향을 미칠 것인가 하는 것입니다. 이번 주 마이크로소프트는 검색에 오픈AI 기술을 통합한 Bing을 발표해 전 세계를 뒤흔들었다.


새로운 Bing은 구글이 나와 춤을 추게 만들 것이며, 나는 사람들이 우리가 구글을 춤추게 만들었다는 것을 알았으면 한다.-사티아 나델라 마이크로소프트 CEO


최근 구글 행보를 보면 구글이 춤을 추는 것처럼 보인다. 우리는 구글이 전 세계 어느 기업보다 우수한 모델과 AI 전문성을 보유하고 있다고 생각하지만, 그들은 선도적인 기술을 구현하고 상용화하는 데 도움이 되는 문화가 없다. 마이크로소프트와 오픈AI로부터 나오는 경쟁 압력은 이를 빠르게 바꾸고 있다.


검색의 파괴와 혁신은 공짜로 생기지 않는다. 이곳에서 구체적으로 설명한 대로 LLM을 훈련시키는 데는 많은 비용이 든다. 더 중요한 것은 모델을 적정 규모로 배포할 때 추론 비용이 훈련 비용을 훨씬 초과한다는 것이다. 실제로 주간 기준으로 챗GPT를 추론하는 데 드는 비용은 훈련 비용을 초과한다. 챗GPT와 유사한 LLM이 검색에 배포된다면, 이는 300억 달러에 달하는 구글의 수익이 컴퓨팅 업계에 직접 이전되는 것을 의미한다.


오늘 우리는 검색에 대한 LLM의 다양한 용도, 챗GPT 일일 비용, LLM 추론 비용, 수치로 본 구글의 검색 중단 효과, LLM 추론 워크로드에 대한 하드웨어 요구 사항들에 자세히 살펴볼 것이다. 이것은 엔비디아 H100 성능 개선 수치 및 TPU 비용 비교,  시퀀스 길이, 지연 시간 기준(latency criteria), 조정할 수 있는 다양한 레버(지렛대), 이 문제에 대한 마이크로소프트, 구글, 니바(Neeva)의 다른 접근 방식, 그리고 여기에서 자세히 설명한 오픈AI 차세대 모델 아키텍처가 여러 측면에서 비용을 획기적으로 절감하는 방법 등을 포함한다.


검색 비즈니스

먼저 검색 시장의 매개변수를 정의해 보자. 구글은 초당 약 32만 개 검색 쿼리를 실행하는 것으로 나타났다. 이것을 2022년 1,624억5000만 달러 매출을 기록한 구글 검색 비즈니스 부문과 비교하면 질의 당 평균 수익이 1.61센트라는 것을 알 수 있습니다. 여기에서 구글은 검색, 광고, 웹 크롤링, 모델 개발, 직원 등을 위한 컴퓨팅 및 네트워킹에서 막대한 오버헤드 비용(간접비)을 지급해야 한다. 구글 비용 구조에서 주목할 만한 항목은 애플 iOS에서 기본 검색 엔진이 되기 위해 약 200억 달러를 지급했다는 것이다.


구글 서비스 사업부 영업 마진은 34.15%이다. 질의 당 매출원가/운영비를 할당하면 검색 질의 당 1.61센트 매출을 일으키면서 1.06센트 비용이 발생한다. 즉, LLM이 적용된 검색 쿼리 비용이 질의 당 0.5센트 미만으로 현저히 낮아야 하며, 그렇지 않을 경우 검색 비즈니스 수익성이 크게 떨어지게 된다.


챗GPT 비용

알려지지 않은 여러 변수로 인해 챗GPT 비용을 추정하는 것은 까다로운 문제다. 우리는 컴퓨팅 하드웨어 비용으로 챗GPT를 운영하는 데 하루 69만4444달러가 든다는 비용 모델을 구축했다. 오픈AI는 챗GPT를 서비스하기 위해 약 3,617대 HGX A100 서버(2만8936개 GPU)가 필요하다. 쿼리당 비용은 0.36센트로 추정된다.


구글 검색 수익은 광고에서 발생하기 때문에 사용자마다 검색당 발생하는 수익 수준이 다르다. 평균적인 미국 교외 거주 여성은 인도 남성 농부보다 타겟팅 광고당 수익이 훨씬 더 높다. 이 운영 마진도 크게 다르다는 것을 의미한다.


챗GPT로 검색을 하는 비용

챗GPT 모델이 구글의 기존 검색 비즈니스에 어설프게 적용된다면 그 영향은 엄청날 것이다. 영업이익이 360억 달러 감소할 것이다. 이는 LLM 추론 비용이 360억 달러라는 얘기다. 현재 챗GPT를 구글에서 이뤄지는 모든 검색에 배포하려면 총 410만2568개 A100 GPU가 장착된 51만2820.51개 A100 HGX 서버가 필요하다. 이러한 서버와 네트워킹 총 비용은 자본 비용만 1,000억 달러가 넘으며, 이 중 상당 부분을 엔비디아가 가져갈 것이다.


물론 이런 일은 절대 일어나지 않겠지만, 소프트웨어나 하드웨어 개선이 이루어지지 않는다고 가정하면 재미있는 사고 실험이 될 것이다. 구독자 섹션에선 모델링된 구글 TPUv4 및 v5를 사용한 추론 비용도 다뤘는ㄷ네, 이는 상당히 다르다.  H100 LLM 추론 성능 개선 수치도 있다.


놀라운 점은 마이크로소프트가 검색에 LLM을 삽입하면 검색 수익성이 떨어지고 막대한 자본 지출이 필요하다는 것을 알고 있다는 것이다. 사티아 나델라는 이제부터 검색의 [총 마진]이 영원히 떨어질 것이라고 했다.

이는 검색 품질이 개선됨에 따라 검색량이 다소 감소할 수 있다는 사실, LLM 응답에 광고를 삽입하는 데 따르는 어려움, 이번 글 뒷부분에서 논의할 기타 수많은 기술적 문제 등을 고려하지 않은 수치다.


마이크로소프트는 행복하게 검색 시장의 수익성을 폭파시키고 있다. Bing의 시장 점유율은 미미하다. 마이크로소프트가 점유율을 확보하면 수익과 재무 측면에서 막대한 이득을 얻을 수 있다. 한편, 구글은 방어에 나서고 있다. 검색 프랜차이즈가 흔들리면 이익에 큰 문제가 생길 수 있다.


구글의 대응

구글은 이를 그냥 보고만 있지 않는다. 챗GPT가 출시된 지 불과 몇 달 만에 구글은 이미 LLM이 포함된 검색 버전을 공개적으로 적용하고 있습니다. 새로운 Bing과 새로운 구글을 비교해보면 장단점이 있다.


LLM 기능 측면에서는 Bing GPT가 훨씬 더 강력해 보인다. 구글은 이미 이 새로운 기술을 무대에서 시연할 때에도 정확도에 문제가 있었다. Bing GPT와 구글 바드 응답 시간을 모두 측정하면 응답 시간에서는 바드가 빙을 압도한다. 이러한 모델 응답 시간 및 품질 차이는 모델 크기와 직접적인 관련이 있다.


구글은  작은 모델로 마진을 방어하고 있다. 풀사이즈 람다(LaMDA) 모델이나 훨씬 더 성능이 뛰어나고 큰 PaLM 모델을 배포할 수도 있었지만, 대신 훨씬 슬림한 모델을 선택했다. 이는 필요에 의한 선택이다.


구글은 이러한 대규모 모델을 검색에 배포할 수 없다. 총 마진이 너무 많이 줄어들기 때문이다. 이번 글 뒷부분에서 이 경량 버전의 LaMDA에 대해 자세히 설명하겠지만, 지연 시간에서 바드가 가진 이점이 경쟁력의 한 요소라는 점을 인식하는 것이 중요하다.


구글의 검색 수익은 광고에서 발생하기 때문에 사용자마다 검색당 수익 수준이 다르다. 평균적인 미국 교외 거주 여성은 인도에 있는 남성 농부보다 타겟팅 광고당 수익이 훨씬 더 높다. 이는 운영 마진도 크게 다르다는 것을 의미한다.


검색에서 대규모 언어 모델의 미래

검색에 LLM을 직접 삽입하는 것만이 검색을 개선하는 유일한 방법은 아니다. 구글은 수년 동안 검색 내에서 언어 모델을 사용해 임베딩( embeddings)을 생성해왔다.

이렇게 하면 한 번 생성해 많은 사용자에게 제공할 수 있으므로 추론 비용 예산을 낭비하지 않고도 가장 일반적인 검색에 대한 결과를 개선할 수 있다.


검색에 LLM을 삽입할 때 가장 큰 어려움 중 하나는 시퀀스 길이 증가와 짧은 지연 시간 기준이다. 아래에서 이러한 문제와 이러한 문제가 검색의 미래를 어떻게 변화시킬지 살펴보자.


LLM 추론과 쿼리당 비용 맥락에서 엔비디아 A100, H100, 구글 TPU에 대해서도 논의할 것이다. H100의 추론 성능 향상과 하드웨어 시장에 미칠 영향에 대해서도 공유할 예정이다. 이 싸움은 GPU와 TPU의 경쟁도 포함하고 있다.


새로운 하드웨어 없이도 추론 당 비용을 크게 절감할 수 있다. 여기서는 학습 측면에서 오픈AI 차세대 LLM 아키텍처 개선에 대해 설명했지만, 추론 비용 측면에서도 개선이 이뤄지고 있다. 또한 구글은 아래에서 설명할 몇 가지 독특하고 흥미로운 기술도 활용하고 있다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari