brunch

You can make anything
by writing

C.S.Lewis

by delight Sep 03. 2023

구글 제미니가 오픈API GPT-4를 압도할까?

학습 차원에서 틈틈이 해외 전문가들이 블로그나 미디어 그리고 책에서 쓴 글을 번역 또는 요약 정리하고 있습니다. 이번 포스팅도 그중 하나고요. 거칠고 오역된 부분이 있을 수 있습니다. 제대로 번역되지 않은 부분은 확인 주시면 반영토록 하겠습니다. 번역 과정에서 의미 전달이 애매한 일부 문장은 삭제했습니다. 이번 글은 세미어낼리시스 딜런 파텔과 다니엘 니쉬볼의 글을 정리한 것입니다.

코로나 사태가 발생하기 전, 구글은 짧은 기간 동안 세계 최고 거대 언어 모델이었던 MEENA 모델을 출시했다. 구글이 작성한 블로그와 논문은 OpenAI와 구체적으로 비교했기 때문에 매우 흥미로웠다. 기존 첨단 생성 모델인 OpenAI GPT-2와 비교했을 때, 미나는 모델 용량이 1.7배 더 크고 8.5배 더 많은 데이터로 학습됐다.

이 모델을 학습시키는 데는 GPT-2보다 14배 이상 플롭스(FLOPS, FLoating point Operations Per Second: 컴퓨터의 성능을 수치로 나타낼 때 주로 사용되는 단위이다.컴퓨터가 초당 수행할 수 있는 부동소수점 연산의 횟수)가 필요했지만, 불과 몇 달 후 OpenAI는 파라미터가 65배 이상, 토큰 수는 60배 이상, FLOPS는 4,000배 이상 많은 GPT-3를 출시했기 때문에 이 차이는 크게 의미가 없었다. MEENA와 GPT-3 간 성능 차이는 엄청났다.

MEENA 모델은 노암 셰이저가 "MEENA, 세상을 먹다"(MEENA Eats The World)라는 제목으로 작성한 내부 메모로 이어졌다.

이 메모에서 그는 ChatGPT가 출시된 후 전 세계가 깨닫게 될 많은 것들을 예측했다. 언어 모델이 다양한 방식으로 우리 삶에 점점 더 많이 통합될 것이며, 전 세계에 배포된 FLOPS를 지배하게 될 것이라는 것이 핵심이었다. 노암은 이 글을 썼을 당시 시대를 훨씬 앞섰지만, 주요 의사 결정권자들은 이를 대부분 무시하거나 심지어 비웃었다.

노암이 얼마나 시대를 앞서갔는지에 대해 조금 더 자세히 알아보자. 그는 최초 트랜스포머 논문인 "관심만 있으면 된다"(Attention is All You Need.)를 작성한 팀의 일원이었다. 또 최초 스위치 트랜스포머, 이미지 트랜스포머, LaMDA와 PaLM의 다양한 요소에도 참여했다. 2018년 아이디어 중 그가 널리 인정받지 못한 것들 중 하나는 추측적 디코딩(speculative decoding)으로, GPT-4에 대한 설명에서 자세히 설명했다. 추측적 디코딩은 추론 비용을 몇 배로 줄여준다.

GPU 부자들(The GPU-Rich)

컴퓨트에 대한 액세스는 바이모달 분포(bimodal distribution)다. 2만 개 이상 A/H100 GPU를 보유한 소수 회사들이 있으며, 개별 연구자들은 반려동물 프로젝트를 위해 100개 또는 1,000개 GPU에 액세스할 수 있다. 그중에서도 연구원 대비 컴퓨팅 리소스 비율이 가장 높은 곳은 OpenAI, Google, Anthropic, Inflection, X, Meta 연구원들이다. 중국 기어들 내 연구원 비율은 확실하지 않고 GPU 규모만 알려져 있다.

베이 지역에서 볼 수 있는 가장 재미있는 트렌드 중 하나는 최고 머신 러닝 연구원들이 자신이 보유하고 있거나 곧 보유하게 될 GPU 수를 자랑하는 것입니다. 실제로 지난 4개월 동안 이러한 현상이 널리 퍼져 최고 연구자들이 어디로 갈지 결정하는 데 직접적인 영향을 미치고 있다. 세계에서 두 번째로 많은 H100 GPU를 보유하게 될 Meta는 이를 인재 채용 전략으로 적극 활용하고 있다.

GPU 빈자들(The GPU-Poor)

그리고 훨씬 적은 GPU로 어려움을 겪고 있는 수많은 스타트업과 오픈소스 연구자들이 있다. 이들은 별 도움이 되지 않거나 솔직히 중요하지도 않은 일을 하느라 상당한 시간과 노력을 소비하고 있다. 예를 들어, 많은 연구원들이 VRAM이 충분하지 않은 GPU로 모델을 미세 조정하는 데 많은 시간을 소모한다. 이것은 이들의 기술과 시간을 매우 비생산적으로 사용하는 것이다.

이들 스타트업과 오픈 소스 연구자들은 정확성이나 유용성보다는 스타일에 더 중점을 두는 잘못된 평가 방법으로 리더보드 스타일 벤치마크를 위해 더 큰 LLM을 사용해 작은 모델을 미세 조정하고 있다. 이들은 일반적으로 소규모 오픈 모델이 실제 워크로드에서 개선되려면 사전 학습 데이터셋과 IFT 데이터가 훨씬 더 크고 품질이 높아야 한다는 사실을 모르고 있다.

그렇다. GPU를 효율적으로 사용하는 것은 매우 중요하지만, 여러측면들에서 GPU를 사용하지 않는 사람들은 이를 무시하고 있다. 이들은 규모에 따른 효율성에 관심이 없고, 시간을 생산적으로 사용하지도 않는다. GPU가 부족한 환경에서 상업적으로 할 수 있는 일은 내년 말까지 350만 대 이상 H100이 넘쳐날 세상과는 거의 무관한 일이다. 학습, 실험용으로는 더 작은 저성능 게이밍 GPU도 괜찮다.

GPU가 부족한 이들은 여전히 대부분 밀도가 높은 모델(Dense model)을 사용하고 있는데, 이는 메타가 LLAMA 시리즈 모델을 내놨기 때문이다. 그렇지 않았다면 대부분의 오픈소스 프로젝트는 더욱 열악해졌을 것이다.

엔비디아는 DGX 클라우드 서비스 및 다양한 사내 슈퍼컴퓨터에 탑재된 몇 배나 많은 GPU가 있다. 엔비디아 DGX 클라우드는 사전 학습된 모델, 데이터 처리를 위한 프레임워크, 벡터 데이터베이스 및 개인화, 최적화된 추론 엔진, API, 엔비디아 전문가 지원을 제공해 기업이 맞춤형 사용 사례에 맞게 모델을 조정할 수 있도록 지원한다.

이 서비스는 이미 SaaS, 보험, 제조, 제약, 생산성 소프트웨어, 자동차 등 다양한 업종 여러 대기업을 고객으로 확보하고 있다. 모든 고객이 공개되지는 않았지만, 공개된 목록만 보더라도 Amgen, Adobe, CCC, ServiceNow, Accenture, AstraZeneca, Getty Images, Shutterstock, Morningstar, Evozyne, Insilico Medicine, Quantiphi, InstaDeep, Oxford Nanopore, Peptone, Relation Therapeutics, ALCHEMAB Therapeutics 및 Runway 등 꽤 인상적이다.

이는 다른 업체보다 훨씬 긴 목록이며, 엔비디아는 아직 공개되지 않은 파트너십도 다수 보유하고 있다. 명확하게 말하면, 이번에 발표된 엔비디아 DGX 클라우드 서비스 고객들 매출은 알려지지 않았지만, 엔비디아가 클라우드에 쓰는 지출과 사내 슈퍼컴퓨터 구축 규모를 고려할 때 허깅페이스, 투게더, 데이터브릭스가 제공할 수 있는 서비스를 합친 것보다 더 많은 서비스를 엔비디아 클라우드에서 구매할 수 있거나 구매할 수 있는 것으로 보인다.

허깅페이스와 투게더가 함께 모금한 수억 달러는 GPU가 부족한 상태로 남게될 것임을 의미한다. 고객을 위한 미세 조정 기반이 될 수 있는 N-1 LLM을 훈련할 수 없어 엔비디아 서비스에 액세스할 수 있는 기업에서 높은 점유율을 확보할 수 없다는 얘기다.

업계에서 가장 유명한 기업 중 하나인 허깅페이스는 막대한 금액을 투자하고 훨씬 더 많은 모델, 커스터마이징 및 추론 기능을 구축해야 한다. 최근 투자 라운드는 경쟁에 필요한 투자를 유치하기에는 너무 높은 시가총액으로 진행됐다. 허깅페이스 리더보드는 그들이 얼마나 맹목적인지 보여주는데, 실제 사용에는 쓸모없는 모델을 많이 만들게 함으로써 오픈 소스 운동에 해를 끼치고 있기 때문이다.

데이터브릭스(MosaicML)는 데이터와 엔터프라이즈 연결 덕분에 최소한 따라잡을 수는 있을 것이다. 문제는 7,000명이 넘는 고객에게 서비스를 제공하려면 지출을 몇 배로 늘려야 한다는 것이다. 13억 달러에 달하는 MosaicML 인수는 이 분야에 대한 큰 베팅이었지만, 인프라에도 비슷한 금액을 투자해야 한다. 안타깝게도 데이터브릭스는 GPU를 주식으로 구매할 수 없다. 곧 있을 프라이빗 라운드/IPO를 통해 대규모 자금 조달을 하고, 그 현금으로 하드웨어를 4배로 늘려야 한다.

엔비디아가 서비스에 돈을 쏟아붓고 있기 때문에 이들은 고객들이 오기 전에 하드웨어를 구축해야 한다. 그러 만큼 경제적인 주장은 통하지 않는다. 분명히 말하지만, 많은 이들이 돈을 회수하지 못하면서 엄청난 양의 컴퓨팅을 구매하고 있지만(사우디아라비아, UAE, Cohere), 이는 경쟁을 위한 전제 조건이다.

도구 및 추론 운영 회사(데이터브릭스, 허깅페이스, 투게더)들은 그들 컴퓨팅에서 거의 모든 원천이기도 한 주요 경쟁업체 뒤를 잇고 있다. 맞춤형 모델에서 두 번째로 큰 운영자는 OpenAI 미세 조정 API다.

여기서 핵심은 메타에서 Microsoft, 스타트업에 이르기까지 모두가 Nvidia의 은행 계좌로 들어가는 자본의 파이프라인 역할을 하고 있다는 점이다. 엔비디아의 노예에서 우리를 구할 수 있는 사람은 없을까? 잠재적인 구원자가 한 명 있다.

Google - 세계에서 가장 컴퓨팅이 풍부한 기업

Google은 내부적으로 GPU를 사용하기도 하고 GCP를 통해 상당수 GPU를 판매하기도 하지만, 몇 가지 에이스도 보유하고 있다. 여기에는 제미니와 이미 트레이닝을 시작한 다음 버전이 포함된다. 구글이 가진 가장 중요한 장점은 타의 추종을 불허하는 효율적인 인프라다.

Gemini와 클라우드 비즈니스에 대해 알아보기 전에, Gemini의 엄청난 구축에 대한 몇 가지 데이터 포인트를 공유한다. 여기서 우리는 OpenAI에 유리한 해석을 부여한다. 이들이 보유한 총 GPU 수는 2년 동안 4배가 될 것이다. Google의 경우, 기존에 보유하고 있는TPUv4(Pufferfish), TPUv4 라이트, 내부적으로 사용되는 GPU는 모두 제외했다. 소규모 언어 모델 추론에서 핵심이 될 수 있음에도 불구하고 TPUv5 라이트도 포함하지 않았다.

유료 콘텐츠여서 정리할 수 있는 내용은 여기까지다.

비즈니스 인사이더가 전한 내용을 보면 SemiAnalysis는 해당 콘텐츠에서 구글이 선보일 제미니 AI 모델이 훨씬 더 많은 컴퓨팅 파워를 탑재해 OpenAI AI 모델을 압도할 준비가 되어 있다고 주장한다.

세미어낼리시스는 구글 공급업체로부터 수집한 데이터를 기반으로 분석했다

구글이 훨씬 더 많은 최고급 칩에 액세스할 수 있고, 제미니는 FLOPS라는 컴퓨터 계산과 관련된 성능 측정에서 GPT-4를 능가한다는 것으로 요약된다. 세미어낼리시스 보고서 제목을 보면 제미니가 GPT-4를 5배까지 앞선다는 문구도 있다. 제미니는 구글 AI 부문인 딥마인드 연구원들이 개발 중인 차세대 멀티모달 AI 모델로, 2023년말 출시될 예정이다. 제미니는 OpenAI GPT-4에 대항하기 위해 구글이 진행하는 가장 진지한 노력이다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari