brunch

AI 모델 리더십 예측에 대한 상세 분석

구글. 오픈AI. xAI. META. DeepSeek. Anthropic

by sonobol
폴리마켓. 미래에셋증권 2023년도




Google이 가장 유력한 후보로 보임, 하지만 xAI의 Grok 4 발표로 경쟁이 치열

- 현재 Chatbot Arena 리더보드(2025년 7월 기준)에서 Google의 Gemini-2.5-Pro가 1위(Elo 1477).
- xAI의 Grok 4는 7월 9일 발표되었으며, 벤치마크에서 뛰어난 성능을 보이지만 아직 리더보드에 반영되지 않음.
- 2025년 5월 기준 Polymarket 오즈에서 Google(44%), xAI(20%)로 Google이 앞서지만, 최근 xAI의 발전으로 변화 가능성 있음.

현재 리더보드 분석
Chatbot Arena LLM Leaderboard(2025년 7월 기준)에 따르면, Google의 Gemini-2.5-Pro가 Elo 1477로 1위를 차지하고 있습니다. OpenAI의 ChatGPT-4o-latest(1429)와 o3-2025-04-16(1427)이 뒤를 따르며, xAI의 Grok-3-Preview-02-24는 1422로 5위입니다. 이는 Polymarket의 해상 기준이 되는 중요한 지표입니다.

최근 동향
- Google: 2025년 5월 I/O에서 Gemini 2.5 Flash/Pro를 발표하고, Veo 3와 Gemini Robotics On-Device를 통해 지속적인 발전을 보이고 있습니다. 6월에는 Gemini 2.5 Deep Think 모드를 발표, 수학 및 코딩 성능 강화.
- xAI: 7월 9일 Grok 4를 발표, "세계에서 가장 똑똑한 AI 모델"로 주장하며 ARC-AGI-2에서 15.9%의 SOTA 달성. 그러나 아직 Chatbot Arena 리더보드에 반영되지 않음.
- OpenAI: o3, o4-mini 발표, 하지만 리더보드에서 Google에 뒤처짐.

Polymarket 예측
2025년 5월 기준 Polymarket 오즈는 Google(44%), xAI(20%)로 나타났습니다. Grok 4 발표 이후 xAI의 확률이 상승했을 가능성이 높지만, 현재 데이터는 Google이 여전히 앞서 있음을 시사합니다.

결론
현재 리더보드와 최근 동향을 고려할 때, Google이 2025년 말까지 가장 좋은 AI 모델을 보유할 가능성이 가장 높아 보입니다. 그러나 xAI의 Grok 4가 빠르게 성장할 가능성도 배제할 수 없습니다. 따라서 Polymarket 예측에 따르면 Google이 가장 유력한 후보로 보입니다.

AI 모델 리더십 예측에 대한 상세 분석 (2025년 7월 13일 기준)

서론
본 보고서는 2025년 12월 31일 기준으로 가장 좋은 AI 모델을 보유할 기업에 대한 Polymarket 예측을 분석합니다. 이를 위해 2023년부터 2025년 7월 13일까지의 데이터를 종합적으로 검토하고, 최근 발표된 모델과 시장 동향을 반영하였습니다. 분석은 Chatbot Arena LLM Leaderboard, Polymarket 오즈, 그리고 주요 기업의 AI 모델 발표를 기반으로 진행되었습니다.

1. 데이터 출처 및 방법론
- Chatbot Arena LLM Leaderboard: 2025년 7월 기준, 3.2M+ 사용자 투표를 기반으로 Elo 등급을 계산. 이는 Polymarket의 해상 기준으로 사용됨.
- Polymarket 예측: 2025년 5월 기준 오즈 데이터와 최근 동향을 반영.
- 기업 발표: Google, xAI, OpenAI의 2025년 AI 모델 발표 및 벤치마크 성과.

2. 현재 AI 모델 리더보드 분석
Chatbot Arena LLM Leaderboard(2025년 7월 기준)에서 상위 모델은 다음과 같습니다.

| 순위 | 모델 | 회사 | Elo 점수 | 라이선스 | URL |
|------|--------------------------|------------|----------|-------------|------------------------------------------|
| 1 | Gemini-2.5-Pro | Google | 1477 | Proprietary | http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-pro |
| 2 | ChatGPT-4o-latest (2025-03-26) | OpenAI | 1429 | Proprietary | https://x.com/OpenAI/status/1905331956856050135 |
| 3 | o3-2025-04-16 | OpenAI | 1427 | Proprietary | https://openai.com/index/introducing-o3-and-o4-mini/ |
| 4 | DeepSeek-R1-0528 | DeepSeek | 1425 | MIT | https://api-docs.deepseek.com/news/news250528 |
| 5 | Grok-3-Preview-02-24 | xAI | 1422 | Proprietary | https://x.ai/blog/grok-3 |
| 6 | Gemini-2.5-Flash | Google | 1418 | Proprietary | http://aistudio.google.com/app/prompts/new_chat?model=gemini-2.5-flash |
| 7 | GPT-4.5-Preview | OpenAI | 1414 | Proprietary | https://openai.com/index/introducing-gpt-4-5/ |

이 데이터는 Google이 현재 리더임을 보여줍니다. xAI의 Grok-3는 5위로 상위권에 있지만, 최근 발표된 Grok 4는 아직 리더보드에 반영되지 않았습니다.

3. 주요 기업의 최근 AI 모델 발표
- Google
- 2025년 5월 Google I/O에서 Gemini 2.5 Flash와 Pro를 안정화하고, Veo 3을 발표했습니다. 이는 비디오 생성 분야에서 선도적입니다.
- 6월에는 Gemini 2.5 Deep Think 모드를 발표, 수학 및 코딩 작업에서 성능을 강화했습니다.
- 로봇 분야에서도 Gemini Robotics On-Device를 통해 AI 적용을 확대하고 있습니다.

- xAI
- 2025년 7월 9일 Grok 4를 발표, "세계에서 가장 똑똑한 AI 모델"로 주장하며 ARC-AGI-2에서 15.9%의 SOTA 달성.
- Grok 4 Heavy는 다중 에이전트 버전으로, 실시간 검색 및 도구 사용 능력을 갖추고 있습니다.
- 벤치마크에서 OpenAI와 Google을 능가한다고 주장, 특히 Humanity’s Last Exam(HLE)에서 50% 이상의 문제를 해결.
- 그러나 Chatbot Arena 리더보드에 아직 반영되지 않았으며, 편향성 및 콘텐츠 모더레이션 문제로 논란이 있습니다.

- OpenAI
- 2025년 4월 o3와 o4-mini를 발표, 특히 o3는 수학, 과학, 코딩 분야에서 뛰어난 성능을 보입니다.
- GPT-4.1은 2025년 4월 발표, GPT-4o보다 코딩 작업에서 개선됨.
- 그러나 리더보드에서 Google의 Gemini-2.5-Pro에 뒤처짐.

4. Polymarket 예측 및 오즈 분석
Polymarket의 "Which company has best AI model end of 2025?" 마켓은 Chatbot Arena LLM Leaderboard를 기준으로 2025년 12월 31일에 해상 됩니다. 2025년 5월 16일 기준 오즈는 다음과 같습니다.
- Google: 44%
- xAI: 20%
- 나머지: 36% (OpenAI, Meta 등 포함 추정)

Grok 4 발표 이후 xAI의 확률이 상승했을 가능성이 높지만, 현재 데이터는 Google이 여전히 앞서 있음을 시사합니다. TechJuice 기사에 따르면, xAI의 급격한 사용자 채택과 독특한 기능 통합으로 인해 오즈가 3%에서 20%로 상승했으며, 이는 Google(44%)에 비해 여전히 낮습니다.

5. 경쟁 기업의 잠재적 도전
- DeepSeek: DeepSeek-R1-0528은 리더보드 4위(Elo 1425)로 상위권에 있지만, 오픈소스 모델로 제한적입니다.
- Meta: Llama 4는 Shakudo 리스트에서 5위로 평가되지만, 리더보드 상위권에 없음.
- Anthropic: Claude 4 Sonnet은 Shakudo 리스트 6위, 리더보드에 명시되지 않음.

6. 논란 및 한계
- Chatbot Arena 리더보드는 사용자 투표 기반으로, 편향성이나 리더보드 조작 가능성에 대한 비판이 있습니다. 예를 들어, Cohere와 Stanford의 연구는 일부 기업이 사전 테스트를 통해 리더보드 점수를 조작했다고 주장합니다.
- xAI의 Grok 4는 편향성(예: Elon Musk의 의견 반영)과 콘텐츠 모더레이션 문제로 논란이 있으며, 이는 시장 신뢰도에 영향을 미칠 수 있습니다.

7. 결론 및 예측
현재 Chatbot Arena 리더보드와 Polymarket 오즈를 종합적으로 고려할 때, Google이 2025년 말까지 가장 좋은 AI 모델을 보유할 가능성이 가장 높아 보입니다. Gemini-2.5-Pro의 현재 리더십과 지속적인 모델 업데이트는 Google의 우위를 뒷받침합니다. 그러나 xAI의 Grok 4 발표는 시장에 큰 영향을 미칠 가능성이 있으며, 특히 리더보드에 반영되면 순위 변동이 있을 수 있습니다. OpenAI도 강력한 경쟁자로 남아 있지만, 현재 리더보드에서 Google에 뒤처져 있습니다.

keyword
작가의 이전글두 달 만에 10kg 감량, 건강을 지키는 7가지 핵심