brunch

AI 누가 누가 잘하나

AI 성능 랭킹 사이트 - LMareana

by 들여쓰기


하루가 멀다 하고 새로운 AI 서비스들이 쏟아져 나오지만, 막상 업무에 어떤 것부터 적용해야 할지 막막할 때가 많습니다. 이런 고민을 해결하고자, UC 버클리 SkyLab 연구진은 ‘대규모 언어 모델(LLM)’을 사용자 투표 기반으로 비교·평가하는 공개 웹 플랫폼을 만들었는데요. 무엇부터 시작해야 할지 잘 모르겠다면, 오늘 제가 소개해드릴 LMarena.ai의 상위 랭킹 모델부터 시작해 보시는 건 어떨까요? 그럼 오늘은 LMarena는 어떤 서비스인지, 또 2025년 8월 중순 현재 기준 가장 핫한 평가를 받은 AI 모델들은 무엇인지에 대해 함께 알아보도록 하겠습니다.


Frame 1422235493 (7).png




LMarena는?

우리는 매일 AI를 활용해 글을 쓰고, 코드를 짜고, 이미지를 만들게 합니다. 그런데 “어떤 모델이 실제로 더 잘하나?”라는 질문에 쉽게 답하기는 생각보다 어렵습니다. LMarena는 이 문제를 아주 직관적으로 풀었습니다. 사용자에게 같은 프롬프트에 대한 두 AI 모델에 대한 답변을 모델명을 가린 채 보여주고, 결과에 대한 투표를 하게 하여 어떤 결과가 더 마음에 드는지를 고르게 하는 방식이죠. LMarena는 이렇게 모인 투표 결과를 Elo(엘로) 시스템으로 점수화해 레더보드를 만듭니다. 이는 실제 사용자들의 선호가 잘 반영된 순위표이며, 아직 써보지 않은 사람들에게 현재 어떤 모델이 가장 성능이 좋다고 평가받고 있는지를 직관적으로 보여줍니다. 그럼 LMarena 서비스의 작동 방식에 대해 좀 더 상세히 알아보겠습니다.


1. 블라인드 배틀 (Blind Battle)

같은 프롬프트(질문이나 요청)에 대해 두 개의 모델이 각각 답변을 생성합니다.

이때 어떤 답변이 어떤 모델에서 나왔는지는 익명 처리되어 표시됩니다.

사용자는 두 답변을 비교한 뒤 더 낫다고 생각하는 쪽에 투표합니다.

이렇게 하면 모델 이름이나 선입견에 영향을 받지 않고 순수하게 결과 품질만 평가할 수 있습니다.

2. Elo 점수 산정

투표 결과는 Elo 방식(체스 랭킹에 쓰이는 방식과 유사)으로 점수를 계산합니다.

약한 모델이 강한 모델을 이기면 더 많은 점수를 얻어, 상대평가가 가능합니다.

LMarena와 LMSYS는 점수의 신뢰도를 높이기 위해 부트스트래핑 기법을 활용하고, 95% 신뢰구간(CI)을 함께 제공해 변동성과 표본 편향을 줄입니다.

3. 공개와 참여

누구나 웹에서 바로 투표에 참여할 수 있습니다.

참여하면 그 결과가 실시간으로 집계되어 모델 순위에 반영됩니다.

지금까지 누적된 투표는 수백만 건에 달하며, 많은 사람들이 모델 비교와 랭킹 형성에 기여하고 있습니다.




'지금'의 강자는 누구?

현재 시장의 대세 AI는 무엇일까요? 매일 같이 새로운 모델들이 쏟아져 나오고 있으니 LMarena의 순위 변동폭 또한 큰 것 같습니다. 그만큼 시장의 경쟁이 심화되었다는 뜻이겠지요? 2025년 8월 15일의 레더보드 기준으로 현재 AI 시장의 흐름을 세 가지 주요 포인트로 짚어 보았습니다.

Frame 1422235495.png LMArena의 레더보드 화면


1. OpenAI의 광범위한 상위권 점유

gpt-5-high가 텍스트(Text)와 비전(Vision) 분야 모두 1위, 웹 개발(WebDev) 분야도 선두를 차지하며 전방위적으로 우위를 확보하고 있습니다.

2. Google과 Anthropic의 추격

텍스트·비전 분야에서 Google Gemini-2.5-Pro가 OpenAI를 바짝 따라잡고 있고, 웹 개발 분야에서는 Anthropic Claude Opus 4.1이 2위를 고정하며 강세를 보입니다.

3. 오픈소스·중국계 모델의 약진

DeepSeek R1/V3, Qwen, GLM 등 오픈 라이선스 기반 모델이 상위권에 진입했습니다. 가성비와 확장성에서 강점을 보이며, 사용자의 선택지를 넓히고 있습니다.




활용 시 유의사항

LMarena는 누구나 참여해 AI 모델의 성능을 평가하고 순위를 매길 수 있는 흥미로운 플랫폼이지만, 활용 과정에서 몇 가지 주의해야 할 점이 있습니다. 특히 투표 방식과 데이터 처리 특성상 결과 해석이나 정보 입력에 대한 신중함이 필요한데요. 특히 아래의 사항들을 미리 이해하고 접근한다면, 보다 안전하고 의미 있게 LMarena를 활용할 수 있을 것 같습니다.


1. 모델 식별 및 편향 가능성

반복 사용자는 답변의 표현 방식이나 구조를 통해 모델을 추정할 수 있습니다. 어느 모델인지 인지 가능하다면 투표의 신뢰성이 떨어질 수 있겠지요?

특정 커뮤니티나 집단이 조직적으로 투표에 참여할 경우, 결과에 대한 편향이나 조작이 발생할 가능성이 있습니다.

2. Elo 평가의 맥락 한계

Elo 방식은 상대적 강·약을 잘 보여주지만, 법률·회계 등 특수 분야서는 절대적인 성능을 보장하지 않습니다. 운영사 측에서는 이러한 한계를 보완하기 위해 평가 방법에 대한 지속적인 개선을 하고 있습니다.

3. 개인정보·민감 콘텐츠 주의

입력한 프롬프트나 대화 일부가 모델 제공사에 공유·공개될 수 있으므로, 민감한 개인정보나 기밀 데이터는 절대 입력하지 마세요.




핫한 '나노 바나나'

LMarena에는 최근 세부 출처, 라이선스 등이 공개되지 않은 ‘나노 바나나(Nano‑Banana)’란 미스터리 한 이미지 편집 모델이 등장하였습니다. 현재 LMarena에서만 테스트를 진행해 볼 수 있으며, 탁월한 텍스트 기반 이미지 편집 성능 덕분에 엄청난 주목을 받고 있는데요. 공식 발표가 전혀 없는 상황이라 모델의 출처는 여전히 베일에 가려져 있습니다. 여러 이용자들은 구글의 새로운 이미지 모델일 것이라는 추측도 제기했지만, 확실한 근거는 없습니다. 아래는 ‘나노 바나나’를 활용해 이미지를 편집해 본 예시입니다. 소문대로 성능이 매우 좋은 것 같네요.

Frame 1422235494 (1).png LMarena에서 테스트해 볼 수 있는 ‘나노 바나나' 모델




모두를 위한 실전형 AI 모델 비교 서비스

LMarena는 사람들의 투표를 바탕으로 다양한 AI 모델의 선호도를 보여주는 순위 사이트입니다. 다만 이 순위를 절대적인 값으로 받아들이기보다는, 의사결정을 빠르게 좁혀주는 도구로 쓰는 것이 좋을 것 같습니다. 지금 업무나 작업에서 어떤 AI 모델을 써야 할지 고민 중이시라면 바로 LMarena에 접속하여 레더보드 순위를 확인하고 상위 모델들로 테스트를 진행해 보면 어떨까요? 여러분의 그 고민에 좋은 힌트가 될 것 같네요.

https://lmarena.ai/leaderboard




keyword
작가의 이전글피그마의 상장과 업무의 확장