[스몰테크] 매주 바뀌는 1등 AI

by 고똘
IMG_2621.jpg

2025년 하반기 ‘AI 대첩’이 있었습니다.

시작은 오픈AI였습니다. 10월 28일 오픈AI가 AI 모델을 업데이트한 GPT-5.1을 발표했습니다. 앞선 모델을 넘어서고, ‘AI 업계 빌보드 차트’로 알려진 LMSYS 챗봇 아레나에서 1위를 차지했습니다. 역시 오픈AI라는 반응이 나왔습니다.

그러자, 11월 한 보름 뒤인 일론 머스크의 xAI가 그록-4.1을 내놨습니다. 추론 능력을 강화했다더니, GPT를 뛰어넘고 LMSYS의 챗봇 아레나 전체 1위에 올랐습니다. 오픈AI가 한방 먹은 것입니다.

다음 날 구글이 맞불을 놨습니다. ‘제미나이 3’ 시리즈를 기습 발표했습니다. 업계를 뒤흔든 모델이잖아요. 특히 프로 모델이 여러 AI 벤치마크에서 압도적 성능 차를 보이며 “세상에서 가장 똑똑한 AI”라는 평가가 나왔습니다. 오픈 AI는 이를 견제하며 코드레드를 발령하기도 했어요.

앤트로픽도 참전합니다. ”코딩만큼은 우리가 짱이다“라고. 같은 달 24일에는 코딩 능력 측정 지표에서 GPT와 제미나이를 넘어서는 ‘클로드 4.5 오퍼스’를 내놓으며 반격했습니다.

다시 오픈AI가 상황을 반전시켰습니다. 지난 6일 GPT-5.2를 내놓으며 “우리가 다시 제미나이를 넘어섰다”고 했지요.


AI 모델 경쟁이 박터집니다. 거의 매일 매일 1등 AI가 바뀌고 있어요. 2022년 11월 30일 오픈 AI가 AI대중화의 시발점인 GPT 3.5와 챗 GPT를 출시한 뒤 새 AI모델은 적어도 반년은 있어야 나왔는데, 그게 1~2개월 단위로 좁혀지더니 최근엔 주 단위로 새로운 모델들이 쏟아지고 있습니다.


기업별로도 살펴봅시다. 오픈AI는 올해 4월, 8월, 10월, 12월에 각각 AI 모델 업그레이드 소식을 전했습니다. 쇼핑 에이전트 출시 등 크고 작은 기능까지 포함하는 업데이트는 더 잦았어요. 제미나이도 물량 공세를 이어갔습니다지난 2월 ‘제미나이 2.0′을 공개한 데 이어 4월 ‘제미나이 2.5 플래시’를 발표했고, 11월엔 ‘제미나이 3.0′ 시리즈를 내놨습니다. ’나노 바나나’로 알려진 이미지 생성·편집 기능도 두 차례 내놨고 앤트로픽의 클로드, xAI의 그록도 올해 주요한 업데이트를 수차례 했습니다.


거대언어모델 영역에서의 AI 기업들 간 경쟁은 이제 이미지 생성편집 모델이나 AI웹브라우저 등 다양한 곳으로 확전되는 모양새입니다.


하지만 이럴수록 문제도 생깁니다. “우리가 더 잘한다”는 것을 보여주는데에 치중하다보니, 혁신 없는 발표들을 너무 많이 내놓습니다. 얼마 전에도 구글이 아닌 밤중에 새 자료를 냈는데, ‘제미나이 3’ 시리즈의 경량화모델인 ‘제미나이 3 플래시’를 출시한다고. 제미나이 3 시리즈 내놨으면 된 거지, 왜 경량화 버전 따로, 이미지 따로, 코딩 모델 따로 내놓는지 모르겠어요. 일종의 ‘쪼개기 출시’ 입니다.


AI 모델을 평가하는 데 활용되는 ‘AI 벤치마크’가 과연 얼마나 객관적으로 AI의 성능을 평가할 수 있느냐는 회의감도 나옵니다. 이용자들의 체감 성능은 측정하지 않고, 점점 추론·수학·과학 등 AI 성능 테스트에만 특화한 모델을 만들어 내 “우리가 1등”이라고 주장합니다. 수능시험 성적 올리는 데 최적화된 AI 모델을 만들어내는 식인데, AI 테스트 자체가 모델 개발의 목적이 되어버린 것입니다.

작가의 이전글[스몰테크] 외부인 출입금지 '애플파크' 방문기