brunch

You can make anything
by writing

C.S.Lewis

by Andy 5시간전

OpenAI의 추론 모델 o3  등장

성능은 좋지만, 자원은 많이 먹고, 더 안전해졌다?

(표지사진 Frontier Math)


OpenAI는 o1과 o2를 잇는 차세대 모델인 o3를 공개했습니다. 이 모델은 단순히 데이터를 처리하고 분석하는 것을 넘어선, 인간과 유사한 추론 능력을 목표로 설계되었는데요. 특히, 수학, 과학, 코딩 등의 전문 분야에서 뛰어난 성능을 발휘하며, 기존의 모델들을 넘어서는 결과를 보여줍니다. 공개된 벤치마크 자료에 따르면, o3 모델은 이전 모델 대비 여러 면에서 우월한 성과를 냈습니다. 다음은 주요 성능 지표입니다. 


ARC-AGI 벤치마크: 수학적 및 논리적 문제 해결 능력을 평가하는 이 벤치마크에서 o3는 이전 모델보다 3배 높은 정확도를 기록했습니다. ARC Prize에서 75.7%를 달성했는데요. 리소스가 늘어나면 87.5%까지 점수가 올라갑니다. 중요한 건 이 벤치마크가 AGI에 대한 진척수준을 나타낸다는 거죠. (링크)


새로운 o3 모델은 기존 모델보다 훨씬 뛰어나지만 리소스 비용도 월등 합니다. (ARC)


프로그래밍 테스트: 경쟁 프로그래밍 플랫폼인 Codeforces에서 최고점을 기록하며 AI의 코딩 능력에서도 우위를 입증했습니다. 2727점으로 경쟁코더의 99.8%보다 높은 점수를 받았고, 이건 인간코더들과 비교하면 월등한 수준입니다. 참고로 이 Competition Code는 주어진 문제를 해결하는 알고리즘과 코딩 방법을 찾아내는 방식을 말합니다. 


Codeforces에서 자사 모델들보다 월등해진 실력을 뽑낸.. 코더는 이제 뭘하지 (Reddit)


GPQA 다이아몬드 벤치마크: PhD 수준의 과학 문제를 포함하여, 87.7%의 정확도로 인간 전문가 평균을 뛰어넘는 결과를 보였습니다. GPQA 다이아몬드는 대학원 수준의 생물/물리/화학 문제들로 구성된 평가에요. 에포크AI의 Frontier Math Benchmark에서 o3는 25.2%의 점수를 기록했는데, 수학과 과학에서도 얼마나 뛰어난지를 알 수가 있죠. 이런 점수들은 학위 전문가인 박사 수준의 약 70%의 평균을 뛰어넘는 점수입니다. 




o3 모델의 가장 큰 특징은 ‘사고하는 AI’라는 점


이는 단순히 패턴을 학습하고 답을 도출하는 기존의 접근 방식에서 벗어나, 문제를 해결하기 위해 단계별로 논리적 추론을 수행한다는 의미입니다. 예전에 소개드렸던 Keras의 창시자이자 AI분야의 선구자 중의 한명인 Fracois Chollet을 기억하시나요? Chollet은 ARC 챌린지의 주요 설계자중에 한 명이기도 해요. o3모델은 통과 기준인 '각 시각적 퍼즐 작업당 20달러, 총 $10,000의 컴퓨티 비용'을 넘지 않았지만, 비공개로 진행된 단 10센트로 컴퓨팅 성능을 제한하는 기준은 통과하지 못하고 수천 달러의 리소스 비용이 든 것으로 알려졌습니다. 구글 딥마인드의 방식으로 올바른 접근법을 찾을 때까지 엄청난 자원을 쏟아넣는 방식이라는거죠. 단일 작업 하나에 무려 3,300만개의 토큰을 소비하는 것으로 알려졌습니다. 즉, AGI를 달성했다는 지표로 간주하지는 않는다는거죠. Chollet은 그래서 이게 AGI냐고 묻는다면 아직 AGI를 달성하기 위한 많은 챌린지가 남아있다고 답했습니다. (링크)


그럼에도 불구하고 많은 전문가들은 금번 o3 모델을 성능면에서 매우 인상적인 도약이고, 특히 매개변수와 데이터를 키우지 않아도 추론 능력을 갖추고 있어서 성능 향상이 이루어졌다고 주장하고 있습니다. 예를 들면 아래와 같죠. 


복잡한 수학 문제를 풀기 위해 여러 가설을 세우고 이를 검증하는 방식으로 접근합니다.

새로운 유형의 문제나 데이터 패턴에도 빠르게 적응하며, 이전에 학습하지 않은 맥락에서도 높은 정확성을 보입니다.


이러한 능력은 의료 연구와 과학적 발견과 같은 분야에서 혁신적인 성과를 이끌어낼 잠재력을 지니고 있습니다. 그렇지만, o3 모델이 3,300만개로 시작해 1억 1천만개가 넘는 토큰을 사용한다는 것은 상용화된 모델 출시가 2025년 1월말이라고 했는데, 비용문제가 해결된 mini 모델에서도 그 성능을 유지할지는 궁금해집니다. 미니 버전은 세 가지의 속도 설정(low, mid, high) 버전으로 제공되고, o1을 능가할 것이라고 합니다. 




AGI에 대한 위협에 대한 대안도 잊지는 않았어요.


OpenAI의 이런 성적표가 어떤 방식으로 내부가 구현된 건지, AGI의 등장의 위험을 가속화시키는 것은 아닌지 걱정하는 사람도 많죠. OpenAI는 이런 우려들을 알고 있다는 것처럼 o3 모델을 개발하면서 ‘심사숙고적 정렬(deliberative alignment)’이라는 새로운 안전성 프레임워크를 도입했습니다. (링크)


의도 검증: AI가 사용자 요청에 응답하기 전에 해당 요청이 안전 가이드라인에 부합하는지 검토합니다.

오용 방지: 악의적인 목적에 사용되지 않도록 추론 과정에서 윤리적 판단을 통합합니다.


OpenAI의 Deliverative Alignment를 이해하는 개념도 (OpenAI)


예를 들어, o3는 잠재적으로 유해한 정보를 요청받았을 때 이를 거부하거나 안전한 대안을 제시할 수 있습니다. 이는 AI의 신뢰성과 책임성을 확보하기 위한 필수적인 단계로 평가받고 있습니다. 모델이 더 많은 지능과 자율성을 갖게 될테고, AI가 잘못된 정렬이나 오용으로 발생하는 잠재적 피해도 기능 향상에 따라 커질 것이라는 점에서 윤리적 안전장치에 대한 요구도 커질 것이라고 OpenAI는 주장합니다. 


오늘은 OpenAI의 o3 모델을 살펴봤는데, 2025년에도 AI모델의 1등 자리를 두고 왕좌의 게임은 계속 될 듯 합니다. 힘내라 Anthropic, 그대로 자네가 제일 인간적일세~!


- 출처 : OpenAI's o3 model aced a test of AI reasoning – but it's still not AGI | New Scientist

          OpenAI o3 Breakthrough High Score on ARC-AGI-Pub

          https://x.com/EpochAIResearch/status/1870278153232687365


브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari