o3 모델, AGI 논쟁의 중심에 서다

by 글로벌연합대학교 인공지능융합소장 이현우교수

Dec 27. 2024

o3 모델, AGI 논쟁의 중심에 서다

메타ai뉴스 논설위원 이현우 교수

2024년 12월, 오픈AI가 발표한 새로운 AI 모델 “o3”는 인공일반지능(AGI) 달성 여부를 두고 뜨거운 논쟁의 중심에 섰습니다. “o3” 모델이 기존 AI 모델을 능가하는 성능을 보였다는 벤치마크 결과와 함께, 이를 AGI 달성의 주요 지표로 볼 수 있는지에 대해 전문가들 사이에서 의견이 엇갈리고 있습니다. 이번 글에서는 “o3” 모델이 가져온 논쟁의 핵심과 기술적 접근법, 그리고 이를 둘러싼 비판과 전망을 살펴보겠습니다.

ARC-AGI 벤치마크: AGI의 새로운 기준?

오픈AI는 “o3” 모델의 성능을 평가하기 위해 “ARC-AGI”라는 새로운 벤치마크를 도입했습니다. ARC-AGI는 모델이 새로운 환경에서 얼마나 빠르게 적응할 수 있는지를 평가하는데 중점을 둡니다. 특히, 이 벤치마크는 IQ 테스트와 유사한 패턴 추론 문제를 포함하고 있으며, 모델이 주어진 사각형 배열에서 다음 패턴을 예측하는 능력을 측정합니다. “o3” 모델은 이 테스트에서 75.7점을 기록하며, 기존 최고 성적 32점을 훨씬 뛰어넘는 성과를 보였습니다. 또한, 추론 시간을 늘린 실험에서는 87.5점까지 기록하며 인간의 평균 점수 85점을 넘어섰습니다.

ARC-AGI 벤치마크 결과는 AI가 단순한 확률적 규칙을 넘어 인간의 추론 능력에 가까운 성과를 보였음을 시사합니다. 이는 AGI 개발의 새로운 가능성을 열어준다는 점에서 긍정적으로 평가됩니다.

프로그램 합성과 강화학습: “o3”의 핵심 기술

“o3” 모델의 뛰어난 성능은 “프로그램 합성(program synthesis)”이라는 개념에 기반한다고 추정됩니다. 이는 AI가 특정 문제를 해결하기 위해 작은 프로그램을 생성하고 이를 조합하여 더 복잡한 문제를 해결하는 방식입니다. 기존 대형 언어 모델(LLM)은 방대한 데이터를 학습하여 특정한 패턴을 예측하는 데 강점이 있었으나, 학습 데이터에서 벗어난 문제를 해결하는 데 한계가 있었습니다. “o3”는 이러한 한계를 극복하고, 새로운 패턴을 빠르게 학습하는 데 성공한 것으로 보입니다.

또한, “o3”는 사고 사슬(CoT, Chain-of-Thought) 추론법과 보상 기반 모델을 결합하여 문제 해결 방식을 개선한 것으로 추측됩니다. ARC 프라이즈 파운데이션의 공동 창립자인 프랑수아 콜레는 “o3”가 솔루션을 생성하면서 이를 평가하고 개선하는 메커니즘을 통해 높은 효율성을 보였다고 설명했습니다. 이는 인간의 사고 과정과 유사한 방식으로, AI가 새로운 문제를 보다 창의적으로 접근할 수 있음을 보여줍니다.

“o3”의 한계와 비판

그러나 “o3”의 성과를 AGI 달성으로 보기는 이르다는 비판도 많습니다. 가장 큰 문제는 오픈AI가 모델의 작동 방식에 대한 구체적인 정보를 공개하지 않았다는 점입니다. ARC 프라이즈 파운데이션은 “o3”의 성과가 ARC 데이터셋에 최적화된 결과일 수 있다는 점을 인정하며, 이를 AGI의 지표로 보기 어렵다는 입장을 밝혔습니다.

구글 딥마인드의 데니 저우는 “o3”가 특정 벤치마크에 맞춰진 강화학습(RL) 방식에 불과할 수 있다고 지적했습니다. 그는 AI가 특정 도메인이나 작업에 과도하게 의존한다면, 진정한 AGI로 볼 수 없다고 주장했습니다. 또한, 다른 연구자들은 “o3”가 ARC와 유사한 데이터셋에서만 뛰어난 성능을 보였을 가능성을 제기하며, 다양한 벤치마크에서 검증이 필요하다고 강조했습니다.

향후 전망과 과제

“o3” 모델은 기존 AI 모델을 넘어서는 성과를 보여주었지만, 이를 AGI로 단정 짓기에는 여전히 많은 과제가 남아 있습니다. AGI는 특정 작업에서 뛰어난 성과를 보이는 AI와는 달리, 다양한 도메인에서 인간과 유사한 적응력과 창의성을 발휘해야 합니다. 이를 위해서는 다음과 같은 노력이 필요합니다.

• 투명성 증대: 오픈AI는 “o3”의 작동 방식과 훈련 데이터에 대한 상세한 정보를 공개해야 합니다. 이를 통해 연구자들이 “o3”의 성과를 객관적으로 평가할 수 있도록 해야 합니다.

• 다양한 벤치마크 테스트: “o3”가 ARC 외의 다른 벤치마크에서도 유사한 성과를 보이는지 검증이 필요합니다. 이를 통해 모델의 일반화 능력을 평가할 수 있을 것입니다.

• 윤리적 고려: AGI 개발은 기술적 도전뿐만 아니라 윤리적 도전도 포함합니다. “o3”와 같은 모델이 인간 지능을 초월할 가능성이 제기되는 만큼, 그 활용과 제한에 대한 사회적 합의가 필요합니다.

결론

“o3” 모델은 AGI 개발의 가능성을 새롭게 제시하며, AI 기술의 한계를 넘어서는 중요한 이정표를 세웠습니다. 그러나 그 성과를 AGI 달성으로 평가하기에는 여러 한계와 의문이 남아 있습니다. 향후 오픈AI와 다른 연구자들이 “o3”의 성능과 작동 방식을 명확히 밝히고, 이를 다양한 환경에서 검증함으로써 AI 기술의 미래를 더욱 견고히 할 수 있을 것입니다. “o3” 모델이 AGI 달성의 진정한 시작점이 될지, 아니면 또 다른 논쟁의 단초가 될지는 앞으로의 연구와 실험 결과에 달려 있습니다.

keyword

매거진의 이전글휴머노이드 로봇 개발의 시대: 오픈AI와 구글의 도전AI 혁신의 현주소: 오픈AI, 그리고 허깅페이스매거진의 다음글