양분된 반응의 'o1', 어떻게 바라볼 것인가
* 이 글은 '튜링 포스트 코리아'에서 발행된 주간 AI 뉴스레터의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.
여러분, 혹시 ‘별자리 관측’ 좋아하시는 분 있나요?
오리온 자리는, 사계절 별자리 중에서도 가장 밝고 화려한 별자리라고 하는데, 겨울의 저녁 하늘에서 가장 잘 보인다고 합니다. 이 때, 오리온 자리의 베텔게우스, 리겔, 큰개 자리의 시리우스, 작은개 자리의 프로키온, 황소 자리의 알데바란, 마차부 자리의 카펠라 등 빛나는 별들이 하늘을 가득 채운 모습을 볼 수 있다고 해요.
오픈AI에서 지난 주 공개한 새로운 모델 o1. o1에 대해서 다양한 전문가들의 리뷰와 감상이 계속해서 나오고 있죠. 당연하게도, 각자의 바라보는 관점과 기대치 등에 따라서 o1에 대한 평가랄까 입장은 양분되고 있는 것 같습니다.
멘사 테스트로 o1의 추론 능력을 평가했을 때 IQ가 120으로 나왔다고 합니다. 사람의 평균 IQ가 100이라고 보면, o1은 전세계 인구 중 상위 9%에 해당하고 사람의 평균 IQ를 넘은 최초의 인공지능이라고 합니다.
제가 개인적으로 가장 흥미롭게 봤던 데모 비디오는 ‘Corrupted Korean Language’ - 일부러 외국인이나 기계가 이해하지 못하게 쓴 한국어 정도라고 할까요? - 를 CoT 프로세스를 거치면서 번역하는 것이었습니다.
트랜스포머 이후의 지배적 패러다임라고 할 수 있을 ‘훈련 시간의 스케일링 (Training-Time Scaling)’에서 ‘추론 시간의 스케일링 (Inference-Time Scaling)’으로 패러다임이 이동하고 있다는 Jim Fan의 의견도 흥미롭습니다. AI 모델 개발의 관점, 방향에 변화를 가져올 수 있는 인사이트인 것 같습니다.
ARC-AGI (Abstraction and Reasoning Corpus for Artificial General Intelligence) - Francois Chollet가 고안한, AI의 ‘일반화’ 능력을 평가하기 위해 만들어진 테스트죠 - 결과도 괜찮지만 그리 인상적이지는 않습니다. Claude Sonnet 3.5 수준의 결과를 보여주네요. Francois는 “알려진 추론 문제들에 대해서는 훌륭하게 작동하지만 패러다임 시프트까지는 아니다”라고 하고 있습니다.
이전 LLM들이 제대로 대답하지 못했던, “strawberry 단어에 r이 몇 개인가?”라는 질문에 o1은 제대로 답을 해서 또 화제가 되기도 했는데요. 그렇지만 조금만 더 이야기를 진행시키면서 괴롭혀(?) 보면, 역시 o1도 여전히 문제를 드러냅니다.
왜 GPT-x가 아니라 갑자기 o1이라는 이름을 지었을까요? 저는 ‘o’는 아마 ‘오리온 (Orion)’의 앞자리에서 따온 걸 거라고 생각합니다. 샘 알트만이 남긴, 암호같은 트윗을 한 번 볼까요?
“I love being home in the Midwest. The night sky is so beautiful. Excited for the Winter constellation to rise soon; they are so great.”
당연히 오리온 자리는 북반구의 겨울에서 볼 수 있는 별자리죠.
‘스트로베리’라는 코드명으로 우리가 기다리던 o1이 공개되었지만, o1은 실제로 오픈AI가 그리고 있는 더 큰 시스템, 즉 ‘오리온’이라는 별자리의 별 하나에 불과하다는 걸 암시하는 거 아닐까요? o1을 발표한 이후 9월 14일, 오픈AI의 o1 개발팀이 진행했던 AMA (Ask Me Anything) 세션에서, o1은 ‘모델’이고 ‘시스템이 아니다’라는 언급도 있었습니다.
생각해 보면, 별자리가 오래 전부터 ‘내비게이션’이나 ‘스토리텔링’에 이용되어 왔다는 것도 흥미로운 부분인데요. 결국 오픈AI가 계획하고 있는 건, 더 넓고 서로 연결된 ‘시스템’에서 각각의 고유한 역할을 하는 AI 모델들의 ‘별자리’를 계획하고 있구나 싶어요 - 이 과정에서 우리에게 이야기하고 싶은 AI 시대에 대한 내러티브를 구축하고, 담론을 만들어 내겠죠.
그렇다면, 이번에 발표된 o1을 포함한 각각의 모델 - 별자리의 별 - 들이, 더 큰 관점에서 통합된 프레임웍의 각 부분을 대표하는 것이 되겠죠? 이런 여러 가지 모델들이 서로 협업하게 설계되고, 궁극적으로는 통합된 ‘하나’로서 추론이나 탐색, 의사결정 능력 등을 크게 향상시키는 모습으로 만들어갈 겁니다. 마치 하늘에 더 있는 별들이 정렬해서 패턴을 형성하듯이, 각 구성 요소가 목적에 맞도록 정렬되는, ‘새로운 종류의 AI 생태계’ 같은 것 말이죠.
자, 다시 o1으로 돌아가죠. 머신러닝 연구자 네이선 램버트 (Nathan Lambert)가 ‘Interconnects’의 o1 분석에서 언급한 내용을 인용하자면, “o1은 앞으로 우리가 보게 될 ‘언어모델 에이전트’에 대한 하나의 단초”라고 할 수 있는데, o1이 강화 학습, 검색기반 추론, CoT (Chain-of-Thought) 메커니즘 등을 결합해서 더 발전된 ‘자율적인 AI 시스템 개발의 방향’을 보여주었기 때문입니다. o1은 단순한 언어모델이 아니라, 지능형 에이전트의 미래를 보여주는 큰 그림의 일부분이고, 그렇기 때문에 시스템을 구성하는 하나의 조각으로 보아야 할 것 같습니다.
그래서, o1은 굳이 비교하자면 ‘챗GPT’보다는 ‘GPT-3’에 가까운 무언가라고 할 수도 있을 것 같습니다 - 출시할 때부터 명확한 Value Proposition이 있고, 즉각적으로 사용자들이 어떻게 무엇에 사용하면 될지 파악할 수 있는 PMF (Product-Market-Fit)가 주어졌던 챗GPT와는 좀 다르게, 좀 불분명하지만, AI의 미래를 열 수 있는 잠재력을 지닌 그 무언가라는 관점에서요. 그래서 o1은 우리 모든 사람들이 다양한 유즈케이스에서 사용할 수 있는 AI 모델은 아닐 겁니다.
앞으로, o1을 시작으로 ‘새로운 AI의 가능성’을 탐색하는 접근법과 모델들이 계속 나올 텐데요. ‘o1의 등장과 함께 앞으로 자주 나올 용어들에 익숙해진다’는 관점에서 아래 용어들 쭉 한 번 살펴보고 기억해 놓으시면 좋을 것 같습니다.
강화학습 (RL; Reinforcement Learning)
o1 훈련에 사용된 기법으로, 모델의 행동이나 추론에 따라 피드백(보상)을 제공해서 모델을 개선하도록 합니다. RL을 통해서 o1은 다양한 추론의 방식을 시도하고, 실수를 통해 학습하며, 지속적으로 개선할 수 있습니다.
강화학습 기반의 검색 알고리즘 (RL-Based Search Algorithm)
문제를 더 효율적으로 해결하기 위해 o1이 추론 공간에서의 검색을 잘 하도록 도와주는 강화학습 기법을 말합니다.
Chain-of-Thought (CoT) 기반 추론
사람이 복잡한 문제를 단계별로 해결하는 방식과 유사하게, 모델이 복잡한 작업을 작은 단계로 세분화하고 체계적으로 처리하는 프로세스입니다. 이런 기법을 사용해서 더 정확한 결론을 도출할 수 있습니다.
추론 시간 스케일링 (Inference-Time Scaling)
대부분의 AI 모델에서, 헤비한 계산 작업은 모델의 트레이닝 중에 이루어지는데, o1에서는 추론 중에 실제 연산 작업이 많이 일어납니다. 작업의 복잡성이 증가하게 되면, o1은 응답을 생성할 때 다이나믹하게 계산을 확장하면서, ‘생각하는 데 더 많은 시간을 할애’합니다.
테스트 시간 계산의 스케일링 (Test-Time Compute Scaling)
문제를 해결하는 작업을 수행할 때 모델이 더 많은 컴퓨팅 자원을 할당하는 방식으로, 컴퓨팅 성능을 높이는 만큼 추론 능력을 향상시킬 수 있습니다. 스케일링은 문제의 해결 과정에서 실시간으로 일어납니다.
Self-Play 강화 학습 (Self-Play Reinforcement Learning)
바둑 같은 게임을 마스터하는 방식과 유사하게, AI 모델이 독립적으로 문제를 해결하면서 학습하는 방식입니다. o1에서 이 기법은 실제 문제를 해결하는 단계에서 의사 결정 과정을 개선하는 데 도움을 줍니다.
숨겨진 ‘추론 토큰’ (Hidden Reasoning Tokens)
o1이 문제를 추론하는 동안 내부적으로 수행하는, 외부에는 보이지 않는 단계이빈다. 추론 토큰을 이용해서 o1 모델이 ‘생각’하고 프롬프트에 대한 이해, 분석을 하고 여러 턴을 거쳐 응답을 생성하는 등 여러가지 접근 방식을 고려하게 해 줍니다. 단, 모델의 컨텍스트 윈도우 공간을 차지하므로, 개발자는 추론 토큰의 규모를 고려해서 컨텍스트 윈도우를 관리해야 합니다.
AIME와 ARC 벤치마크
특히 수학, 과학 분야에서 o1의 ‘일반화된’ 문제 해결 및 추론 능력을 측정하는 데 사용하는 테스트라고 정리하면 될 것 같습니다. o1이 이런 테스트에서 GPT-4, Claude Sonnet 3.5를 능가한 것은 사실이지만, 그 차이가 극적이라고 할 수는 없을 것 같습니다.
* AI 업계 주요 플레이어들의 소식, 연구 성과 등에 대한 글을 더 보시려면 튜링 포스트 코리아의 '금주의 주간 AI 뉴스레터를 확인해 주세요!