brunch

You can make anything
by writing

C.S.Lewis

by 음병찬 Nov 24. 2024

'스케일링 법칙' - 한계인가, 새로운 분기점인가

* 이 글은 AI 전문 뉴스레터 '튜링 포스트 코리아'에 기고한 글의 일부입니다. AI 기술, 스타트업, 산업과 사회에 대한 이야기에 관심이 있으시면 '튜링 포스트 코리아' 구독해 주세요.



이번 주 AI 업계의 가장 뜨거운 뉴스라고 한다면, 아마도 ‘거대 언어모델의 성능 향상 한계’ 문제가 아닐까 합니다.


오픈AI의 차세대 모델 ‘Orion’이 GPT-4와 비교했을 때 소폭의 성능 향상에 그쳤다든가, 구글의 제미니도 기대에 미치지 못했다는 등 여러가지 소문들을 중심으로 해서, AI의 발전이 정체기에 도달한 거 아니냐는 이야기들이 빗발쳤습니다. 이런 소식들에 이어서 더 구체적으로 구글이 성능을 추가적으로 향상시키기 위해서 ‘하이퍼파라미터를 조정하는 방안’을 찾아보고 있다는 이야기도 나왔구요.


Image Credit: Amir Efrati의 X 어카운트


a16z의 마크 앤드리슨은 여러 가지 모델들이 ‘동일한 성능 한계에 부딪히고 있다’고 언급했고, SSI의 일리야 수츠케버 (Ilya Sutskever)도 “2010년대가 스케일링의 시대였다면, 이제 다시 우리는 경이로움과 발견의 시대로 돌아왔다”는 코멘트를 하기도 했습니다.


물론 모든 사람들이 같은 생각을 하는 건 아닙니다.


앤쓰로픽의 CEO인 다리오 아모데이, 그리고 오픈AI의 CEO 샘 알트먼 등은, 모델의 성능 향상이 아직 한계를 맞은 것이 아니라고 강조했고, 마이크로소프트의 CTO인 케빈 스콧도 ‘아직 확장의 한계에 도달하지는 않았다’고 이야기한 바 있습니다.


Image Credit: Amir Efrati의 X 어카운트


정체기 (Plateau)’라는 단어의 의미를 좀 더 정확하게 살펴볼까요? 과학적인 관점에서, 정체기라고 하면 ‘어떤 과정 중의 안정된 상태’를 뜻합니다. 심리학에서는 ‘성장이나 학습이 정체된 것처럼 보이는 단계’를 의미하는데, 이 정체기를 돌파하려면 새로운 전략과 접근법이 필요하죠.


생성형 AI의 맥락에서는, 저는 개인적으로 우리가 ‘정체기에 있으면서도 동시에 정체기에 있지 않은’ 상태라고 생각합니다 - ‘안정된’ 상태가 아니기 때문이죠. 따라서, 지금 우리에게 필요한 건, 현재 상태에서 돌파구를 찾기 위한 새로운 전략, 그리고 새로운 접근법입니다.


이미 다양한 이해관계자들이 많은 전략과 접근법을 고민하고 실행하고 있는데요. 이들 중 두어가지 토픽에 대해서 간단히 이야기해 볼까 합니다.



복합 AI 시스템 (Compound AI Systems)으로의 전환


복합 AI 시스템(Compound AI Systems)은 ‘스케일링 법칙의 한계’를 해결할 수 있는 실용적인 방법을 제공하는데요. 단순히 더 큰 모델에만 의존하는게 아니라, 자원의 사용을 최적화하면서 특정한 작업에 맞게 필요한 구성 요소들을 조정해 가면서 효율성과 성능을 향상시키는 시스템 구성 방법이라고 하겠습니다.


복합 AI 시스템은 다수의 모듈화된 구성 요소를 활용해서 특정 작업을 처리합니다. Image Credit: Baseten


‘복합 AI 시스템’을 구성하는 원칙이 구현된 초기의 사례들은, ‘복합 AI’라는 용어가 대중화되기 훨씬 전인, 다중 에이전트 시스템과 앙상블 학습에 대한 초기 연구를 하던 시절로 거슬러 올라가는데요. 이 아이디어들은 아래와 같이 발전해 왔습니다:


      1990년대: 앙상블 학습 (예: 랜덤 포레스트)과 다중 에이전트 시스템이 협력적으로 모델을 결합하는 기술을 도입했습니다.          


      2010년대: IBM Watson과 같은 파이프라인 시스템이, 복잡한 작업을 처리하기 위해서 자연어 처리와 검색 모델을 결합하는 모습을 보여줍니다.          


      2020년대: Codex나 AlphaCode 같은 도구와 통합된 모델들이 외부 도구와 협업하는 구조를 확대해 나가면서 이런 아이디어들을 정교하게 발전시켰습니다.    



최근인 2024년 2월, BAIR(버클리 AI 연구소)는 유명한 논문 "The Shift from Models to Compound AI Systems”에서 ‘복합 AI’를 공식적으로 조명하면서, 이 구조를 효율성과 확장성을 위한 시스템 레벨의 패러다임이라고 표현했습니다. 마침 며칠 전 Fireworks AI에서 발표한 복합 AI 모델, F1과 F1-mini에 대한 뉴스를 보면서 이 논문이 생각났는데요. 초기 테스트이긴 하지만, F1은 코딩, 수학, 논리 퍼즐 등의 영역에서 GPT-4o나 Claude Sonnet 3.5 같은 최신의 비공개 SOTA 모델과 대등하거나 더 나은 성능을 보여주고 있다고 하네요.



‘스케일링 대상’의 전환


스케일링 법칙의 목표 중 하나는, 자원을 추가로 투입했을 때 가장 큰 개선을 이끌어낼 수 있는 최적의 지점을 찾는 거겠죠.


오픈AI의 o1이 처음 출시되었을 때, 모든 사람들이 테스트 타임 컴퓨트(Test-Time Compute)에 대해 이야기했던 것을 기억하시나요? 오픈AI는 모델이 추론하는 과정에서 "더 오래 생각하도록" 만들면 복잡하고 어려운 문제를 풀 때 추론 성능이 크게 향상될 수 있다는 걸 보여줬습니다.


Image Credit: 오픈AI


예를 들어 박사급의 과학 문제라든가 Competitive Programming 과제에서 o1은 해당 분야의 전문가 급의 정확도를 보여줬는데, 이는 Test-Time Compute가 모델 크기나 데이터의 양을 크게 늘리지 않고도 성능을 향상시킬 수 있는 효율적인 방법이 되기 때문이죠 - 즉, 비용과 성능 간의 트레이드오프를 전략적으로 조절해 가면서 기존 모델이 달성해 왔던 한계를 넓힌 겁니다. 이에 대한 내용은 오픈AI의 “Learning to Reason with LLMs” 논문에서 자세히 다루고 있으니, 관심있으신 분은 한 번 보시면 좋겠습니다.


Test-Time Compute에 대해서 좀 더 깊이 알고 싶으시다면, 아래의 두 가지 중요한 논문을 살펴볼 만합니다:


“Scaling LLM Test-Time Compute Optimally Can Be More Effective than Scaling Model Parameters” - 구글 딥마인드와 버클리 대학이 공동으로 쓴 논문입니다.


“Training Verifiers to Solve Math Word Problems” - 2021년 오픈AI에서 나온 논문으로, Verifier를 도입해서 다단계의 수학적 추론 과제를 다루는데, 무작정 파라미터를 확장하는 방식을 지양하고, 효율적인 Test-Time Compute 전략의 중요성을 강조합니다.


이렇게, 지금까지처럼 모든 자원을 ‘트레이닝 단계'에 집중하는 대신, ‘추론 단계’를 최적화하고 스케일링하는 접근이 앞으로 더욱 많이 등장할 것으로 생각합니다.



‘갈림길’에 서 있는 우리


어떤 기술이든 선형적으로만 발전하지는 않죠. AI의 발전 과정에서, 지금은 Test-Time Compute와 같은 새로운 스케일링 접근법이 각광받기 시작하면서, 추가적인 컴퓨팅 자원이 최대의 의미있는 성능 개선을 이끌어낼 수 있는 지점을 보여주고 있습니다. 동시에, 다른 한 편으로는 ‘스케일링의 시대’에서 ‘통합의 시대’로 넘어가는 모습들도 등장하고 있습니다 - 바로 AI 모델이 만들어낸 ‘추론’ 결과가 외부의 도구나 워크플로우를 활용하는 시스템과 연결되어, 실제 액션으로 이어지는 모습 말입니다.


그런 의미에서, 지금은 ‘정체기’가 아닌 ‘전환기’라고 생각합니다. 우리는 이전에 경험해 보지 못했던 미지의 영역으로 들어가고 있는데, 여기서의 돌파구는 ‘무작정, 무한정으로 모델을 키우는 것’이 아니라, 더 스마트하고 더 효율적이며, 더 긴밀하게 통합된 시스템을 구축하는 방향에 있을 겁니다.


일리야 수츠케버의 말처럼, “우리는 순수한 스케일링의 그림자에서 벗어나, 다시 한 번 경이로움과 발견의 시대로 돌아가고 있습니다.”


(마지막으로, ‘통합된 시스템’과 관련해서 최근에 싱가폴 국립대 연구진이 발표한 “The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer USe”라는 논문을 참고해 보시기를 권합니다. 이 논문에서는 Claude 3.5를 GUI 자동화 에이전트로 활용해서 웹 탐색부터 게임에 이르기까지 20여 가지의 실제 데스크탑에서 하는 작업을 수행해 봤는데요. 100달러 미만의 ANC 헤드폰을 아마존 장바구니에 추가하는 등의 작업을 처리하는 과정에서 계획 수립, GUI 작업, 다이나믹한 적응 능력을 잘 보여주고 있습니다.)





매거진의 이전글 할로윈 ✖️ AI: 호박 조각하기
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari