brunch

매거진 쉽고 재밌는 인공지능 이야기

라이킷 65 댓글 20

You can make anything
by writing

C.S.Lewis

계정을 잊어버리셨나요?

by 최재운 Dec 23. 2024

월 30만 원 비서를 고용했습니다

챗GPT, AGI 달성?

하루가 다르게 발전하는 인공지능 세상이다.

12월 초, 오픈AI는 'o1 프로' 버전을 선보였다. 이 버전의 구독 비용은 무려 월 200달러이다. 환율 영향으로 우리 돈으로는 약 30만 원에 달한다. 일반 버전 구독 비용이 월 20달러임을 감안하면 어마어마한 가격 상승이 아닐 수 없다.

그렇다면 무슨 기능을 추가로 제공하기에 비용이 이렇게 뛰었을까? 새로운 버전은 수학, 코딩, 글쓰기 등 다양한 분야의 파워 유저를 위해 설계되었다. 'o1 프로'는 여러 벤치마크 테스트에서 수학, 프로그래밍, 과학 등 여러 전문 분야에서 박사급 이상의 성적을 거두었음을 내세운다. 프리뷰 버전보다 훨씬 뛰어난 성능을 보이며, 기술적 완성도를 입증하고 있다.

몇 날 며칠을 고민하던 끝에 결국 결제 버튼에 손이 가고 말았다.

오픈AI는 연말을 맞아 12일 동안 매일 하나씩 자신들의 성취를 공개하는 이벤트인 '십마스(Shipmas)'를 진행했다. 마지막 날, 그들은 'o1'의 후속작 'o3'를 공개했다. 그리고 이 'o3'의 성능은 인간을 뛰어넘었다.

일부 언론에서는 AGI(인공일반지능)의 시작이라는 기사를 쏟아냈다.

12월 21일 공개된 'o3'는 월 30만 원짜리 'o1'을 크게 능가하는 성능을 보여주며, 복잡하고 추론이 필요한 작업을 처리할 수 있음을 입증했다.

특히 'o3'는 ARC-AGI라는 벤치마크에서 인간의 능력을 뛰어넘는 점수를 기록했다. 이 벤치마크는 인간은 직관적으로 이해하지만 인공지능은 어려움을 겪는 공간과 도형 문제를 다룬다. 이 테스트에서 인간이 받을 수 있는 점수는 85점이다. 그래서 85점을 넘는 인공지능이 등장하면, AGI급 인공지능이 등장했다고 볼 수 있다는 의견이 많았다.

그리고 'o3'는 이 테스트에서 87.5점을 기록했다.

오픈AI 추론 모델의 점수 발전 그래프

수학과 과학 문제에서도 'o3'는 박사 학위 소지자들의 성적을 크게 넘어섰다. AIME라는 수학경시대회에서는 96.7점을 기록하며, 'o1'의 83.3점을 압도적으로 뛰어넘었고, 박사 수준 과학 문제 평가에서도 기존 버전 대비 10점 가까이 향상을 보였다.

개인적으로 가장 놀란 부분은 코딩 성적이다. 코딩 능력을 평가하는 코드포스(Codeforces) 점수도 'o1'의 1,891점에서 'o3'는 2,727점으로 상승했다. 점수만 보면 어느 정도인지 가늠하기 어렵다. 그래서 코드포스 점수 분포도를 아래에 가져왔다.

많은 개발자들은 1,000점 전후에 분포하고 있다. 알고리즘 문제를 제공하는 '백준' 사이트의 문제를 손쉽게 풀어내는 수준이면 보통 1,500점 정도라는 평가를 받는다. 나 역시 한창 때는 백준 문제를 풀었으나, 요즘은 두뇌가 많이 녹슬어서 1,000~1,500점 사이 점수가 아닐까 싶다.

'o3'의 2,727점은 그래서 놀랍다. 상위 0.1% 수준의 코딩 실력을 'o3'가 보여준 것이다. 오픈AI의 'o3' 발표날 참석한 마크 첸 연구 담당 수석 부사장은 자신의 점수가 2,500점 정도라며, 'o3' 하나를 도입하면 오픈AI의 수석과학자급을 영입한 것과 같다는 비유를 했다.

코드포스 점수 분포

오픈AI는 'o3'를 대대적으로 홍보하면서도 AGI의 시작이라는 말은 아꼈다. 샘 알트먼 CEO는 'o3'를 '인공지능의 새로운 단계이자 AGI에 근접한 최초의 모델'이라고 표현했다. AGI가 가진 무게감 때문에 조심스럽게 표현했지만, 우리는 AGI에 가까이 다가선 인공지능을 목도하고 있다.

글 서두로 돌아가자.

월 30만 원짜리 인공지능 서비스를 구독했다고 하면 돈을 낭비한다고 생각하는 사람들이 있을 것이다.

하지만 반대로 생각해 보자.

박사급 연구원을 월 30만 원에 채용했다고 생각한다면? 과거에는 대학원 인건비가 눈물 날 정도였지만, 요즘에는 수백 만원의 인건비를 제공하는 연구실들이 많다. 이런 상황에서 'o3'급 퍼포먼스를 가진 박사급 연구원을 채용한다면 그 비용은 얼마를 지불해야 할까? 반면 'o3'는 불평불만도 가지지 않고, 24/7 일할 수 있다.

또한, 전 세계 상위 0.1% 코딩 마스터 수준의 능력을 가진 사람을 고용한다면 얼마를 지불해야 할까? 실제로, 코드포스에서 2700점을 받는 개발자는 연봉 수억 원을 받는 것이 일반적이다. 그런 수준의 조수를 월 30만 원에 사용할 수 있다면, 이는 단순한 비용이 아닌 투자라고 볼 수 있지 않을까?

아직 챗GPT 프로는 'o1'을 제공한다. 하지만 'o3'가 내년 초에 공개될 예정이다. 벌써부터 인공지능과의 협업이 기대가 된다. 그때까지 코딩으로 해야 할 일은 좀 미뤄놓을까?

개인적으로 바쁜 나날을 보내는 와중에 인공지능 세상에서 들려오는 소식은 더 정신이 없습니다. 이미 인공지능 산업계에서는 며칠 지난 뉴스지만, 엄청 핫했던 'o3' 내용을 정리해 보았습니다.

오늘 글에는 긍정적인 면만을 강조했지만, 여러 우려 섞인 이야기도 나오고 있습니다. 이 부분은 추후 다뤄보도록 하겠습니다. 다만, 학기 말 성적 처리도 해야 하고, 연말 행정 처리로 정신이 없는 나날들입니다.

개인적으로도 12월에 두 번째 책 원고 마감을, 1월에는 패스트캠퍼스 오프라인 강의 준비, 그리고 2월까지 브런치북 공모전 대상 작품을 마감해야 합니다. 그래서 올해 올리는 글은 오늘이 마지막일 것 같습니다. 미리 새해 인사 드립니다. 새해 복 많이 받으세요. :)

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari