쉽게 정리하는 최근 openai의 근황
최근 LLm 시장은 말 그대로 미쳐 날뛰고 있다. 수많은 빅테크 기업들이 가능성에 투자하며 많은 돈이 몰리고 있고 수많은 사람들이 미래에 투자하기 위해 주식투자를 하고 있다. 자본이 몰리는 만큼 산업은 눈부신 속도로 성장하고 있다. 세상의 속도를 따라가기 힘든 세상이 되어가고 있다. LLM은 많은 시장과 산업에 영향을 미칠 수 있는 엄청난 기술임에도 불구하고 많은 사람들이 이에 대해 이해하기 어려워하고 있다.
이번 글에서는 LLm 시장을 주도하고 있는 Openai의 근황과 연구 동향에 대해 쉽게 풀어 적어보려 한다.
Openai는 9월 20일 새로운 모델 O1을 공개했다. O1의 등장은 많은 사람들을 놀라게 하며 세상을 떠들썩하게 만들었다. 왜? 뭐가 그렇게 발전되었을까?
차근차근 살펴보자.
아래 표는 Openai의 최상 모델 gpt-4o와 비교한 O1의 능력치이다. 각각이 뭔지는 몰라도 그냥 전반의 걸쳐
O1이 압살 하는 성능을 보인다는 것을 한눈에 알 수 있다.
o1은 뭐가 다른 걸까?
결론부터 정리해 보면 o1은 생각을 하고 답변한다. 이게 무슨 말인지 감이 잘 잡히지 않을 수 있다.
우리 인간이 생각을 하는 과정을 떠올려보자. 우리는 배가 고프면 밥을 먹어야겠다는 생각을 하고 어떤 메뉴를 선정할지 고민한다. gpt-4o에게 배고프다는 생각을 전달하면 배가 고프다는 것 그 행위 자체를 설명하려고 할 것이다. 한 마디로 기존 모델은 배가 고프다는 생각을 통해 밥을 먹어야겠다는 생각을 하기 어려웠다는 것이다. 근데 이게 o1에서는 가능하다. 우리 인간이 하는 생각들은 일반적으로 꼬리의 꼬리를 무는 질문들을 통해 이루어지고 우리는 이를 추론이라고 부른다. 조금 더 깊이 얘기하면 이러한 기법을 COT(Chain Of Thought) 기법이라고 부른다. 이 기법을 통해 우리 인간이 하는 코딩, 수학 같이 고차원적인 사고를 요구하는 문제를 해결할 수 있다고 한다. 자세한 사항은 openai의 공식 블로그에서 확인할 수 있다.
https://openai.com/index/learning-to-reason-with-llms/
여기서 재밌는 점은 이게 왜 가능한 지는 모른다는 것이다. 수학적, 엄밀한 증명보다는 해보니까 되던데? 이런 느낌이다. 근데 너무 놀라운 게 돼버리니 모두가 당황한 것이다. AI가 생각보다 더 잘 추론한다.
이 말을 아까 했던 말들과 이어 보면 ai가 생각보다 생각의 사슬을 잘 생성한다는 것이다.
다른 모델들과 비교한 IQ이다. 인간의 평균을 한참이나 넘은 수준이다.
지금까지의 얘기를 정리하자면 openai는 질문을 바탕으로 여러 가지 생각들을 생성하도록 만드는 기법을 훈련시킨 모델을 통해 새로운 모델을 개발했는데 성능이 어마무시했다는 것이다.
Openai는 O1을 출시하기 전부터 기존 버전에 여러 가지 테스트를 시행했다.
기존에는 단순히 채팅 하나에 제한된 정보량의 정보만을 gpt가 기억하고 대답했다면 이제는 메모리 기능이 추가되어 장기기억이 가능해졌다. 실제로 현재 gpt를 사용하다 보면 "메모리 업데이트됨"이라는 문구가 추가될 때가 있다. 이를 통해 gpt는 주요한 정보를 장기적으로 기억으로 답변할 때 더욱 내가 원하는 답에 근접한 답을 주려고 한다. 실제로 필자는 gpt를 써보면서 한 정보를 정말 놀랍도록 오래 기억하고 답변에 인용하는 것을 보며 경악했던 경험이 있다.
위에 2번에서 설명한 대로 o1모델은 생각의 사슬(COT) 기법을 활용해 향상된 답변을 제공한다. 이는 복잡한 질문에 대답하기 위한 좋은 방법이다. 하지만 단순한 질문에 이런 생각을 강제로 많이 생성하려고 하면 어떻게 될까? 우리 인간도 단순한 질문에는 그리 많은 생각 없이 답한다. 이로써 별다른 에너지를 소모하지도 않고 빠르게 대답한다. O1이 출시되기 전 openai의 창업자이자 최고 경영자인 샘울트먼은 이런 얘기를 한 적이 있다. "질문별로 최적의 답을 제공할 수 있는 모델이 다르다. 우리는 질문을 자동으로 분류하여 질문에 맡는 모델을 자동으로 골라서 답변을 생성하도록 하는 기술을 연구 중에 있다." 이 기능이 현재 어느 정도 적용된 것 같다. 실제로 현재 gpt를 사용해 보면 모델을 직접 선택할 수 없다. 비교적 복잡한 작업을 요청하면 gpt는 생각을 시작하고 꽤나 긴 시간을 생각하고 본인이 한 생각들과 함께 결론을 도출하여 답변을 제공한다. 반면 비교적 단순한 질문을 하면 gpt는 빠른 시간 안에 최적의 정답을 알려준다.
추론 기능을 도입하며 복잡한 문제를 해결할 수 있는 방법을 찾았지만 시간이 오래 걸린다는 단점이 생겼다.
이 단점 때문에 예전처럼 최강 모델이 무엇이라고 특정하기 어렵게 되었다. 간단한 질문은 다른 모델이 더 좋고 빠른 답변을 도출하기 때문이다.
글이 길어질 까봐 언급하진 않았지만 openai의 o1 모델은 최악의 킬러라고 손꼽히는 작년 수학 22번 문제, 미국 SAT, 양자역학 문제 등등 복잡한 수학, 과학 분야의 문제나 코딩 같은 복잡한 일들을 기막히게 처리하고 있다. 이러한 사실들을 검색해서 보면 배치표나 평가표 상에서는 느껴지지 않던 엄청난 우월감이 느껴진다.
샘울트먼은 최근 자신의 SNS에 초인공지능에 대해 앞으로 10년 안에 나올 것이라는 말을 남겼다.
처음에는 불가능하다고 느껴졌지만 이제는 많은 사람들이 진짜로 가능할까 봐 두려움에 떨고 있다.
진짜 가능할지 말지는 알 수 없다. 현재까지 수준의 개발을 보면 솔직히 "왜 이것이 가능할까?"에 대한 대답을 할 수 없는 것들이 많다. 이론적인 증명이 기술을 따라오지 못하는 것이다. 개인적으로는 이론적으로 왜 가능한 지 모르는 상태에서 정말 초인공지능이 출현할지도 모른다. 하지만 기술적 특이점에 도달하기는 어려울 것 같다고 생각한다.
과거 고대의 피타고라스는 피타고라스 정리를 발견했다. 추후에 유클리드 기하학은 천년 가까이의 긴 세월을 지나며 발전해 왔다. 재밌는 사실은 천년의 세월 동안 새롭게 발표되었던 수많은 정리들은 피타고라스 정리만을 활용해 증명할 수 있는 것들도 많았다. 하지만 왜 고대에는 이런 정리들이 출현할 수 없었을까?
개인적으로는 이해도의 차이가 있다고 생각한다. 고대 사람들은 현대와는 다르게 하다 보니 되었고 이를 통해 피타고라서 정리가 발견되었다. 어쩌면 우리가 현재 이미 초인공지능의 출현이 가능하도록 하는 기술을 모두 발견한 것일지도 모른다. o1을 어떤 분야의 활용했을 때 어떻게 사용하느냐에 따라 초인공지능만큼의 성능이 나올지도 모른다고 생각한다. 하지만 고대 사람들이 후대의 정리를 발견하지는 못한 것처럼 우리는 아직
이해도가 없다. "데이터를 무진장 많이 학습했더니 되더라"의 상황으로는 초인공지능의 출현이 가능한 기술력을 보유해도 우리는 이를 활용할 수 없다.