brunch

You can make anything
by writing

C.S.Lewis

by 최재운 Aug 01. 2024

오늘날 AI의 IQ는 얼마일까?

100을 넘는 인공지능이 등장했다고!!??

며칠 전 여기 올린 글에서, 현재 인공지능의 수준이 집고양이 수준이라고 발언한 구글 딥마인드의  CEO 데미스 하사비스의 발언을 다룬 바 있다.



그렇다면 여기서 드는 하나의 의문. 시중에 출시된 다양한 생성형 인공지능의 수준을 정량적으로 측정할 방법은 없을까? 가령 예를 들어 IQ 테스트 같이 정량화된 지표를 산출하는 시험을 인공지능이 본다면 어떤 결과가 나올지 궁금하지 않은가?


이에 대한 의문을 해결하기 위해 나선 이가 있다. 미국의 TV 프로듀서이자, 데이터 분석가 맥심 로트(Maxim Lott)는 생성형 인공지능을 대상으로 IQ 테스트를 수행하였다. 시중에는 다양한 IQ 테스트 방식이 있지만, 대부분 사람에게 적합한 방식이다. 생성형 인공지능에 적합한 테스트를 찾던 그는, 노르웨이 멘사에서 온라인으로 제공하는 IQ 테스트를 생성형 인공지능에게 풀도록 시켰다. 노르웨이 멘사의 IQ 테스트는 온라인으로 진행되는 약식 테스트기에 결과의 정확도에 대한 의문이 제기될 수는 있다. 하지만, 국내에서도 많은 사람들이 정식 멘사 테스트를 보기 전에 노르웨이 멘사 테스트를 시험 삼아 보곤 한다. 믿을 수 있는 IQ 수치는 아니지만, 대략적인 IQ의 범주 추정은 충분히 가능하다는 얘기다. 즉, 로트가 사용한 방식은 논문에 넣기는 부적합하지만, 온라인상의 기사로는 충분하다. (글 마지막에 노르웨이 멘사 테스트 링크를 넣었으니, 심심하신 분들은 풀어보셔요 ^^)


먼저 가장 궁금한 챗GPT의 테스트 결과를 보자.


챗GPT의 IQ 테스트 결과


놀랍게도 85라는 나쁘지 않은 결과를 받았다. 분명 좋은 수준은 아니지만, 가까스로 평균에 턱걸이한 것이다. 챗GPT는 두 번의 테스트를 거쳤으며, 평균적으로 35문제 중 13문제를 맞혔다. 참고로 이 테스트는 2024년 3월 실시되었고, 당시 챗GPT는 GPT-4를 기반으로 하고 있었다. 현재 챗GPT가 GPT-4.5를 거쳐 GPT-4o를 사용하고 있는 것을 감안하면, 지금의 IQ 수치는 85보다 높을 확률이 크다.


자, 그렇다면 챗GPT보다 높은 IQ를 기록한 인공지능이 있을까? 아래 결과를 살펴보자.


1위를 차지한 것은 앤트로픽의 클로드-3 (Claude-3)


놀랍게도 가장 IQ가 높게 나온 인공지능은 앤트로픽(Anthropic)이 출시한 클로드-3(Claude-3)로, IQ 101을 기록했다. 인간의 평균에 도달한 것이다! 클로드-3 다음은 챗 GPT, 클로드-2, 마이크로소프트의 빙 코파일럿, 구글의 제미나이 순이었다. 일론 머스크의 xAI에서 출시한 그록은 제미나이 다음에 위치하였다.


인공지능에 관심이 있는 분들은 앤트로픽이라는 회사와 클로드라는 인공지능을 잘 알지만, 아직 대중에게는 생소하기에 이 둘을 간단히 소개하고자 한다. 앤트로픽은 2021년 설립된 스타트업으로, 오픈AI 창립 멤버들이 주축이 되어 세운 회사이다.

이들은 오픈AI가 상업적으로 변하는 것에 실망하여 독립하였으며, 안전하고 신뢰할 수 있는 AI 시스템 구축을 목표로 한다. 앤트로픽의 대표 제품인 챗봇 클로드는 디지털 통신의 아버지인 클로드 섀넌의 이름을 딴 것으로, 뛰어난 언어 이해 능력을 보이면서 챗GPT와 경쟁하고 있다. 많은 회사들로부터 대규모 투자를 유치하며 성장하고 있는 앤트로픽을 주목할 필요 있다. 특히나, 오픈AI의 최근 행보가 불안해 보인다면.


그렇다면 클로드-3는 어떻게 노르웨이 멘사 테스트를 풀 수 있었을까? 아래 문제를 보자.


노르웨이 멘사 테스트 2번



정답은 무엇일까? 아마 이 글을 보시는 분이라면 쉽게 정답이 'E'라는 것을 알 수 있을 것이다. 그렇다면 클로드-3의 답변은 무엇이었을까? 아래는 2번 문제에 대한 클로드-3의 답변을 번역한 것이다.


정답은 옵션 E입니다.

각 행의 외부 모양은 일관됩니다. 첫 행은 점, 두 번째 행은 별, 세 번째 행은 정사각형.
각 열의 내부 모양은 일관되게 변합니다. 첫 번째 열은 원, 두 번째 열은 더하기 기호, 세 번째 열은 다이아몬드.


Perfect!




이번 테스트에서 주목해 볼 점 중 하나는 같은 회사에서 출시한 인공지능을 하나만 시험해 본 것이 아니라는 점이다. 클로드의 경우 버전 1부터 버전 3까지 모두 동일한 IQ 테스트를 거쳤다. 결과를 살펴보면, 클로드-1은 사실상 모든 문제를 찍어서 6문제를 맞혔다. IQ는 약 64이다. 클로드-2는 6문제를 추가로 맞추며, IQ가 82까지 올라온다. 대망의 클로드-3는 다시 6.5문제를 더 맞추며, 인간 평균 이상의 IQ를 기록한다.


그러면 이들 버전의 출시 날짜를 보자. 클로드-1은 2023년 3월에 출시하였고, 불과 4개월 뒤에 클로드-2가 출시된다. 클로드-3는 2024년 3월 공개되었으며, 8개월의 제작 기간을 가졌다. 매우 단순하게 추정해 본다면, 약 12~16개월 안에 출시될 클로드-4는 IQ가 120에 달할 수 있으며, 16~32개월 뒤에 출시할 수 있는 클로드-5는 140의 IQ를 기록할 수 있다. 그리고 짧게는 4년, 보수적으로는 10년 뒤에 나올 클로드는 그 어떤 사람보다 높은 IQ를 기록할 전망이다.


물론, 이는 단순히 과거 추세를 기반으로 미래를 예측한 것이기에 신뢰도는 떨어지는 분석이다. 미래에도 지금과 같은 속도로 계속해서 진일보한다는 보장은 없다. 딥러닝 모델이 한계에 직면할 수도 있고, 예산이나 에너지 제약, 그리고 규제에 막힐 수도 있다.


하지만, 최근 발표된 연구 결과에 따르면 생성형 인공지능의 발전 속도는 과거의 추세보다 빠르다.


2024년 7월 25일, 구글 딥마인드는 새로운 인공지능 모델인 알파푸르프(AlphaProof)와 알파지오메트리 2(AlphaGeometry 2)가 2024년 국제 수학 올림피아드(IMO)에 출제된 문제 6개 중 4개를 해결했다고 발표했다. 지금까지 공개되었던 인공지능들이 다음 단어를 예측하는 방식으로 작동했기에, 인간 지능과 유사한 추론 능력을 요구하는 수학에서는 어려움을 겪어 왔던 점을 감안하면 획기적인 진전이라 볼 수 있다.


알파푸르프는 추론에 중점을 둔 시스템으로, 구글의 챗봇 언어 모델인 제미나이와 바둑에서 인간을 이긴 인공지능, 알파 제로를 결합하여 만들었다. 알파푸르프는 대회에서 가장 어려운 문제를 포함해 3개의 문제를 해결했으며, 이 문제는 600명 이상의 참여자 중 단 5명만이 해결할 수 있었다. 알파푸르프가 푼 문제 중 하나만 맛보기로 살펴보자. 아래 그림에서 ∠KIL과 ∠XPY의 합이 180도임을 증명해야 한다. 머리가 상당히 굳어 있어, 생각조차 하기 싫은 문제이다.


이렇게 어려운 문제를 풀어낸 이들 인공지능 모델이 IMO에 참가했다면 무슨 상을 받았을까? 딥마인드의 인공지능은 총 42점 중 28점을 얻었으며, 이는 은메달에 해당한다. 참고로 29점부터 금메달을 받았으니, 1점만 더 받았다면, 금메달에 해당하는 점수라 할 수 있다. 이들의 순위는 609명의 참가자 중 58등에 해당한다.



(좌) IMO 4번 문제 / (우) 구글 딥마인드 인공지능의 순위



이처럼 앤트로픽과 구글의 인공지능이 뛰어난 추론 능력을 보여주고 있다. 오픈AI의 상황은 어떨까? 오픈AI 역시 추론 능력을 강화한 인공지능을 개발 중이다. 코드명은 'Strawberry'로, 이전 프로젝트인 Q*를 이어받은 것으로 보인다. 아직, 외부에 공개되지 않아 오픈AI 인공지능의 추론 능력을 확인해 볼 수는 없지만, 내부적으로 상당한 진전을 이뤘다는 평가를 받고 있다는 소식이 흘러나오고 있다. 오픈AI의 일부 연구원들은 2023년 11월, 오픈AI 이사회에 이 기술이 인류를 위협할 수 있다는 경고 편지까지 작성한 바 있다.


인공지능의 발전 속도가 향후 어떻게 될지는 아무도 모른다. 낙관론도 비관론도 모두 일리가 있다. 혹자는 딥러닝의 구조적 한계상 지금 수준보다 더 발전하기 힘들다고 이야기한다. 또 다른 전문가는 반도체에서 무어의 법칙이 성립했던 것처럼, 인공지능의 성능 역시 기하급수적으로 성장할 것이라 한다. 무엇이 되었든 우리는 우리보다 똑똑한 인공지능이 도래할 가능성을 인지하고, 이에 대한 준비를 해야 한다.

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari