brunch
매거진 번역한 것

AI가 지금보다 더 좋아지지 않는다면

솔직히 그만 좋아지고 환경 논의나 했으면 좋겠다

by 제이드

* 원문은 여기

* 내용이 너무 많아서 하다가 중간중간 생략함 주의(...)

* 굳이 쓰지는 않아도 오역, 의역은 당연히 있음





annie-spratt-U_Ff4ohzLSw-unsplash.jpg


What if A.I. Doesn’t Get Much Better Than This?

AI가 지금보다 더 좋아지지 않는다면 어떻게 될까?



오늘날의 AI 기술을 둘러싼 두려움과 도취 상태는 오픈AI 소속 연구 팀이 발표한 30페이지짜리 논문 ‘신경망 언어 모델을 위한 스케일링 법칙Scaling Laws for Neural Language Models’이 발표되었던 2020년 1월로 거슬러 올라간다. 자레드 캐플란Jared Kaplan이 이끈 이 팀에는 현재 앤트로픽의 CEO인 다리오 아모데이Dario Amodei도 포함되어 있었다. 이들은 꽤 괴짜스러운nerdy 질문을 파헤쳤다. 언어 모델의 크기와 훈련 강도를 높이면 모델의 성능에 어떤 일이 벌어질까?


그 당시 머신 러닝 전문가 대부분은 언어 모델이 일정 크기에 도달한 뒤 훈련받는 질문에 대한 대답을 외우기 시작할 것이고, 이로 인해 배포 이후 모델의 효용성이 떨어질 거라고 생각했다. 하지만 오픈AI가 발표한 논문에서는 언어 모델이 성장할수록 성능이 좋아지고, 그러한 발전이 거듭제곱 법칙(power law), 마치 하키채를 닮은 매우 활동적인 곡선을 따를 수도 있다고 주장했다. 이것이 시사하는 바는 다음과 같다. 더 큰 거대 언어 모델을 계속 만들고 대규모 데이터셋으로 그 모델을 훈련한다면 엄청나게 성능이 좋아지기 시작할 거라는 것이다. 해당 논문이 발표되고 몇 달 뒤 오픈AI는 이전 모델인 GPT-2보다 10배 더 크고 성능도 급속도로 향상된 GPT-3을 발표하면서 그 스케일링 법칙을 입증하는 듯 보였다.


갑자기 다양한 업무에서 인간과 비슷하거나 더 나은 수행력을 보여주는 인공 일반 지능(Artificial General Intelligence, AGI)이라는 이론적 개념이 손에 닿을 듯 가까워 보였다. 스케일링 법칙이 이어진다면 AI 기업은 돈과 컴퓨팅 성능을 언어 모델에 쏟아부어 AGI를 만들 수 있을지도 몰랐다. 그 후 1년이 안 되어 샘 알트만은 ‘모든 것에 대한 무어의 법칙Moore’s Law for Everything’이라는 글을 블로그에 올리면서 AI가 ‘현재 사람이 하는 일을 더욱 많이’ 점령할 것이고, 자본가를 위한 상상할 수 없는 양의 부를 만들어낼 거라고 주장했다. 그는 ‘이 기술 혁명은 멈출 수 없다’고 썼다. ‘세상이 너무 빠르고 급격하게 변해서, 그 부를 분배하고 더 많은 사람이 그들이 원하는 삶을 추구할 수 있도록 하기 위해 정책에서도 그와 같은 극적인 변화가 필요할 것’이라면서.


AGI로 향하는 그 길에 필연적으로 오르게 되리라고 AI 커뮤니티가 얼마나 굳게 믿었는지 아무리 표현해도 지나치지 않을 것이다. 2022년 뉴욕대의 심리학 및 신경 과학 명예 교수이자 AI 사업가 게리 마커스Gary Marcus는 캐플란의 논문을 반박하면서 ‘이른바 스케일링 법칙이라는 건 중력처럼 보편적인 법칙이 아니고 영원히 지속되지 않을지도 모르는 단순한 관찰 결과’라고 말했다. 부정적인 반응은 격렬하고 빨랐다. 마커스는 훗날 회상하길 ‘내가 집필한 어떤 다른 에세이도 그렇게 많은 사람들, 혹은 유명한 사람들에게 조롱받지 않았다’고 했다. 그는 그 발언으로 머신 러닝 세계에서 근본적으로 제명당했다고 말했다. 얼마 되지 않아 챗GPT는 역사상 그 어떤 디지털 서비스보다 빨리 사용자 1억 명을 달성했다. 2023년 3월 오픈AI의 차기작 GPT-4는 스케일링 곡선을 아득히 뛰어넘어서, 이에 영감을 받은 마이크로소프트는 ‘인공 일반 지능의 발Sparks of Artificial General Intelligence’이라는 제목의 연구 논문을 발표했다. 다음 해 AI에 투자한 벤처 자본은 80% 급증했다.






그러나 그 이후 AI의 진보는 느려진 듯하다. 오픈AI는 2년 넘게 새로운 블록버스터 모델을 공개하지 않았고 대신 일반 대중이 따라가기 어려운 전문적 릴리즈에 초점을 맞추었다. 업계에서는 AI 스케일링 법칙이 흔들리기 시작한 것인지 의문을 제기하는 목소리가 나오기 시작했다. 11월 오픈AI 창립자 중 한 명인 일리야 서츠케버Ilya Sutskever는 로이터에 ‘2010년대는 스케일링의 시대였고 이제 우리는 다시 한번 발견과 놀라움의 시대로 돌아왔다’고 말했다. ‘모두가 다음 목표를 찾고 있다.’ TechCrunch의 한 기사는 전반적 분위기를 다음과 같이 요약했다. ‘지금은 모두가 거대 언어 모델을 사전 훈련하면서 그것들이 모든 걸 다 아는 디지털 신이 되길 기대하면서, 더 많은 컴퓨팅 자원과 데이터를 사용할 수는 없다고 인정하고 있는 것 같다.’ 하지만 이런 건 헤드라인을 장식하는 다른 AI 리더들의 화려한 말에 대부분 들리지 않는 듯하다. 아모데이는 최근 앤더슨 쿠퍼에게 ‘AI는 거의 모든 지적 과업에서 인간보다 나아지고 있다’고 말했다. Axios와의 인터뷰에서는 주니어 단계의 화이트칼라 직업 절반이 향후 1년에서 5년 안에 사라질 거라고 예측했다. 이번 여름, 알트만과 마크 저커버그는 초지능superintelligence 개발에 가까워지고 있다고 주장했다.


그러다 지난주 오픈AI에서 마침내 GPT-5를 발표했고, 대부분 GPT-5가 AI 성능에서의 엄청난 발전을 알릴 거라고 생각했다. 괜찮은 기능도 있었다. 유명 테크 유투버인 Mrwhosetheboss는 GPT-5에 포켓몬을 말로 쓰는 체스 게임을 만들어달라고 했는데, 업계를 선도하는 코딩 모델이라는 GPT-o4-mini-high를 사용했을 때보다 훨씬 나은 결과물을 얻었다. GPT-5는 GPT-4o보다 더 인상적인 유튜브 대본을 쓰기도 했다. 그는 특히 GPT-5가 사용자에게 써보고 싶은 모델을 고르라고 요청하는 대신 어떤 일에 적합한 모델에 자동으로 질문을 보낸다는 점에 열광했다. 그럼에도 유튜브 섬네일이나 생일 파티 초대장을 만드는 일에는 GPT-4o가 더 나았고, GPT-5가 가짜 정보를 만들어내도록 쉽게 유도할 수도 있었다. 혹자는 ‘유료 사용자 입장에서도 너무 쓰레기’라고 했고, 질답 세션(Ask Me Anything, A.M.A)에서 알트만과 다른 오픈AI 엔지니어들은 방어적으로 사용자들의 불만에 대응했다. 마커스는 GPT-5 발표를 ‘감동도 없고 과장되었으며 철 지난’ 것이라 평했다.


GPT-5 론칭의 결과로 AI에 관해 과장된 예측을 있는 그대로 받아들이는 건 더욱 어려워졌고, 마커스 같은 비평가들의 시선은 대단히 온건해 보이게 되었다. 그들은 AI 기술은 중요하지만 우리의 삶을 극적으로 바꿀 준비는 안 되어 있다고 주장한다. AI가 지금보다 더 나아지지 않을지도 모르는 근미래에 관한 다른 비전을 생각해 보라고 한다.


오픈AI는 GPT-5 출시에 거의 2년 반이나 기다리고 싶진 않았다. The Information에 따르면 2024년 봄 알트만은 직원들에게 ‘오리온’이라는 코드 네임으로 불렸던 차기 모델이 GPT-4보다 현저히 나을 것이라 말했다. 그러나 가을 즈음 결과물은 실망스러웠다. 11월 The Information은 이렇게 밝혔다. ‘오리온의 성능이 결국 이전 모델을 상회하게 되긴 했지만, GPT-3에서 GPT-4로 넘어갔을 때와 비교하면 그 성능 향상이 정도가 훨씬 낮았다.’


오리온의 실패는 업계 내에서 서서히 나타나던, AI의 스케일링 법칙은 결국 법칙이 아니었다는 두려움을 굳혔다. 가장 거대한 모델을 만들어도 (과거에 비해) 줄어든 결과값만 돌아온다면, 테크 기업들에겐 AI 제품을 강화하기 위한 새로운 전략이 필요할 것이다. 곧 그들은 ‘사후 훈련 개선’이라고 불리는 것에 정착했다. 선도적인 거대 언어 모델은 모두 근본적으로 인터넷 전체를 소화해 똑똑해지는 과정인 사전 훈련이라는 것을 거친다. 그러나 모델이 흡수한 지식과 능력을 더 잘 활용하게 만들기 위해 이후에 모델을 정교하게 만드는 것도 가능하다. 사후 훈련 기법 중에는 머신 러닝 툴과 강화 학습을 적용하여 사전 훈련을 받은 모델이 특정한 일을 더 잘하도록 가르치는 방법이 있다. 어려운 질문에 관한 응답을 생성하는 데에 계산 시간을 더 많이 쓰게 하도록 하는 방법도 있다.


이걸 자동차에 비유하면 좋다. 사전 훈련은 자동차를 만드는 것, 사후 훈련은 그 자동차의 성능을 높이는 거라고 말할 수 있다. 논문에서 캐플란과 공저자들은 사전 훈련 과정을 확대하면 생산하는 차의 마력이 높아질 거라고 예측했다. GPT-3이 세단이라면 GPT-4는 스포츠카라는 것이다. 그러나 이 예상이 흔들리자 업계는 이미 만들어진 차의 성능을 개선하도록 돕는 일에 관심을 돌렸다. 사후 훈련 기법이 엔지니어를 기계공으로 바꿔놓은 셈이다.






테크 업계 리더들은 재빨리 사후 훈련 접근법이 과거의 스케일링만큼 빠르게 AI를 개선할 거라는 희망을 표했다. 마이크로소프트 CEO 사티아 나델라Satya Nadella는 지난가을 컨퍼런스 현장에서 ‘우리는 새로운 스케일링 법칙의 출현을 목격하고 있다’고 말했다. 벤처 캐피탈리스트 Anjney Midha도 비슷하게 ‘스케일링 법칙의 두 번째 시대’라고 했다. 12월 오픈AI는 사후 훈련 기법을 사용해서 모델의 단계적 추론과 컴퓨터 코딩 작성 능력을 개선한 o1을 발표했다. 이후 o3-mini, o3-mini-high, o4-mini, o4-mini-high, o3-pro가 나왔으며 이들은 모두 사후 훈련 기법을 맞춤 조합하여 성능을 높인 모델들이다.


다른 AI 회사들이 움직이는 방향도 비슷했다. 앤트로픽은 2월에 클로드 3.7 소네트 발표 당시 사후 훈련 개선을 실험해 보았고 이는 클로드 4 패밀리 모델들의 핵심이 되었다. 일론 머스크의 xAI는 그록 3을 출시했을 때까지 스케일링 전략을 계속 추구했다. 그록 3은 100,000 H100 GPU 칩이라는 놀라운 규모로 사전 훈련된 모델이었는데 이는 GPT-4를 훈련하는 데 사용된 것보다 훨씬 크다. 하지만 그록 3이 경쟁 모델보다 훨씬 성능이 떨어지자 xAI는 사후 훈련 방법을 받아들여 그록 4를 개발했다. GPT-5는 이런 추세에 거의 맞아떨어진다. GPT-5는 완전히 새로운 모델이라기보다는 최근에 나온 사후 훈련 모델을 개선하고 이를 하나로 통합하려는 시도에 가깝다.


사후 훈련법으로 우리는 AGI로 향하는 길목에 다시 올라선 것일까? 오픈AI가 GPT-5를 발표하면서 내놓은 자료에는 차트와 그래프가 20개 넘게 들어갔고 Aider Polyglot 다언어 코드 편집, ERQA 멀티모달 공간 추론 같은 방법 등이 동원되어 GPT-5가 이전 모델보다 얼마나 성능이 좋아졌는지 수량화하였다. 일부 AI 관련 기준은 유용하게 좋아진 사항을 담기도 했다. GPT-5는 프로그래밍에 초점을 맞춘 기준에서 이전 모델보다 높은 점수를 얻었고 리뷰에서도 더 좋은 코드를 만든다는 점에 동의했다. 새 모델은 더 자연스럽고 유려하게 코드를 작성하는데 이 역시 기준 사항에 반영되었다. 하지만 이제 이런 변화는 사소해 보인다. 초기 생성형 AI의 엄청난 발전에서 보았던 전반적인 성능 향상보다는, 소프트웨어 업데이트에 기대할 수 있는 특정한 개선 사항에 가깝다는 것이다.


o1 출시와 함께 AI 기업들은 단계적 추론에서의 발전을 내세웠다. 하지만 6월 애플 연구진이 ‘사고의 환상The Illusion of Thinking’이라는 논문을 발표했는데, 여기에서는 퍼즐의 복잡도가 일반적인 수준의 임계점을 넘어서자 최신 ‘거대 추론 모델’의 수행 능력이 제로로 떨어졌다는 내용이 담겨 있다. 논문 저자들은 o3-mini, 클로드 3.7 소네트의 ‘생각’ 모드, DeepSeek-R1를 포함한 추론 모델은 여전히 일반화가 가능한 문제 해결 능력 개발에 실패했다고 적었다. 지난주 애리조나 주립대학 연구진은 더 직접적인 결론에 다다랐다. AI 기업이 추론이라고 부르는 건 훈련 (데이터) 분포를 넘어서면 사라지는 불안한 신기루 같은 것이라고 말이다. 또 이런 기준을 넘어서는 게 우리가 일터에서 매일 만나는 문제를 통한 사고 행위와 같은 건 아니다. 일부 기준치에서 2025년 모델이 더 성능이 좋다고 나왔어도 AI를 사용하는 기업 중 2025년 모델이 2024년 모델보다 훨씬 유용하다고 말하는 곳은 별로 없다. 사후 훈련을 통한 개선은 스케일링이 그랬듯이 모델을 강화하진 못하는 것 같다.






나는 마커스와 다른 두 회의론자에게 앞으로 생성형 AI가 미칠 경제적 영향에 관해 물었다. ‘Better Offline’ 팟캐스트 진행자이자 기술 분석가인 에드 지트론Ed Zitron은 이렇게 말했다. ‘AI 산업은 1조 달러도 아니고 5백억 달러짜리 시장이에요.’ 마커스도 동의했다. ‘5백억, 아니면 천억 달러 정도.’ 언어학 교수이자 초기 언어 모델에 관한 유명한 비평서의 공동 저자인 에밀리 벤더Emily Bender는 ‘그 영향은 관리자 계층에 있는 사람들이 얼마나 많이 AI를 팔려는 사람들에게 속아 넘어가서 AI로 그들의 직장을 개편할지에 달려 있다’고 했다. ‘그런 일이 많이 발생할수록 모두가 일자리를 잃게 될 것’이라면서. 이런 관점은 현실성이 없다는 평을 받았고 놀림도 받았다. 이젠 이런 게 바뀌어야 할지도 모른다.


AI에 관한 온건한 시선이 옳다면, 몇 년 이내에 AI는 느리지만 점진적으로 발전할 것이다. 사람들은 정보를 찾는다거나 보고서를 요약하거나, 이벤트 초안을 쓰는 등 번거로운 업무 처리 속도를 높이는 정도로 일상적이지만 한정된 기반에서 AI를 사용할 것이다. 프로그래밍이나 학문 같은 특정 분야는 극적으로 변화할 것이다. 성우나 소셜 미디어 카피라이팅 같은 일부 직업은 결국 사라질지도 모른다. 그렇지만 AI가 일자리 시장을 엄청나게 교란하진 않을 것이고, 초지능처럼 과장된 아이디어는 더 이상 진지하게 보이지 않을지 모른다.


AI 열풍을 계속 믿는 건 금전적으로도 위험한 일일 수 있다. 최근 기사에서 지트론은 미국 주식 시장가 약 35%, 즉 퇴직자들의 포트폴리오가 상당수 포함된 이 비율이 최근 거대 테크 기업 7개에 묶여 있다고 지적했다. 그의 분석에 따르면 이 기업들은 지난 18개월간 AI 관련 자본 지출에 560억 달러를 썼으나 이들의 AI 수익은 350억에 그쳤다.


마커스는 우리가 생성형 AI의 중요성을 강조하도록 경도되고 있다고 생각하지만, AGI가 2030년 초에 가능하다고도 생각한다. 언어 모델이 우리의 직업을 자동화하지 못한다고 하더라도 AI에 관한 새로운 관심과 투자가 더 복잡한 솔루션을 주도할 가능성은 있다. 그동안 우리는 이 시기를 이용해 여전히 닥칠지 모르는 혼란에 대비해야 한다. 효과적인 AI 규제안을 만들고 디지털 윤리의 초기 영역을 개발해야 한다.


2020년부터 스케일링 법칙 논문의 부록에는 ‘경고Caveats’라는 섹션이 포함되었는데, 이후 시장에서는 이것을 자꾸 놓치는 경향이 있다. 논문 저자들은 이렇게 썼다. ‘현재 우리는 우리가 제안한 스케일링 법칙에 관해 확실한 이론적 합의를 달성하지 못했다. 모델의 크기, 컴퓨팅과 스케일링 관계는 근본적으로 밝혀지지 않았다.’ 실상 스케일링 법칙은 적용이 되지 않는 시점까지 작동했다. 컴퓨터에 사고를 가르치는 산업 전체는 미스터리로 남아 있다. 우리는 자만심을 줄이고 더 조심히 나아가야 한다.




keyword
매거진의 이전글생각은 사치품이다