brunch

일리아 수츠케버 최근 인터뷰(25.11)

by 성우


제프리 힌튼 교수와 함께 딥러닝 혁명을 만든 사람. 일리아 수츠케버의 인터뷰가 담긴 팟캐스트가 올라왔습니다. 수츠케버는 2024년 5월 OpenAI를 떠난 후, SSI(Safe Superintelligence Inc.)를 설립하여, AI안전 연구에 전념하고 있는 중입니다.


팟캐스트는 1시간 30분의 긴 대담형식입니다. 진행자인 드와케시 파텔(Dwarkesh Patel)은 이미 AI 업계에서 매우 유명한 인사입니다. 기술 및 인공지능(AI) 분야에 초점을 맞춘 심층 인터뷰 프로그램인 "Dwarkesh Podcast"의 진행자이구요. 데미스 허사비스, 사티아 나델라, 안드레 카파시 등 왠만한 AI 의 구루들은 그와 인터뷰를 진행했습니다.


항상 원문을 기반으로 행간을 곱씹으며 이해하는 게 매우 중요하다고 생각합니다. 스크립트를 아래 공유드리니, 많이 참고해주시면 감사하겠습니다.



일리야 수츠케버와의 대화: 스케일링 시대를 넘어 연구 시대로


Ilya: 이 모든 게 진짜라는 게 정말 놀랍지 않나요?


Dwarkesh: 그게 무슨 말이죠?


Ilya: 그렇게 생각 안 해요? 이 모든 AI와 베이 지역의 일들이... 그게 일어나고 있다는 것이요. 완전히 공상 과학 영화 속 이야기 같지 않나요?


Dwarkesh: 또 신기한 건, 느린 이륙(slow takeoff)이 얼마나 평범하게 느껴지는가 하는 것입니다. 우리가 AI에 GDP의 1%를 투자한다는 생각은 훨씬 더 큰 사건처럼 느껴졌을 수도 있는데, 지금은 그냥...


Ilya: 알고 보니 우리, 상황에 꽤 빨리 익숙해지더라고요. 하지만 또한 그건 좀 추상적이기도 해요. 이게 대체 무슨 의미일까요?


Ilya: 그냥 뉴스에서 '어떤 회사가 얼마 투자한다'는 금액만 본다는 것을 의미할 뿐이에요. 우리가 실제로 느끼는 건 그게 전부죠. 아직 다른 방식으로 체감되지는 않아요.


Dwarkesh: 실제로 여기서부터 이야기해 볼까요? 흥미로운 주제 같아요.


Ilya: 그럼요.


Dwarkesh: '일반 사람들은 크게 달라진 게 없다고 느낀다'는 당신의 지적은 특이점(singularity)에 도달할 때까지도 계속 사실일 것 같아요.


Ilya: 아니요, 저는 그렇게 생각 안 해요.


Dwarkesh: 좋습니다, 흥미롭네요.


Ilya: 제가 '달라진 게 없다'고 말한 건, 어떤 회사가 감도 안 잡히는 액수의 투자를 발표한 상황을 두고 말한 거예요. 아무도 그걸로 뭘 해야 할지 모른다고 생각해요.


Ilya: 하지만 AI의 영향은 분명히 느껴지게 될 거예요. AI는 경제 전체로 퍼져나갈 거예요. 이걸 뒷받침할 강력한 경제적 동력들이 많고, 그 영향은 굉장히 클 거라고 봐요.


Dwarkesh: 그 영향이 언제쯤 나타날까요? 저는 모델들이 실제 경제적 영향력보다 훨씬 더 똑똑해 보이는 것 같아요.


Ilya: 네. 그게 지금 모델들을 보면서 가장 헷갈리는 점 중 하나죠. 모델들이 평가(evals)에서 그렇게 잘하는데, 이걸 어떻게 설명해야 할까요?


Ilya: 평가들을 보면 "와, 이거 꽤 어려운 테스트인데" 싶을 정도인데, 정말 잘하죠. 근데 경제적인 영향은 극적으로 뒤처져 있는 것 같아요.


Ilya: 모델이 한편으론 이렇게 대단한 일을 해내면서, 다른 한편으론 어떤 상황에선 똑같은 실수를 두 번씩 반복한다는 걸 이해하기가 너무 어려워요.


Ilya: 예를 들어, 당신이 바이브 코딩(vibe coding)을 사용하여 무언가를 한다고 가정해 봅시다. 당신은 어떤 지점에 도달한 다음 버그가 생기죠.


Ilya: 그리고 당신은 모델한테 "이 버그 좀 고쳐줄 수 있어?" 하고 물어봐요.


Ilya: 그러면 모델은 "맙소사, 네 말이 정말 맞아. 버그가 있네. 고칠게" 하고는 두 번째 버그를 만들어내죠.


Ilya: 그런 다음 당신이 "두 번째 버그가 생겼어"라고 말하면, 모델은 "세상에, 내가 어떻게 그랬지? 또 네 말이 맞아" 하고는 첫 번째 버그를 다시 살려내요.


Ilya: 당신은 이 버그들 사이를 계속 오갈 수 있어요. 이게 어떻게 가능할까요? 확신할 수 없지만, 뭔가 이상한 일이 진행되고 있다는 건 분명해요.


Ilya: 저에게는 두 가지 가능한 설명이 있어요. 더 재미있는 쪽은, 어쩌면 RL 훈련(강화 학습)이 모델을 다소 너무 외골수로, 좁은 영역에만 집중하게 만들고, 다른 면에서는 알면서도 어떤 면에서는 무지하게 만드는 것일 수 있다는 거예요. 이 때문에 기본적인 것들을 해내지 못하는 것이죠.


Ilya: 하지만 다른 설명도 있어요. 사람들이 사전 훈련(pre-training)을 하던 시절에는, 어떤 데이터로 훈련할 것인가에 대한 답은 '모든 것'이었기 때문에 질문에 답이 있었어요.


Ilya: 사전 훈련을 할 때는 모든 데이터가 필요해요. 그래서 이 데이터로 할지 저걸 쓸지 고민할 필요가 없어요.


Ilya: 그러나 사람들이 RL 훈련을 할 때는 고민이 필요해요. 그들은 "좋아, 이 일을 위해서는 이런 종류의 RL 훈련이 필요하고, 저 일을 위해서는 저런 종류의 RL 훈련이 필요해"라고 말해요.


Ilya: 제가 듣기로는, 모든 회사에는 새로운 RL 환경을 만들고 그것을 훈련 믹스에 추가하는 팀들이 있어요. 문제는, 그 환경들이 무엇이냐는 거예요.


Ilya: 자유도가 매우 많아요. 당신이 만들어낼 수 있는 RL 환경의 종류가 매우 다양해요.


Ilya: 당신이 할 수 있는 한 가지 일은, 그리고 저는 이것이 부주의하게 이루어지는 일이라고 생각합니다만, 사람들이 평가(evals)에서 영감을 얻는다는 거예요.


Ilya: 당신은 "야, 우리가 모델을 출시할 때 정말 잘했으면 좋겠어. 평가 결과가 멋지게 나왔으면 좋겠어. 이 작업을 돕는 RL 훈련은 무엇일까?"라고 말해요.


Ilya: 저는 이런 일이 일어난다고 생각하고, 이는 현재 일어나고 있는 많은 일들을 설명할 수 있어요.


Ilya: 만약 이것을 모델의 일반화(generalization)가 실제로는 부적절하다는 점과 결합한다면, 이는 우리가 보고 있는 현상, 즉 평가 성능과 실제 성능 사이의 불일치를 설명할 수 있는 잠재력을 가져요. 우리는 오늘날 이것이 무엇을 의미하는지조차 제대로 이해하지 못하고 있습니다.


Dwarkesh: 저는 진짜 보상 해킹(reward hacking)은 평가에 너무 집중하는 인간 연구자들이라는 아이디어가 마음에 드네요.


Dwarkesh: 저는 방금 당신이 지적한 것을 이해하려고, 또는 생각해 보려고 하는 두 가지 방식이 있다고 생각해요.


Dwarkesh: 하나는 단순히 코딩 대회에서 초인적인 능력을 갖추는 것만으로는, 모델이 자동으로 더 세련되어지고 코드베이스 개선에 더 나은 판단력을 발휘하지 못한다면, 환경의 모음을 확장해야 한다는 것입니다.


Dwarkesh: 즉, 코딩 대회에서 최고의 성능을 내는 것뿐만 아니라, X, Y, Z 같은 것들을 위한 최고의 종류의 애플리케이션을 만들 수 있도록 테스트해야 한다는 거예요.


Dwarkesh: 다른 하나는, 아마도 당신이 암시하는 것일 수도 있는데, '왜 코딩 대회에서 초인적인 능력을 갖추는 것이 더 일반적으로 세련된 프로그래머가 되게 하지 않는가?'라고 근본적으로 질문하는 거예요.


Dwarkesh: 어쩌면 해야 할 일은 환경의 양과 다양성을 계속 쌓아 올리는 것이 아니라, 하나의 환경에서 배운 것을 다른 무언가의 성능 향상으로 이어지게 하는 접근 방식을 알아내는 것일 수도 있어요.


Ilya: 저는 도움이 될 만한 인간의 비유가 있어요. 당신이 언급했으니, 경쟁 프로그래밍의 사례를 들어보죠.


Ilya: 두 명의 학생이 있다고 가정해 봐요. 한 명은 최고의 경쟁 프로그래머가 되기로 결심하고, 그 분야를 위해 10,000시간을 연습합니다.


Ilya: 그들은 모든 문제를 풀고, 모든 증명 기법을 외우고, 모든 알고리즘을 빠르고 정확하게 구현하는 데 매우 숙련됩니다. 그렇게 함으로써 그들은 최고 중 한 명이 되었어요.


Ilya: 두 번째 학생은 "아, 경쟁 프로그래밍은 멋지네"라고 생각해요. 어쩌면 그들은 100시간만 연습했을 수도 있어요. 훨씬 적게 연습하고도 정말 잘했어요.


Ilya: 이 둘 중 누가 나중에 경력에서 더 잘할 거라고 생각해요?


Dwarkesh: 두 번째 학생이요.


Ilya: 맞아요. 저는 기본적으로 지금 일어나고 있는 일이 이것과 같다고 생각해요. 모델들은 첫 번째 학생과 훨씬 더 비슷하지만, 그보다 더 심해요.


Ilya: 왜냐하면 우리는 '모델이 경쟁 프로그래밍을 잘해야 한다'고 말하며, 그래서 역대 모든 경쟁 프로그래밍 문제를 가져옵니다.


Ilya: 그리고 데이터 증강(data augmentation)을 하여 경쟁 프로그래밍 문제를 더 많이 만들고, 그것으로 훈련해요. 이제 당신은 훌륭한 경쟁 프로그래머를 갖게 된 거예요.


Ilya: 이 비유를 통해 보면 더 직관적이죠. 네, 좋습니다. 그렇게 잘 훈련되었다면, 모든 다양한 알고리즘과 증명 기법들이 그들의 손끝에 있을 거예요.


Ilya: 그리고 이러한 수준의 준비로는 다른 것들로 반드시 일반화되지 않을 것이라는 점이 더 직관적이죠.


Dwarkesh: 그렇다면 두 번째 학생이 100시간의 파인튜닝(fine-tuning)을 하기 전에 하고 있는 일에 대한 비유는 무엇일까요?


Ilya: 저는 그들이 "그것(it)"을 가지고 있다고 생각해요. '그것' 요소 말이에요. 제가 학부생이었을 때, 저와 함께 공부했던 이런 학생이 있었는데, 그래서 저는 그것이 존재한다는 것을 알아요.


Dwarkesh: 저는 '그것'을 사전 훈련이 하는 일과 구별하는 것이 흥미롭다고 생각해요.


Dwarkesh: 당신이 방금 사전 훈련에서 데이터를 선택할 필요가 없다고 말한 것을 이해하는 한 가지 방식은, 그것이 사실 10,000시간의 연습과 다르지 않다고 말하는 것입니다. 단지 그것이 이미 사전 훈련 분포 어딘가에 있기 때문에 10,000시간의 연습을 무료로 얻는 것일 뿐입니다.


Dwarkesh: 하지만 어쩌면 당신은 사실 사전 훈련에서 많은 일반화가 이루어지지 않는다고 시사하는 것일 수도 있겠네요. 단지 사전 훈련에 데이터가 너무 많을 뿐이며, 그것이 RL보다 반드시 더 나은 일반화를 하는 것은 아니라는 것입니다.


Ilya: 사전 훈련의 주요 강점은 A, 데이터가 너무 많다는 것과 B, 사전 훈련에 어떤 데이터를 넣을지 깊이 생각할 필요가 없다는 거예요.


Ilya: 그것은 매우 자연스러운 데이터이며, 그 안에는 사람들이 하는 많은 것들: 사람들의 생각, 많은 특징들이 포함되어 있어요.


Ilya: 그것은 사람들이 텍스트에 투사한 세계 전체와 같으며, 사전 훈련은 엄청난 양의 데이터를 사용하여 그것을 포착하려고 노력하죠.


Ilya: 사전 훈련은 추론하기가 매우 어려워요. 모델이 사전 훈련 데이터에 의존하는 방식을 이해하기가 너무 어렵기 때문이에요.


Ilya: 모델이 실수할 때마다, 그것은 우연히 무언가가 사전 훈련 데이터에 의해 충분히 뒷받침되지 않았기 때문일까요? "사전 훈련에 의한 뒷받침"은 아마도 느슨한 용어일 거예요.


Ilya: 이것에 대해 더 유용한 것을 추가할 수 있을지 모르겠어요. 저는 사전 훈련에 대한 인간의 유추는 없다고 생각해요.



2. 감정과 가치 함수



Dwarkesh: 사람들이 인간이 사전 훈련에 비유될 수 있다고 제안한 유추들이 있어요. 그것들이 잠재적으로 왜 틀렸는지에 대한 당신의 생각을 듣고 싶어요.


Dwarkesh: 하나는 사람이 경제적으로 생산적이지는 않지만, 세상을 더 잘 이해하게 만드는 무언가를 하는 삶의 첫 18년, 15년, 또는 13년에 대해 생각하는 거예요.


Dwarkesh: 다른 하나는 진화가 30억 년 동안 어떤 종류의 탐색을 하고, 그 결과로 인간의 한 평생의 인스턴스가 탄생한다고 생각하는 거예요.


Dwarkesh: 이 둘 중 어느 것이 사전 훈련과 비슷하다고 생각하세요? 만약 사전 훈련이 아니라면, 인간의 평생 학습은 어떤 모습이라고 생각하세요?


Ilya: 저는 이 두 가지 모두와 사전 훈련 사이에 어느 정도 유사점이 있다고 생각하고, 사전 훈련은 이 두 가지 역할을 모두 수행하려고 노력해요.


Ilya: 하지만 큰 차이점들도 있다고 생각해요. 사전 훈련 데이터의 양은 매우, 매우 엄청나죠.


Dwarkesh: 네.


Ilya: 인간은 어떻게든 15년 후에도 사전 훈련 데이터의 아주 작은 부분만을 가지고 훨씬 적게 알아요. 하지만 그들이 아는 것은 무엇이든 훨씬 더 깊이 알고 있죠.


Ilya: 이미 그 나이에도 당신은 우리 AI가 저지르는 실수를 저지르지 않을 거예요.


Ilya: 또 다른 것이 있어요. 당신은 '진화와 같은 것일 수 있을까?'라고 말할 수 있죠. 답은 '어쩌면'입니다. 하지만 이 경우, 저는 진화가 실제로 우위를 가질 수 있다고 생각해요.


Ilya: 제가 읽었던 사례가 기억나요. 신경과학자들이 뇌에 대해 배울 수 있는 한 가지 방법은 뇌의 다른 부분에 손상을 입은 사람들을 연구하는 거예요.


Ilya: 어떤 사람들은 당신이 상상할 수 있는 가장 이상한 증상을 가지고 있죠. 그것은 실제로 매우, 매우 흥미로워요.


Ilya: 관련하여 떠오르는 한 가지 사례는, 어떤 종류의 뇌 손상, 뇌졸중이나 사고로 인해 그의 감정 처리 기능이 손상된 사람에 대해 읽은 거예요.


Ilya: 그래서 그는 어떤 감정도 느끼지 않게 되었죠. 그는 여전히 말을 잘하고 작은 퍼즐을 풀 수 있었으며, 테스트에서는 아무 문제 없는 것처럼 보였어요.


Ilya: 하지만 그는 아무런 감정도 느끼지 않았어요. 슬픔을 느끼지도, 분노를 느끼지도, 활기를 느끼지도 않았죠. 그는 본질적으로 어떤 결정도 내리는 데 극도로 서툴러졌어요.


Ilya: 그는 어떤 양말을 신을지 결정하는 데 몇 시간이 걸렸고, 매우 나쁜 재정적 결정을 내렸어요.


Ilya: 이는 우리에게 우리의 내장된 감정이 본질적으로 우리를 생존 가능한 에이전트로 만드는 역할에 대해 무엇을 말해줄까요?


Ilya: 당신의 사전 훈련에 대한 질문과 연결하자면, 어쩌면 당신이 사전 훈련에서 모든 것을 얻어낼 만큼 충분히 뛰어나다면, 그것(감정 처리)도 얻을 수 있을 거예요.


Ilya: 하지만 그것은... 글쎄요, 사전 훈련에서 그것을 얻는 것이 가능할 수도 있고 아닐 수도 있는 종류의 것이죠.


Dwarkesh: '그것'이란 무엇인가요? 분명히 직접적인 감정은 아니죠. 그것은 어떤 결정에 대한 최종 보상이 무엇이어야 하는지를 알려주는 일종의 **가치 함수(value function)**와 같은 것으로 보여요.


Dwarkesh: 당신은 그것이 사전 훈련에서 암묵적으로 나오지 않는다고 생각하나요?


Ilya: 저는 나올 수도 있다고 생각해요. 단지 100% 명확하지 않다고 말하는 것뿐이죠.


Dwarkesh: 하지만 '그것'은 무엇인가요? 감정에 대해 어떻게 생각하세요? 감정에 대한 ML 유추는 무엇일까요?


Ilya: 그것은 일종의 가치 함수 같은 것일 거예요. 하지만 저는 훌륭한 ML 유추가 있다고 생각하지 않아요. 왜냐하면 현재 가치 함수는 사람들이 하는 일에서 매우 두드러진 역할을 하지 않기 때문이죠.


Dwarkesh: 청중을 위해 가치 함수가 무엇인지 정의하는 것이 좋을 수도 있겠네요.


Ilya: 물론이죠, 기꺼이 그렇게 할게요. 사람들이 강화 학습(reinforcement learning)을 할 때, 현재 강화 학습이 수행되는 방식은, 사람들이 그 에이전트들을 어떻게 훈련시킬까요?


Ilya: 당신은 신경망(neural net)을 가지고 있고 그것에게 문제를 줘요. 그런 다음 모델에게 "가서 풀어"라고 말하죠.


Ilya: 모델은 아마도 수천, 수십만 번의 행동이나 생각 같은 것을 취한 다음 해결책을 제시해요. 그 해결책은 등급이 매겨지죠.


Ilya: 그런 다음 그 점수는 당신의 궤적에 있는 모든 개별 행동에 대한 훈련 신호를 제공하는 데 사용돼요.


Ilya: 이는 당신이 오랫동안 진행되는 무언가를 하고 있다면—해결하는 데 오랜 시간이 걸리는 작업을 훈련하고 있다면—당신이 제안된 해결책을 내놓을 때까지 전혀 학습이 일어나지 않을 거라는 의미예요.


Ilya: 그것이 순진하게 강화 학습이 이루어지는 방식이죠. o1, R1이 표면적으로 이루어지는 방식이고요.


Ilya: 가치 함수(value function)는 "어쩌면 내가 항상은 아니더라도 때때로 당신이 잘하고 있는지 못하고 있는지 말해줄 수 있을지도 몰라"와 같은 것을 말해요.


Ilya: 가치 함수라는 개념은 어떤 영역에서는 다른 영역보다 더 유용해요. 예를 들어, 체스를 둘 때 말을 잃으면, "내가 망쳤구나"라고 생각하죠.


Ilya: 당신은 방금 한 일이 나쁘다는 것을 알기 위해 게임 전체를 할 필요가 없고, 따라서 그 이전에 일어난 일도 나빴다는 것을 알 필요가 없죠.


Ilya: 가치 함수는 당신이 끝까지 기다리는 것을 단축(short-circuit)할 수 있게 해줘요.


Ilya: 당신이 어떤 종류의 수학적 작업이나 프로그래밍 작업을 하고 있고, 특정 해결책이나 방향을 탐색하려고 한다고 가정해 봅시다.


Ilya: 생각하는 과정을 수천 단계 거친 후, 당신은 이 방향이 유망하지 않다고 결론 내려요.


Ilya: 이 결론을 내리자마자, 당신은 실제로 제안된 해결책을 내놓기 훨씬 이전에, 이 경로를 추구하기로 결정했던 수천 타임스텝 전에 이미 보상 신호를 받을 수 있어요.


Ilya: 당신은 "다음번에는 비슷한 상황에서 이 경로를 추구하지 말아야겠다"고 말하죠.


Dwarkesh: DeepSeek R1 논문에는 궤적 공간이 너무 넓어서 중간 궤적과 가치 사이의 매핑을 학습하기 어려울 수 있다고 나와 있었죠. 또한 코딩의 경우, 잘못된 아이디어를 가지고 있다가 되돌아가서 무언가를 변경한다는 점을 고려할 때요.


Ilya: 그것은 딥 러닝(deep learning)에 대한 믿음이 부족한 것처럼 들려요. 물론 어려울 수도 있지만, 딥 러닝이 못할 건 없죠.


Ilya: 제 예상은 가치 함수가 유용할 것이라는 거고, 이미 사용되고 있지 않더라도 저는 미래에 사용될 것이라고 전적으로 기대해요.


Ilya: 제가 감정 센터가 손상된 사람에 대해 암시했던 것은, 어쩌면 그것이 인간의 가치 함수가 진화에 의해 하드 코딩된 어떤 중요한 방식으로 감정에 의해 조절된다는 것을 시사하는 것일 수 있다는 거예요.


Ilya: 그리고 어쩌면 그것이 사람들이 세상에서 효과적으로 활동하는 데 중요할 수 있다는 거죠.


Dwarkesh: 그것이 제가 당신에게 물어보려고 했던 거예요. 가치 함수의 감정에는 정말 흥미로운 점이 있는데, 그게 이해하기 비교적 단순하면서도 이 정도의 유용성을 가진다는 게 인상적이에요.


Ilya: 저에게는 두 가지 응답이 있어요. 저는 우리가 배우고 이야기하는 종류의 AI와 비교할 때, 감정은 비교적 단순하다는 데 동의해요.


Ilya: 그것들은 너무 단순해서 어쩌면 인간이 이해할 수 있는 방식으로 그것들을 매핑할 수 있을지도 몰라요. 저는 그렇게 하는 게 멋질 거라고 생각해요.


Ilya: 하지만 유용성 측면에서는, 복잡성-견고성 상충 관계(complexity-robustness tradeoff)가 있다고 생각해요. 복잡한 것은 매우 유용할 수 있지만, 단순한 것은 매우 광범위한 상황에서 매우 유용하죠.


Ilya: 우리가 보고 있는 것을 해석하는 한 가지 방법은, 우리가 포유류 조상들로부터 주로 진화했고, 호미니드였을 때 조금만 미세 조정된 이 감정들을 가지고 있다는 거예요.


Ilya: 비록 포유류에는 부족할 수 있는 괜찮은 양의 사회적 감정을 가지고 있지만요. 하지만 그것들은 그다지 정교하지 않아요.


Ilya: 그리고 그것들이 정교하지 않기 때문에, 우리가 살았던 세상과는 매우 다른 이 세상에서 우리에게 그렇게 잘 봉사하는 거죠.


Ilya: 사실, 그것들은 실수도 해요. 예를 들어, 우리의 감정은... 글쎄요, 사실 잘 모르겠어요. 배고픔도 감정으로 간주될까요? 논란의 여지가 있죠.


Ilya: 하지만 저는 예를 들어, 우리의 직관적인 배고픔 느낌은 음식이 풍부한 이 세상에서 우리를 올바르게 안내하는 데 성공하고 있지 않다고 생각해요.



3. 우리가 스케일링하는 것은 무엇인가?



Dwarkesh: 사람들은 데이터 스케일링, 매개변수 스케일링, 컴퓨팅 스케일링에 대해 이야기해 왔잖아요. 스케일링에 대해 생각하는 더 일반적인 방법이 있을까요? 다른 스케일링 축은 무엇일까요?


Ilya: 제가 생각하기에 사실일 수 있는 관점이 있어요. 예전에 ML이 작동하던 방식은 사람들이 그냥 이것저것 만지작거리며 흥미로운 결과를 얻으려고 노력하는 거였죠. 그게 과거에 진행되어 온 방식이에요.


Ilya: 그러다가 스케일링에 대한 통찰이 도착했어요. 스케일링 법칙, GPT-3, 그리고 갑자기 모든 사람들이 '스케일링해야 한다'는 것을 깨달은 거죠.


Ilya: 이건 언어가 사고에 어떻게 영향을 미치는지 보여주는 예예요. '스케일링'은 단지 하나의 단어이지만, 사람들에게 뭘 해야 할지 알려주기 때문에 매우 강력한 단어죠.


Ilya: 그들은 "스케일링을 시도해 보자"고 말해요. 그래서 당신은 '우리가 뭘 스케일링하고 있는 거지?'라고 묻죠. 사전 훈련이 스케일링할 대상이었어요. 그것은 특정 스케일링 레시피였죠.


Ilya: 사전 훈련의 큰 돌파구는 이 레시피가 좋다는 깨달음이에요.


Ilya: 당신은 "야, 컴퓨팅이랑 데이터를 적절한 크기의 신경망에 섞으면, 결과를 얻을 거야. 레시피를 키우기만 하면 더 나아질 거라는 걸 알게 될 거야"라고 말하는 거죠.


Ilya: 이것도 훌륭해요. 회사들은 이걸 좋아하는데, 자원을 투자하는 데 위험이 매우 낮은 방법을 제공하기 때문이에요.


Ilya: 연구에 자원을 투자하는 건 훨씬 더 어렵죠. 연구는 "나가서 연구하고 무언가를 생각해 내라"와 같아야 하는 반면에,


Ilya: 더 많은 데이터와 컴퓨팅을 얻는다면, 사전 훈련에서 무언가를 얻을 거라는 걸 알 수 있으니까요.


Ilya: 실제로, 트위터에서 사람들이 말하는 걸 보면, 어쩌면 Gemini가 사전 훈련에서 더 많은 것을 얻어내는 방법을 발견한 것처럼 보여요.


Ilya: 하지만 어느 시점에서는 사전 훈련이 데이터가 고갈될 거예요. 데이터는 너무나 명확하게 유한하니까요. 그 다음에는 뭘 할까요?


Ilya: 이전에 했던 것과는 다른 레시피인 강화된 사전 훈련을 하거나, RL을 하거나, 어쩌면 다른 무언가를 하겠죠.


Ilya: 하지만 이제 컴퓨팅이 커졌어요. 컴퓨팅은 이제 매우 크죠. 어떤 의미에서 우리는 다시 연구의 시대로 돌아갔어요.


Ilya: 이렇게 말할 수도 있어요. 2012년부터 2020년까지는 연구의 시대였어요.


Ilya: 이제 2020년부터 2025년까지는 스케일링의 시대였죠. 사람들이 "이거 대단해! 더 키워야 해! 계속 키워!"라고 말했으니까요. 그 한 단어: 스케일링.


Ilya: 하지만 이제 스케일이 너무 커요. "너무 크지만, 100배 더 키우면 모든 게 달라질 거야"라는 믿음이 정말 있을까요?


Ilya: 물론 달라지겠지만, 스케일을 100배 키우면 모든 것이 완전히 바뀔 거라는 믿음일까요? 저는 그건 사실이 아니라고 생각해요.


Ilya: 그래서 다시 연구의 시대로 돌아갔어요. 단지 큰 컴퓨터를 가지고 있을 뿐이죠.


Dwarkesh: 그거 정말 흥미로운 표현이네요. 그럼 당신이 던진 질문을 다시 드릴게요. 우리가 뭘 스케일링하고 있고, 레시피를 갖는다는 건 무슨 의미일까요?


Dwarkesh: 저는 사전 훈련 때 존재했던 물리 법칙처럼 보이는 매우 깔끔한 관계를 잘 모르겠어요. 데이터, 컴퓨팅, 또는 매개변수와 손실(loss) 사이에 멱법칙이 있었죠.


Dwarkesh: 우리가 추구해야 할 관계는 어떤 종류이고, 이 새로운 레시피는 어떤 모습이라고 생각해야 할까요?


Ilya: 우리는 이미 사전 훈련에서 RL로, 한 유형의 스케일링에서 다른 유형의 스케일링으로 넘어가는 걸 목격했어요. 이제 사람들은 RL을 스케일링하고 있죠.


Ilya: 트위터에서 사람들이 말하는 걸 보면, 이제 그들은 사전 훈련보다 RL에 컴퓨팅을 더 많이 쓰고 있어요.


Ilya: RL은 실제로 꽤 많은 컴퓨팅을 잡아먹을 수 있거든요. 아주 긴 롤아웃(rollouts)을 수행하니까, 그걸 만드는 데 컴퓨팅이 많이 들죠.


Ilya: 그런 다음 롤아웃당 얻는 학습량은 비교적 적기 때문에, 정말 많은 컴퓨팅을 쓸 수 있어요.


Ilya: 저는 그걸 스케일링이라고 부르지도 않겠어요. 저는 "지금 하고 있는 일이 가장 생산적인 일인가? 컴퓨팅을 쓰는 더 효율적인 방법을 찾을 수 있나?"라고 물을 거예요.


Ilya: 우리는 이전에 가치 함수에 대해 논의했어요. 어쩌면 사람들이 가치 함수에 능숙해지면, 그들은 자원을 더 생산적으로 쓸 수 있을 거예요.


Ilya: 만약 모델을 훈련하는 완전히 다른 방법을 찾는다면, 그걸 '스케일링'이라고 해야 할까요, 아니면 단순히 '자원을 사용하는 것'이라고 해야 할까요? 저는 그 경계가 모호해진다고 생각해요.


Ilya: 예전에 연구의 시대에 사람들이 "이것저것 시도해 보자. 오, 흥미로운 일이 일어나네"라고 했던 것처럼, 저는 그 시대로의 회귀가 있을 거라고 생각해요.


Dwarkesh: 우리가 연구의 시대로 돌아갔다면, 한발 물러서서, 레시피의 어떤 부분을 가장 많이 생각해야 할까요?


Dwarkesh: 당신이 가치 함수를 말할 때, 사람들은 이미 현재의 레시피를 시도하고 있지만, LLM-as-a-Judge 같은 것도 있죠. 당신은 그걸 가치 함수라고 할 수 있지만, 당신은 훨씬 더 근본적인 무언가를 염두에 두고 있는 것처럼 들려요.


Dwarkesh: 사전 훈련을 완전히 처음부터 다시 생각해야 할까요, 아니면 그 과정의 끝에 단지 단계를 더 추가하는 것 이상을 해야 할까요?


Ilya: 가치 함수에 대한 논의는 흥미로웠다고 생각해요. 저는 가치 함수가 RL을 더 효율적으로 만들 것이고, 그게 차이를 만든다는 점을 강조하고 싶어요.


Ilya: 하지만 저는 가치 함수로 할 수 있는 모든 것을 더 느리게는 없이도 할 수 있다고 생각해요.


Ilya: 저는 가장 근본적인 것은 이 모델들이 어떻게든 인간보다 일반화를 훨씬 더 못한다는 것이라고 생각해요. 그건 너무 명백하죠. 그게 매우 근본적인 문제 같아요.



4. 인간이 모델보다 일반화를 더 잘하는 이유



Dwarkesh: 일반화가 핵심이군요. 여기서 두 가지 세부 질문이 있어요.


Dwarkesh: 하나는 표본 효율성(sample efficiency)에 관한 거예요. 왜 이 모델들은 인간보다 학습하는 데 그렇게 많은 데이터가 필요할까요?


Dwarkesh: 두 번째 질문은, 데이터 양과는 별개로, 왜 우리가 원하는 것을 인간에게 가르치는 것보다 모델에게 가르치는 게 그렇게 어려울까요?


Dwarkesh: 인간의 경우, 우리는 검증 가능한 보상이 반드시 필요하지 않죠. 당신은 지금 많은 연구원들을 멘토링하고 있을 거고, 그들과 이야기하고, 코드를 보여주고, 생각하는 방식을 보여주고 있을 거예요.


Dwarkesh: 그들로부터, 그들은 당신의 사고방식과 연구 방식을 배우고 있죠.


Dwarkesh: 당신은 그들에게 "좋아, 이건 다음 커리큘럼이야. 이제 다음 커리큘럼이야. 훈련이 불안정했어"와 같이 검증 가능한 보상을 설정할 필요가 없어요.


Dwarkesh: 이런 번거롭고 맞춤화된 과정이 없죠. 어쩌면 이 두 가지 문제가 어떤 식으로든 실제로 관련이 있을 수도 있지만, 저는 지속적 학습(continual learning)과 더 유사한 이 두 번째 것과, 단지 표본 효율성처럼 느껴지는 이 첫 번째 것을 탐구하고 싶어요.


Ilya: 인간의 표본 효율성에 대한 한 가지 가능한 설명은 진화라는 점을 고려해 볼 수 있어요.


Ilya: 진화는 우리에게 가능한 가장 유용한 소량의 정보를 제공했어요. 시각, 청각, 이동 능력 같은 것들에 대해서는 진화가 우리에게 많은 걸 주었다는 강력한 주장이 있다고 생각해요.


Ilya: 예를 들어, 인간의 손재주는 훨씬 뛰어나죠. 로봇도 시뮬레이션에서 엄청난 훈련을 받으면 능숙해질 수 있지만, 사람이 새로운 기술을 빠르게 습득하듯이 현실 세계에서 로봇을 훈련시키는 건 요원해 보여요.


Ilya: 여기서 당신은 "아, 이동. 우리 조상들은 모두 훌륭한 이동 능력이 필요했지. 그러니 이동에 대해서는 어쩌면 우리가 믿을 수 없는 사전 지식(prior)을 가지고 있을지도 몰라"라고 말할 수 있어요.


Ilya: 시각에 대해서도 똑같이 주장할 수 있죠. 저는 얀 르쿤(Yann LeCun)이 '아이들이 10시간 연습 후에 운전을 배운다'고 지적한 것이 사실이라고 생각해요.


Ilya: 하지만 우리의 시각은 너무 좋아요. 적어도 제가 다섯 살 때를 기억하면, 저는 그때 자동차에 열광했고, 제 자동차 인식 능력은 다섯 살 때 이미 운전에 충분 이상이었다고 확신해요.


Ilya: 다섯 살 아이는 데이터를 그렇게 많이 보지 못해요. 대부분의 시간을 집에서 보내니, 데이터 다양성이 매우 낮죠.


Ilya: 하지만 당신은 '어쩌면 그것도 진화일 수 있다'고 말할 수 있어요. 하지만 언어, 수학, 코딩에서는 아마 아닐 거예요.


Dwarkesh: 그것들 역시 모델보다 더 나아 보이긴 해요. 분명히 모델은 언어, 수학, 코딩에서 평균적인 인간보다 낫죠. 하지만 학습에 있어서도 평균적인 인간보다 낫나요?


Ilya: 아, 네. 아, 네, 당연하죠. 제가 말하려던 건 언어, 수학, 코딩—특히 수학과 코딩—은 사람들이 학습에 능숙하게 만드는 것이 아마도 복잡한 사전 지식이 아니라, 어떤 더 근본적인 것일 가능성이 높다는 걸 시사한다는 거예요.


Dwarkesh: 잘 이해가 안 돼요. 왜 그래야 하죠?


Ilya: 사람들이 뛰어난 신뢰성을 보이는 기술을 생각해 봐요. 만약 그 기술이 우리 조상들에게 수백만 년 동안 매우 유용했던 것이라면, 당신은 '어쩌면 인간이 진화 때문에, 즉 우리를 그렇게 능숙하게 만드는 어떤 매우 명확하지 않은 방식으로 인코딩된 진화적 사전 지식(evolutionary prior)을 가지고 있기 때문에 그것에 능숙하다'고 주장할 수 있어요.


Ilya: 하지만 사람들이 최근까지 존재하지 않았던 영역에서 뛰어난 능력, 신뢰성, 견고성, 그리고 학습 능력을 보인다면, 이것은 사람들이 단지 더 나은 머신러닝을 가지고 있다는 더 많은 증거예요.


Dwarkesh: 그것이 무엇인지 어떻게 생각해야 할까요? ML 유추는 뭘까요? 그것에 대해 몇 가지 흥미로운 점이 있어요.


Dwarkesh: 표본이 적게 들죠. 더 비지도 학습적(unsupervised)이죠. 운전을 배우는 십대는 미리 구축된, 검증 가능한 보상을 얻는 게 아니잖아요.


Dwarkesh: 그건 기계 및 환경과의 상호 작용에서 나와요. 훨씬 적은 표본이 필요하죠. 더 비지도 학습적이에요. 더 견고해 보이나요?


Ilya: 훨씬 더 견고해요. 인간의 견고성은 정말 놀랍죠.


Dwarkesh: 왜 이 모든 일들이 동시에 일어나고 있는지에 대해 생각하는 통일된 방식이 있습니까? 이것과 같은 것을 실현할 수 있는 ML 유추는 무엇일까요?


Ilya: 당신이 물어본 것 중 하나는, 십대 운전자가 외부 선생님 없이 어떻게 스스로를 교정하고 경험으로부터 배울 수 있는가 하는 거예요.


Ilya: 답은 그들에게 가치 함수가 있다는 거죠. 그들은 사람들에게서도 매우 견고한 일반적인 감각을 가지고 있어요.


Ilya: 인간의 가치 함수가 무엇이든 간에, 중독에 관한 몇 가지 예외를 제외하고는, 그것은 실제로 매우, 매우 견고해요.


Ilya: 따라서 운전을 배우는 십대와 같은 경우, 그들은 운전을 시작하고, 그들이 얼마나 운전을 못하는지, 얼마나 자신이 없는지에 대한 감각을 즉시 가져요.


Ilya: 그리고 나서 그들은 "좋아"라고 봅니다. 그리고 물론, 모든 십대의 학습 속도는 매우 빠르죠. 10시간 후에는 운전을 할 준비가 된 거예요.


Dwarkesh: 인간에게는 어떤 해결책이 있는 것 같지만, 저는 그들이 그걸 어떻게 하는 건지, 그리고 왜 그렇게 어려운지 궁금해요. 이와 같은 것을 가능하게 하려면 모델 훈련 방식을 어떻게 재개념화해야 할까요?


Ilya: 그건 물어볼 훌륭한 질문이고, 제가 많은 의견을 가진 질문이에요. 하지만 불행히도, 우리는 모든 머신러닝 아이디어가 자유롭게 논의되는 건 아닌 세상에 살고 있고, 이게 그 중 하나예요.


Ilya: 아마도 그걸 하는 방법이 있을 거예요. 저는 그게 가능하다고 생각해요. 사람들이 그렇다는 사실 자체가 그게 가능하다는 증거라고 봐요.


Ilya: 하지만 또 다른 장애물이 있을 수도 있어요. 인간의 뉴런이 우리가 생각하는 것보다 더 많은 컴퓨팅을 수행할 가능성이 있다는 거죠.


Ilya: 만약 그게 사실이고, 중요한 역할을 한다면, 상황은 더 어려울 수 있어요.


Ilya: 하지만 그럼에도 불구하고, 저는 그게 제가 의견을 가지고 있지만 상황 때문에 자세히 논의하기 어려운 어떤 머신러닝 원리의 존재를 가리킨다고 생각해요.


Dwarkesh: 아무도 이 팟캐스트를 듣지 않아요, Ilya.



5. 초지능으로 직행하기 (Straight-shotting superintelligence)



Dwarkesh: 궁금해요. 당신이 우리가 연구의 시대로 돌아갔다고 말한다면, 당신은 2012년부터 2020년까지 그곳에 있었죠. 우리가 연구의 시대로 돌아간다면, 이제 분위기는 어떨까요?


Dwarkesh: 예를 들어, AlexNet 이후에도 실험에 사용되는 컴퓨팅 양은 계속 증가했고, 최전선 시스템의 크기는 계속 증가했어요.


Dwarkesh: 이제 이 연구의 시대가 여전히 엄청난 양의 컴퓨팅을 필요로 할까요? 오래된 논문을 다시 읽고 기록 보관소로 돌아가야 할까요?


Dwarkesh: 당신이 Google과 OpenAI, Stanford 같은 곳에 있을 때 연구 분위기가 더 강했나요? 커뮤니티에서 어떤 종류의 일들을 기대해야 할까요?


Ilya: 스케일링 시대의 한 가지 결과는 스케일링이 모든 관심을 빨아들였다는 거예요. 스케일링이 모든 관심을 빨아들였기 때문에, 모두가 똑같은 일을 하기 시작했죠.


Ilya: 우리는 아이디어보다 회사가 훨씬 더 많은 세상에 도달했어요.


Ilya: 실제로, 실리콘 밸리에는 '아이디어는 싸고, 실행이 전부다'라는 말이 있어요. 사람들은 그 말을 많이 하고, 거기엔 진실이 있죠.


Ilya: 하지만 저는 트위터에서 누군가가 "아이디어가 그렇게 싸다면, 왜 아무도 아이디어를 못 내는 거지?"라고 말하는 걸 봤는데, 저는 그것도 사실이라고 생각해요.


Ilya: 연구 발전을 병목 현상 측면에서 생각한다면, 몇 가지 병목이 있어요. 하나는 아이디어이고, 다른 하나는 그걸 실현할 수 있는 능력인데, 컴퓨팅일 수도 있고 엔지니어링일 수도 있죠.


Ilya: 90년대로 돌아가 봅시다. 당시 사람들은 꽤 좋은 아이디어를 가지고 있었고, 훨씬 더 큰 컴퓨터를 가지고 있었다면 아이디어가 가능하다는 걸 보여줄 수 있었을지도 몰라요.


Ilya: 하지만 그들은 그럴 수 없었고, 그래서 아무도 설득하지 못하는 아주 작은 시연만 할 수 있었죠. 그래서 병목은 컴퓨팅이었어요.


Ilya: 그런 다음 스케일링 시대에 컴퓨팅이 많이 증가했어요. 물론, 얼마나 많은 컴퓨팅이 필요한지에 대한 질문이 있지만, 컴퓨팅은 충분히 크죠.


Ilya: 컴퓨팅은 어떤 아이디어를 증명하기 위해 그렇게 많은 컴퓨팅이 필요하다는 게 명확하지 않을 만큼 충분히 커요.


Ilya: 비유를 들자면, AlexNet은 두 개의 GPU로 구축되었어요. 그게 사용된 총 컴퓨팅 양이었죠.


Ilya: Transformer는 8개에서 64개의 GPU로 구축되었어요. 단일 Transformer 논문 실험은 2017년의 64개 GPU보다 많이 사용하지 않았는데, 이건 오늘날 GPU 두 개 정도일 거예요.


Ilya: ResNet도 마찬가지예요. 심지어 o1 추론도 세상에서 가장 컴퓨팅 집약적인 건 아니었다고 주장할 수 있죠.


Ilya: 그러니까 연구를 위해서는 확실히 일정량의 컴퓨팅이 필요하지만, 연구를 위해 역대 절대적으로 가장 많은 컴퓨팅이 필요하다는 건 전혀 명확하지 않아요.


Ilya: 당신이 '만약 절대적으로 최고의 시스템을 구축하고 싶다면 더 많은 컴퓨팅을 갖는 것이 도움이 된다'고 주장할 수도 있고, 저는 그게 사실이라고 생각해요.


Ilya: 특히 모두가 동일한 패러다임 내에 있다면, 컴퓨팅이 큰 차별화 요소 중 하나가 되죠.


Dwarkesh: 저는 당신이 실제로 그곳에 있었기 때문에 역사를 묻는 거예요. 실제로 무슨 일이 일어났는지 잘 모르겠어요.


Dwarkesh: 최소한의 컴퓨팅으로 이러한 아이디어를 개발하는 게 가능했던 것처럼 들려요.


Dwarkesh: 하지만 Transformer가 즉시 유명해진 건 아니었어요. 그게 모두가 시작하고 그 위에 실험하고 구축하기 시작한 것이 된 건, 더 높은 수준의 컴퓨팅에서 검증되었기 때문이죠.


Ilya: 맞아요.


Dwarkesh: 그리고 당신이 SSI에서 50개의 아이디어를 가지고 있다면, 다른 최전선 연구소들이 가지고 있는 종류의 컴퓨팅 없이 어떤 게 다음 Transformer가 될지, 어떤 게 취약할지 어떻게 알 수 있을까요?


Ilya: 거기에 대해 말씀드릴 수 있어요. 간단히 말하면, SSI가 연구를 위해 가진 컴퓨팅 양은 결코 적지 않다는 거예요.


Ilya: SSI가 가진 컴퓨팅 양이 연구를 위한 것이라면 다른 곳과 훨씬 더 비교할 만하다는 걸 간단한 계산으로 설명할 수 있어요. 설명해 드릴게요.


Ilya: SSI는 30억 달러를 모금했는데, 이건 절대적인 의미에서 많은 금액이죠. 하지만 당신은 "다른 회사들은 훨씬 더 많이 모금하고 있어"라고 말할 수도 있어요.


Ilya: 하지만 그들의 컴퓨팅 중 많은 부분이 추론(inference)에 사용돼요. 이 큰 금액들은 추론을 위해 책정된 거죠. 그게 첫 번째예요.


Ilya: 두 번째로, 추론을 수행하는 제품을 가지려면, 큰 엔지니어, 영업사원 팀을 가져야 해요.


Ilya: 많은 연구가 온갖 종류의 제품 관련 기능을 만드는 데 전념해야 하죠.


Ilya: 따라서 실제로 연구에 남아 있는 걸 보면, 그 차이는 훨씬 작아져요.


Ilya: 다른 하나는, 당신이 다른 무언가를 하고 있다면, 그걸 증명하기 위해 절대적으로 최대 규모가 정말 필요할까요? 저는 그건 전혀 사실이 아니라고 생각해요.


Ilya: 저는 우리의 경우, 우리가 하고 있는 일이 정확하다는 걸 우리 스스로와 다른 누구에게든 증명하기에 충분한 컴퓨팅을 가지고 있다고 생각해요.


Dwarkesh: OpenAI 같은 회사들이 실험에만 연간 50억~60억 달러를 지출한다는 공개적인 추정치가 있었어요. 이건 그들이 추론 등에 쓰는 돈과는 별개죠.


Dwarkesh: 그러니까 그들은 당신들이 전체 자금으로 가지고 있는 것보다 1년에 더 많은 돈을 연구 실험에 쓰는 것처럼 보여요.


Ilya: 저는 그게 당신이 그걸로 뭘 하느냐의 문제라고 생각해요. 그들의 경우, 다른 사람들의 경우, 훈련 컴퓨팅에 대한 수요가 훨씬 더 많죠.


Ilya: 훨씬 더 많은 다양한 작업 흐름, 다양한 양식(modality), 그냥 더 많은 것들이 있어요. 그래서 그게 분산되는 거죠.


Dwarkesh: SSI는 어떻게 돈을 벌 계획인가요?


Ilya: 이 질문에 대한 제 대답은 이래요. 지금은 연구에만 집중하고, 그러면 그 답이 스스로 드러날 거예요. 저는 가능한 많은 답들이 있을 거라고 생각해요.


Dwarkesh: SSI의 계획은 여전히 초지능으로 직행하는 것인가요?


Ilya: 어쩌면요. 저는 거기에 장점이 있다고 생각해요. 저는 많은 장점이 있다고 생각하는데, 일상적인 시장 경쟁에 영향을 받지 않는 게 매우 좋기 때문이죠.


Ilya: 하지만 계획을 바꿀 수 있는 두 가지 이유가 있어요. 하나는 현실적인 이유로, 타임라인이 길어진다면 그럴 수 있죠. 그럴 수도 있고요.


Ilya: 두 번째로, 저는 가장 좋고 가장 강력한 AI가 세상에 나와 영향을 미치는 것에 많은 가치가 있다고 생각해요. 저는 이게 의미 있게 가치 있는 일이라고 생각해요.


Dwarkesh: 그렇다면 왜 당신의 기본 계획은 초지능으로 직행하는 것인가요?


Dwarkesh: OpenAI, Anthropic 같은 다른 모든 회사들의 생각은, '봐라, 우리는 대중이 익숙해지고 준비할 수 있는 점점 더 약한 지능을 가지고 있다'는 것과 같잖아요.


Dwarkesh: 초지능을 직접 구축하는 것이 잠재적으로 더 나은 이유는 무엇일까요?


Ilya: 찬반 양론을 제시할게요. 찬성하는 주장은, 사람들이 시장에 있을 때 직면하는 과제 중 하나는 쥐 경주(rat race)에 참여해야 한다는 거예요.


Ilya: 쥐 경주는 당신이 어려운 상충 관계에 노출되게 만들죠.


Ilya: "우리는 이 모든 것들로부터 우리 자신을 격리하고 연구에만 집중하며, 준비가 되었을 때만 나올 것이다"라고 말하는 게 좋죠.


Ilya: 하지만 반론도 유효하고, 그건 상반되는 힘이에요. 반론은 "야, 세상이 강력한 AI를 보는 것이 유용하다. 세상이 강력한 AI를 보는 것이 유용한데, 왜냐하면 그게 당신이 그걸 소통할 수 있는 유일한 방법이기 때문이다"라는 거죠.


Dwarkesh: 글쎄요, 단지 당신이 그 아이디어를 소통할 수 있다는 것만은 아닌 것 같은데요...


Ilya: AI를 소통하는 거예요. 아이디어가 아니라 AI를 소통하는 거죠.


Dwarkesh: "AI를 소통한다"는 건 무슨 의미죠?


Ilya: 당신이 AI에 대한 에세이를 쓴다고 가정해 봐요. 그리고 에세이는 "AI는 이럴 거고, 저럴 거고, 이럴 것이다"라고 말하죠. 당신은 그걸 읽고 "흥미로운 에세이네"라고 말해요.


Ilya: 이제 당신이 AI가 이것도 하고, 저것도 하는 걸 본다고 가정해 봐요. 비교할 수 없죠.


Ilya: 기본적으로 저는 AI가 대중에 공개되는 것에서 큰 이득이 있다고 생각해요. 그리고 그게 우리가 완전히 직행하지 않을 이유가 될 수도 있어요.


Dwarkesh: 저는 그것뿐만 아니라, 그것이 중요한 부분이라고 생각해요. 다른 큰 점은, 저는 인류 공학 및 연구 분야에서 최종 결과물이 안전에 대해 생각하는 것만으로 안전해진 분야를 생각할 수 없다는 거예요.


Dwarkesh: 비행기 추락 사고율이 수십 년 전보다 오늘날 훨씬 낮은 이유는 뭘까요? 수십 년 전보다 Linux에서 버그를 찾기가 훨씬 더 어려운 이유는 뭘까요?


Dwarkesh: 저는 주로 이러한 시스템들이 세상에 배포되었고, 실패를 발견했고, 그 실패가 수정되었으며, 시스템이 더 견고해졌기 때문이라고 생각해요.


Dwarkesh: 저는 AGI와 초인적 지능이 왜 달라야 하는지 확신할 수 없어요. 특히—이 문제에 도달했으면 좋겠는데요—초지능의 해악은 단지 어떤 악의적인 '종이 클립 최적화 도구(malevolent paper clipper)'가 밖에 있다는 것만이 아닌 것처럼 보여요.


Dwarkesh: 하지만 이건 정말 강력한 것이고, 우리는 사람들이 그것과 어떻게 상호 작용할지, 무엇을 할지조차 개념화하는 방법을 몰라요. 점진적으로 접근하는 게 어쩌면 그 영향을 분산시키고 사람들이 대비하도록 돕는 더 나은 방법처럼 보이죠.



6. SSI의 모델은 배포를 통해 학습할 것이다



Ilya: 저는 이 문제에 대해, 심지어 직행 시나리오에서도, 당신은 여전히 점진적인 출시를 할 거라고 생각해요. 그게 제가 상상하는 방식이죠.


Ilya: 점진주의는 어떤 계획의 본질적인 요소가 될 거예요. 단지 문밖으로 나가는 첫 번째 것이 무엇이냐의 문제죠. 그게 첫 번째예요.


Ilya: 두 번째로, 저는 당신이 다른 사람들보다 지속적 학습(continual learning)을 더 많이 옹호해 왔다고 믿고, 저는 이게 실제로 중요하고 옳다고 생각해요. 이유가 있어요.


Ilya: 언어가 사고에 어떻게 영향을 미치는지 보여주는 또 다른 예를 들어줄게요. 이 경우, 모두의 사고방식을 형성한 두 단어가 있을 거예요.


Ilya: 첫 번째 단어: AGI. 두 번째 단어: 사전 훈련. 설명할게요.


Ilya: AGI라는 용어는 왜 존재할까요? 그건 매우 특정한 용어죠. 왜 존재할까요? 이유가 있어요.


Ilya: 제 의견으로는 AGI라는 용어가 존재하는 이유는, 지능의 어떤 최종 상태를 설명하는 중요한 단어이기 때문이라기보다는, 존재했던 다른 용어에 대한 반응이기 때문이에요. 그 용어는 좁은 AI(narrow AI)예요.


Ilya: 예전에 체스 AI, 컴퓨터 게임 AI의 역사를 보면, 모두가 "이 좁은 지능을 봐라. 체스 AI는 이길 수 있지만, 다른 건 아무것도 못 한다. 너무 좁다"고 말했어요.


Ilya: 그래서 이에 대한 반응으로, 일부 사람들은 "이건 안 돼. 너무 좁아. 우리에게 필요한 건 일반 AI(General AI), 즉 모든 걸 할 수 있는 AI다"라고 말했죠. 그 용어가 큰 인기를 얻었어요.


Ilya: 큰 인기를 얻은 두 번째는 사전 훈련, 특히 사전 훈련의 레시피예요.


Ilya: 저는 사람들이 지금 RL을 하는 방식이 어쩌면 사전 훈련의 개념적 틀을 무너뜨리고 있다고 생각해요.


Ilya: 하지만 사전 훈련은 이런 속성이 있었죠. 사전 훈련을 더 많이 하면, 모델은 모든 것을 거의 균일하게 더 잘해요. 일반 AI. 사전 훈련이 AGI를 가져다주죠.


Ilya: 하지만 AGI와 사전 훈련에서 일어난 일은 어떤 의미에서 그들이 목표를 **지나치게 달성(overshot)**했다는 거예요.


Ilya: 당신이 'AGI'라는 용어에 대해, 특히 사전 훈련의 맥락에서 생각한다면, 인간은 AGI가 아니라는 것을 깨달을 거예요.


Ilya: 네, 확실히 기술 기반은 있지만, 인간은 엄청나게 많은 지식이 부족해요. 대신, 우리는 지속적 학습에 의존하죠.


Ilya: 그렇다면, 우리가 성공해서 안전한 초지능을 만든다고 가정해 봅시다. 문제는 '당신이 그걸 어떻게 정의할 것인가?'예요. 지속적 학습 곡선의 어디에 있을까요?


Ilya: 저는 매우 열심히 배우고 싶어 하는 초지능적인 15세 학생을 만들어요. 그들은 아는 게 거의 없어요. 훌륭한 학생, 매우 열심히 배우죠.


Ilya: "가서 프로그래머가 되고, 가서 의사가 되고, 가서 배워라"라고 말해요.


Ilya: 그래서 배포 자체가 완성된 것을 던져주는 것이 아니라, 일종의 학습 시행착오 기간을 포함할 거라고 상상할 수 있어요. 그건 과정이죠.


Dwarkesh: 알겠습니다. 당신이 초지능에 대해 말하는 건 경제의 모든 직업을 수행하는 방법을 아는 완성된 마음이 아니라는 거군요.


Dwarkesh: 왜냐하면 원래 OpenAI 헌장 같은 곳에서는 AGI를 '인간이 할 수 있는 모든 단일 직업을 할 수 있는 능력'으로 정의하니까요.


Dwarkesh: 당신은 대신 모든 단일 직업을 배울 수 있는 마음을 제안하는 것이고, 그것이 초지능이라는 거군요.


Ilya: 맞습니다.


Dwarkesh: 하지만 일단 당신이 학습 알고리즘을 가지면, 그건 인간 노동자가 조직에 합류하는 것과 같은 방식으로 세상에 배포되겠죠.


Ilya: 정확해요.


Dwarkesh: 그럼 다음 두 가지 중 하나가 일어날 것 같아요. 어쩌면 둘 다 아닐 수도 있고요.


Dwarkesh: 하나는, 이 초효율적인 학습 알고리즘이 ML 연구라는 작업에서 초인적이 되고, 아마 당신보다 훨씬 나아진다는 거예요. 그 결과 알고리즘 자체가 점점 더 초인적이 되죠.


Dwarkesh: 다른 하나는, 설령 그게 아니더라도, 당신이 단일 모델—이것이 명시적으로 당신의 비전입니다—을 가지고 있다면, 그 모델의 인스턴스들이 경제를 통해 배포되어 다른 직업을 수행하고, 그걸 배우고, 계속 학습하며, 인간이 습득할 수 있는 모든 기술을 습득하지만, 그 모든 걸 동시에 습득하고 학습을 통합한다는 거예요.


Dwarkesh: 당신은 기본적으로 소프트웨어의 재귀적 자기 개선 없이도 기능적으로 초지능이 되는 모델을 가지게 되는 거죠. 왜냐하면 당신은 이제 경제의 모든 직업을 할 수 있는 하나의 모델을 가지고 있고, 인간은 우리의 마음을 그렇게 통합할 수 없으니까요.


Dwarkesh: 따라서 광범위한 배포로 인한 어떤 종류의 **지능 폭발(intelligence explosion)**을 예상하십니까?


Ilya: 저는 우리가 급속한 경제 성장을 겪을 가능성이 있다고 생각해요.


Ilya: 광범위한 배포에는 상충되는 두 가지 주장을 할 수 있어요. 하나는, 일단 당신이 일을 빨리 배우는 AI를 가지고 있고, 많은 AI를 가지고 있는 지점에 도달하면, 그걸 막을 규제가 없다면—물론 규제가 있을 수도 있지만—그걸 경제에 배치하려는 강력한 힘이 있을 거라는 거예요.


Ilya: 하지만 한동안 매우 빠른 경제 성장의 아이디어는, 저는 그게 매우 가능하다고 생각해요. 질문은 그게 얼마나 빠를 것인가 하는 거죠.


Ilya: 저는 그걸 알기 어렵다고 생각해요. 한편으로는 이 매우 효율적인 작업자가 있지만, 다른 한편으로는 세상은 정말 크고 많은 것들이 있으며, 그 많은 것들이 다른 속도로 움직이니까요.


Ilya: 하지만 또 다른 한편으로는, 이제 AI가... 그래서 저는 매우 빠른 경제 성장이 가능하다고 생각해요.


Ilya: 우리는 다른 규칙을 가진 다른 나라들처럼 모든 종류의 것들을 볼 것이고, 더 우호적인 규칙을 가진 나라들의 경제 성장이 더 빠르겠죠. 예측하기 어렵습니다.



7. 정렬 (Alignment)



Dwarkesh: 저에게는 이게 매우 위태로운 상황처럼 보여요. 궁극적으로, 당신이 학습에 있어서 인간만큼 뛰어나지만, 인간이 통합할 수 없는 방식으로 그들의 뇌를—다른 인스턴스들을—통합할 수 있는 무언가를 가지고 있다면, 이게 물리적으로 가능해야 한다는 것을 알죠.


Dwarkesh: 인간은 가능하고, 디지털 컴퓨터는 가능해요. 당신은 이 두 가지를 결합하여 이 것을 생산하기만 하면 되죠.


Dwarkesh: 게다가 이런 종류의 것이 극도로 강력해 보여요. 경제 성장은 그걸 표현하는 한 가지 방식일 뿐이죠. 다이슨 스피어(Dyson sphere)는 엄청난 경제 성장이에요.


Dwarkesh: 하지만 그걸 표현하는 또 다른 방식은, 당신이 잠재적으로 매우 짧은 기간 안에... 당신은 SSI에서 사람들을 고용하고, 6개월 안에 그들은 순 생산적이죠.


Dwarkesh: 인간은 정말 빨리 배워요. 그리고 이 시스템은 매우 빨리 점점 더 똑똑해지고 있어요. 당신은 그것이 잘 되도록 하는 방법에 대해 어떻게 생각해요? SSI가 그걸 잘할 수 있도록 포지셔닝된 이유는 뭐죠?


Dwarkesh: 기본적으로 제가 묻고 싶은 건 SSI의 계획이 뭐냐는 거예요.


Ilya: 제 사고방식이 변화하고 있는 방식 중 하나는, 저는 이제 AI가 점진적으로 그리고 미리 배포되는 것에 더 많은 중요성을 둔다는 거예요.


Ilya: AI에 대해 매우 어려운 점 중 하나는, 우리가 아직 존재하지 않는 시스템에 대해 이야기하고 있으며, 그걸 상상하기 어렵다는 거죠.


Ilya: 실제로 일어나고 있는 일 중 하나는, AGI를 느끼기가 매우 어렵다는 거예요. AGI를 느끼기가 매우 어렵죠.


Ilya: 우리는 그것에 대해 이야기할 수 있지만, 당신이 늙고 허약할 때 나이 드는 게 어떨지에 대한 대화를 상상해 보세요.


Ilya: 당신은 대화를 할 수 있고, 상상하려고 노력할 수 있지만, 그냥 어렵고, 당신은 현실로 돌아오죠. 저는 AGI와 그 미래의 힘에 관한 많은 문제들이 그걸 상상하기가 매우 어렵다는 사실에서 비롯된다고 생각해요.


Ilya: 미래의 AI는 다를 거예요. 강력할 거예요. 실제로, AI와 AGI의 문제 전체는 뭐죠? 문제 전체는 **힘(power)**이에요. 문제 전체는 힘이죠.


Ilya: 힘이 정말 클 때, 무슨 일이 일어날까요? 지난 한 해 동안 제가 생각을 바꾼 방식 중 하나는—그리고 그 생각의 변화는, 좀 조심스럽게 말하자면, 우리 회사의 계획으로 역전파될 수도 있어요—그게 상상하기 어렵다면, 뭘 해야 할까요?


Ilya: 그걸 보여줘야 해요. 당신은 그걸 보여줘야 해요.


Ilya: 저는 AI에 종사하는 대부분의 사람들도 그걸 상상할 수 없다고 주장해요. 왜냐하면 그게 사람들이 일상적으로 보는 것과 너무 다르니까요.


Ilya: 제가 예측하는 일이 있어요. 이건 예측이에요. 저는 AI가 더 강력해짐에 따라, 사람들이 행동을 바꿀 거라고 주장해요.


Ilya: 우리는 지금 일어나고 있지 않은 모든 종류의 전례 없는 일들을 보게 될 거예요. 몇 가지 예를 들어줄게요.


Ilya: 저는 좋든 나쁘든, 최전선 회사들이 정부와 마찬가지로 일어나는 일에 매우 중요한 역할을 할 거라고 생각해요.


Ilya: 당신이 보게 될 것이라고 제가 생각하는 종류의 일들은, 그 시작을 보고 있는 것인데, 그건 AI 안전에 대해 협력하기 시작하는 치열한 경쟁자 회사들이에요.


Ilya: 당신은 OpenAI와 Anthropic이 첫 번째 작은 발걸음을 내딛는 걸 보았을 수도 있지만, 그건 존재하지 않았어요. 그건 제가 약 3년 전에 제 강연 중 하나에서 그런 일이 일어날 거라고 예측했던 거예요.


Ilya: 저는 또한 AI가 계속해서 더 강력해지고, 더 눈에 띄게 강력해짐에 따라, 정부와 대중으로부터 무언가를 해야 한다는 열망도 있을 거라고 주장해요.


Ilya: 저는 AI를 보여주는 것이 매우 중요한 힘이라고 생각해요. 그게 첫 번째죠.


Ilya: 두 번째로, 좋아요, AI가 구축되고 있어요. 뭘 해야 할까요?


Ilya: 제가 주장하는 한 가지 일은, 현재 AI에 종사하는 사람들은, AI가 실수 때문에 강력하다고 느끼지 못한다는 거예요.


Ilya: 저는 어느 시점에는 AI가 실제로 강력하다고 느껴지기 시작할 것이라고 생각해요. 저는 그런 일이 일어날 때, 모든 AI 회사들이 안전에 접근하는 방식에 큰 변화를 보게 될 거라고 생각해요. 그들은 훨씬 더 편집증적이 될 거예요.


Ilya: 저는 이게 우리가 보게 될 예측으로 말하는 거예요. 제가 맞는지 볼 거예요. 하지만 저는 AI가 더 강력해지는 걸 볼 것이기 때문에 이런 일이 일어날 거라고 생각해요.


Ilya: 지금 일어나고 있는 모든 일은, 사람들이 오늘의 AI를 보고 미래의 AI를 상상하기 어렵기 때문이라고 주장해요.


Ilya: 일어나야 할 세 번째 일이 있어요. 저는 SSI의 관점에서뿐만 아니라 더 넓은 관점에서 그걸 이야기하고 있어요. 당신이 우리 회사에 대해 물었으니까요.


Ilya: 질문은, 회사들이 뭘 구축하기를 열망해야 하는가 하는 거예요. 그들은 뭘 구축하기를 열망해야 할까요?


Ilya: 모두가 갇혀 있었던 하나의 큰 아이디어가 있었는데, 그건 **자기 개선 AI(self-improving AI)**예요. 왜 그런 일이 일어났을까요? 회사보다 아이디어가 적기 때문이죠.


Ilya: 하지만 저는 구축하기에 더 나은 것이 있다고 주장하며, 모든 사람이 그걸 원할 거라고 생각해요.


Ilya: 그건 특히 **지각 있는 생명체(sentient life)**를 돌보는 데 강력하게 정렬된 AI예요.


Ilya: 저는 특히, AI 자체가 지각이 있을 것이기 때문에, 인간의 생명만을 돌보는 AI보다 지각 있는 생명체를 돌보는 AI를 구축하는 게 더 쉬울 수 있다는 주장이 있다고 생각해요.


Ilya: 그리고 당신이 거울 뉴런(mirror neurons)과 동물에 대한 인간의 공감 같은 것들에 대해 생각할 때, 그게 충분히 크지 않다고 주장할 수도 있지만, 그건 존재해요.


Ilya: 저는 그게 우리가 스스로를 모델링하는 데 사용하는 것과 동일한 회로로 다른 사람들을 모델링하기 때문에 발생하는 **창발적 속성(emergent property)**이라고 생각해요. 그게 할 수 있는 가장 효율적인 일이기 때문이죠.


Dwarkesh: 당신이 AI에게 지각 있는 존재들을 돌보도록 만든다 하더라도—그리고 그게 당신이 정렬을 해결했다면 시도해야 할 일인지 저에게는 명확하지 않습니다—대부분의 지각 있는 존재들은 여전히 AI일 거예요.


Dwarkesh: 결국 수조, 나중에는 수천조의 AI가 있을 거예요. 인간은 지각 있는 존재들의 아주 작은 부분일 거고요.


Dwarkesh: 따라서 목표가 이 미래 문명에 대한 어떤 종류의 인간 통제라면, 이것이 최선의 기준인지는 저에게 명확하지 않아요.


Ilya: 맞아요. 그게 최선의 기준이 아닐 수도 있죠. 저는 두 가지를 말할게요. 첫째, 지각 있는 생명체에 대한 돌봄, 저는 거기에 장점이 있다고 생각해요. 고려되어야 하죠.


Ilya: 저는 회사들이 이런 상황에 있을 때 사용할 수 있는 아이디어의 짧은 목록 같은 게 있다면 도움이 될 거라고 생각해요. 그게 두 번째예요.


Ilya: 세 번째로, 가장 강력한 초지능의 힘이 어떤 식으로든 제한될 수 있다면 정말로 실질적으로 도움이 될 거라고 생각해요. 왜냐하면 그게 이러한 우려들 중 많은 부분을 다룰 테니까요.


Ilya: 그걸 하는 방법은 확실하지 않지만, 저는 정말, 정말 강력한 시스템에 대해 이야기할 때 그게 실질적으로 도움이 될 거라고 생각해요.


Dwarkesh: 정렬 논의를 계속하기 전에, 거기에 대해 더 깊이 알고 싶어요. 꼭대기에 얼마나 많은 공간이 있나요? 초지능에 대해 어떻게 생각하세요?


Dwarkesh: 이 학습 효율성 아이디어를 사용하면, 아마도 그건 단지 새로운 기술이나 지식을 학습하는 데 극도로 빠를까요? 단지 더 큰 전략 풀을 가지고 있을까요?


Dwarkesh: 중심에 더 강력하거나 더 큰 단일 '그것'이 있나요? 만약 그렇다면, 이게 나머지 인류 문명과 비교해서 신과 같을 것이라고 상상하세요, 아니면 단지 또 다른 에이전트, 또는 에이전트들의 또 다른 클러스터처럼 느껴질까요?


Ilya: 이건 사람들마다 직관이 다른 영역이에요. 저는 그게 확실히 매우 강력할 거라고 생각해요.


Ilya: 제가 생각하기에 가장 가능성이 높은 건, 이러한 AI들이 여러 개가 거의 동시에 생성될 거라는 거예요.


Ilya: 저는 클러스터가 충분히 크다면—말 그대로 대륙 크기라면—그건 정말 강력할 수 있다고 생각해요.


Ilya: 만약 당신이 말 그대로 대륙 크기의 클러스터를 가지고 있다면, 그 AI들은 매우 강력할 수 있죠.


Ilya: 제가 당신에게 말할 수 있는 건, 당신이 극도로 강력한 AI, 진정으로 극적으로 강력한 AI에 대해 이야기하고 있다면, 그것들이 어떤 식으로든 억제되거나 어떤 종류의 합의 같은 게 있다면 좋을 거라는 거예요.


Ilya: 초지능의 우려는 뭘까요? 우려를 설명하는 한 가지 방법은 뭘까요?


Ilya: 당신이 충분히 강력한 시스템, 정말로 충분히 강력한 시스템을 상상한다면—그리고 당신은 '지각 있는 생명체를 매우 외골수적인 방식으로 돌보는 것'과 같이 분별력 있는 무언가를 해야 한다고 말할 수 있어요—우리는 그 결과를 좋아하지 않을 수도 있어요. 그게 정말 그것이죠.


Ilya: 그나저나, 어쩌면 답은 당신이 일반적인 의미의 RL 에이전트를 구축하지 않는다는 것일 수도 있어요. 제가 몇 가지를 지적할게요.


Ilya: 저는 인간은 반(半) RL 에이전트라고 생각해요. 우리는 보상을 추구하고, 그런 다음 감정 또는 무엇이든 우리를 그 보상에 지치게 하고 우리는 다른 보상을 추구하죠.


Ilya: 시장은 매우 근시안적인 종류의 에이전트예요. 진화도 마찬가지예요. 진화는 어떤 면에서는 매우 지능적이지만, 다른 면에서는 매우 멍청하죠.


Ilya: 정부는 세 부분 사이의 끝없는 싸움으로 설계되었고, 이건 효과가 있어요. 그래서 저는 이와 같은 것들이라고 생각해요.


Ilya: 이 논의를 어렵게 만드는 또 다른 건, 우리는 존재하지 않고, 우리가 어떻게 구축해야 할지 모르는 시스템에 대해 이야기하고 있다는 거예요. 그게 다른 점이고, 그게 실제로 제 믿음이에요.


Ilya: 저는 사람들이 지금 하고 있는 일이 어느 정도 거리를 갈 것이고, 그런 다음 시들해질 거라고 생각해요. 계속 개선되겠지만, 또한 '그것'은 아닐 거예요.


Ilya: 우리가 어떻게 구축해야 할지 모르는 '그것'은, 그리고 많은 것이 신뢰할 수 있는 일반화를 이해하는 것에 달려 있죠.


Ilya: 제가 또 다른 것을 말할게요. 정렬을 어렵게 만드는 원인 중 하나는 인간의 가치를 학습하는 당신의 능력이 취약하다는 것이라고 말할 수 있어요.


Ilya: 그런 다음 그것들을 최적화하는 당신의 능력은 취약하죠. 당신은 실제로 그것들을 최적화하는 방법을 배우게 될 거예요.


Ilya: 그리고 당신은 "이것들이 모두 신뢰할 수 없는 일반화의 사례가 아닌가?"라고 말할 수 없나요? 인간은 왜 그렇게 훨씬 더 잘 일반화하는 것처럼 보일까요? 일반화가 훨씬 더 좋다면 어떻게 될까요?


Ilya: 이 경우에 무슨 일이 일어날까요? 하지만 그러한 질문들은 지금 당장은 여전히 답할 수 없어요.



8. AI의 발전과 연구 취향



Dwarkesh: AI가 잘 진행되는 것이 어떤 모습인지 어떻게 생각해야 할까요?


Dwarkesh: 당신은 AI가 어떻게 진화할지 설명했어요. 우리는 이러한 종류의 지속적 학습 에이전트를 가질 거예요. AI는 매우 강력할 거예요. 어쩌면 많은 다른 AI가 있을 수도 있죠.


Dwarkesh: 많은 대륙 크기의 컴퓨팅 지능이 돌아다니는 것에 대해 어떻게 생각하세요? 그것이 얼마나 위험할까요?


Dwarkesh: 우리는 그것을 덜 위험하게 만들려면 어떻게 해야 할까요? 그리고 잘못 정렬된 AI와 나쁜 행위자들이 밖에 있을 수 있는 균형을 보호하는 방식으로 그것을 어떻게 해야 할까요?


Ilya: 여기에 제가 **'지각 있는 생명체를 돌보는 AI'**를 좋아했던 한 가지 이유가 있어요. 그것이 좋든 나쁘든 논쟁할 수 있죠.


Ilya: 하지만 이 극적인 시스템들 중 첫 번째 N개가 인류를 돌보거나 사랑하거나 무언가, 지각 있는 생명체를 돌본다면, 분명히 이것도 달성되어야 해요. 이건 달성되어야 하죠.


Ilya: 따라서 이것이 그 시스템들 중 첫 번째 N개에 의해 달성된다면, 저는 그것이 잘 진행되는 것을 볼 수 있어요. 적어도 꽤 오랫동안은요.


Ilya: 그런 다음 장기적으로 무슨 일이 일어날지에 대한 질문이 있어요. 어떻게 장기적인 균형을 달성할까요? 저는 거기에 대한 답도 있다고 생각해요. 저는 이 답을 좋아하지는 않지만, 그것은 고려될 필요가 있어요.


Ilya: 장기적으로, 당신이 강력한 AI가 존재하는 세상을 가지고 있다면, 단기적으로는 보편적인 고소득을 가질 수 있다고 말할 수 있어요. 당신은 보편적인 고소득을 가지고 있고 우리는 모두 잘 지내고 있죠.


Ilya: 하지만 불교도들은 무엇이라고 말하나요? "변화만이 유일한 상수이다." 상황은 변하죠.


Ilya: 어떤 종류의 정부, 정치 구조 같은 것이 있고, 그것은 유효 기간이 있기 때문에 변해요. 어떤 새로운 정부 같은 것이 나타나서 기능하고, 그런 다음 얼마 후에 기능하기를 멈추죠. 그건 우리가 항상 일어나는 것을 보는 거예요.


Ilya: 따라서 장기적인 균형을 위해, 한 가지 접근 방식은 '어쩌면 모든 사람이 그들의 명령을 수행할 AI를 가질 것이고, 그것은 좋다'고 말할 수 있다는 거예요.


Ilya: 만약 그것이 무기한 유지될 수 있다면, 그건 사실이죠. 하지만 그것의 단점은, AI가 가서 그 사람을 위해 돈을 벌고, 정치 영역에서 그들의 필요를 옹호하고, 어쩌면 작은 보고서를 써서 "내가 한 일은 이것이고, 상황은 이렇다"라고 말하고, 그 사람이 "훌륭해, 계속해"라고 말한다는 거예요.


Ilya: 하지만 그 사람은 더 이상 참가자가 아니죠. 그러면 당신은 그것이 위태로운 상황이라고 말할 수 있어요.


Ilya: 저는 이 해결책을 좋아하지 않는다고 서두에 말할게요. 하지만 그건 해결책이에요.


Ilya: 해결책은 사람들이 어떤 종류의 Neuralink++와 함께 **부분적으로 AI(part-AI)**가 되는 거예요.


Ilya: 왜냐하면 그 결과로 일어날 일은, 이제 AI가 무언가를 이해하고, 우리도 그걸 이해한다는 거예요. 이제 이해가 도매로 전달되니까요.


Ilya: 그래서 이제 AI가 어떤 상황에 있다면, 당신도 그 상황에 완전히 참여하는 거예요. 저는 이것이 균형에 대한 답이라고 생각해요.


Dwarkesh: 수백만 년—또는 많은 경우 수십억 년—전에 완전히 다른 환경에서 개발된 감정이 여전히 우리의 행동을 그렇게 강력하게 안내하고 있다는 사실이 정렬 성공의 예인지 궁금해요.


Dwarkesh: 제가 의미하는 바를 설명하자면—저는 그걸 가치 함수라고 불러야 할지 보상 함수라고 불러야 할지 모르겠어요—뇌간(brainstem)에는 '더 성공적인 사람과 짝짓기하라'고 말하는 지침이 있어요.


Dwarkesh: 대뇌 피질(cortex)은 현대의 맥락에서 성공이 무엇을 의미하는지 이해하는 부분이죠.


Dwarkesh: 하지만 뇌간은 대뇌 피질을 정렬하고 '당신이 성공을 어떻게 인식하든—그리고 나는 그게 뭔지 이해할 만큼 똑똑하지 않다 하더라도—당신은 여전히 이 지침을 추구할 것이다'라고 말할 수 있어요.


Ilya: 저는 더 일반적인 요점이 있다고 생각해요. 저는 진화가 고수준의 욕망을 어떻게 인코딩하는지 실제로 매우 신비롭다고 생각해요.


Ilya: 냄새가 좋은 음식에 대한 욕망을 진화가 어떻게 부여하는지 이해하는 건 꽤 쉽죠. 냄새는 화학 물질이니까, 단지 그 화학 물질을 추구하는 거예요. 진화가 그 일을 하는 걸 상상하기는 매우 쉬워요.


Ilya: 하지만 진화는 또한 우리에게 이 모든 사회적 욕망을 부여했어요. 우리는 사회에 의해 긍정적으로 보여지는 것에 정말로 신경을 쓰죠. 우리는 좋은 평판을 유지하는 것에 신경을 써요.


Ilya: 우리가 가진 이 모든 사회적 직관들은 내재되어 있다고 저는 강하게 느껴요. 진화가 그걸 어떻게 했는지 모르겠어요. 왜냐하면 그건 뇌에서 표현되는 고수준 개념이니까요.


Ilya: 당신이 어떤 사회적인 것에 신경 쓴다고 가정해 봐요. 그건 냄새와 같은 저수준 신호가 아니죠. 그건 센서가 있는 무언가가 아니에요.


Ilya: 뇌는 사회적으로 무슨 일이 일어나고 있는지 이해하기 위해 많은 정보 조각을 모으기 위해 많은 처리를 해야 하죠.


Ilya: 어떻게든 진화는 "이것이 당신이 신경 써야 할 것이다"라고 말했어요. 그걸 어떻게 했을까요?


Ilya: 그건 또한 빠르게 해냈어요. 우리가 신경 쓰는 이 모든 정교한 사회적인 것들은 꽤 최근에 진화했다고 저는 생각해요.


Ilya: 진화는 이 고수준의 욕망을 하드 코딩하는 데 쉬운 시간을 가졌어요. 그게 어떻게 이루어졌는지에 대한 좋은 가설을 저는 알지 못해요. 제가 생각해 보았던 몇 가지 아이디어가 있었지만, 그 중 어느 것도 만족스럽지 않아요.


Dwarkesh: 특히 인상적인 건, 당신이 평생 동안 배운 욕망은 당신의 뇌가 지능적이기 때문에 말이 된다는 거예요. 당신이 지능적인 욕망을 배울 수 있다는 건 말이 되죠.


Dwarkesh: 어쩌면 이건 당신의 요점이 아닐 수도 있지만, 그걸 이해하는 한 가지 방식은 욕망이 게놈에 내장되어 있다는 거예요. 그리고 게놈은 지능적이지 않죠. 하지만 당신은 어떻게든 이 특징을 설명할 수 있어요. 당신이 그 특징을 어떻게 정의할지조차 명확하지 않으며, 당신은 그걸 유전자에 내장할 수 있어요.


Ilya: 본질적으로, 아니면 다르게 표현할게요. 당신이 게놈이 사용할 수 있는 도구들에 대해 생각한다면, 그건 "좋아, 여기에 뇌를 구축하는 레시피가 있다"고 말해요.


Ilya: 당신은 "여기에 도파민 뉴런을 냄새 센서에 연결하는 레시피가 있다"고 말할 수 있어요. 그리고 냄새가 어떤 종류의 좋은 냄새라면, 당신은 그걸 먹고 싶어 하죠.


Ilya: 저는 게놈이 그 일을 하는 걸 상상할 수 있어요. 저는 게놈이 '당신은 당신의 전체 뇌, 당신의 뇌의 큰 덩어리가 수행하는 어떤 복잡한 계산에 신경 써야 한다'고 말하는 걸 상상하기가 더 어렵다고 주장하는 거예요. 그게 제가 주장하는 전부죠.


Ilya: 그게 어떻게 될 수 있는지에 대한 추측을 말씀드릴게요. 제가 추측을 제시하고, 왜 그 추측이 아마도 틀렸는지 설명할게요.


Ilya: 뇌에는 뇌 영역이 있어요. 우리는 대뇌 피질(cortex)을 가지고 있죠. 그건 이 모든 뇌 영역을 가지고 있어요. 대뇌 피질은 균일하지만, 대뇌 피질의 뇌 영역과 뉴런들은 대부분 그들의 이웃들에게 이야기해요.


Ilya: 그게 당신이 뇌 영역을 얻는 이유를 설명하죠. 왜냐하면 당신이 어떤 종류의 음성 처리를 하려면, 음성을 처리하는 모든 뉴런들이 서로 이야기해야 하거든요. 그리고 뉴런들은 대부분 근처 이웃들에게만 이야기할 수 있기 때문에, 그건 영역이어야 하죠.


Ilya: 모든 영역은 대부분 사람마다 같은 위치에 있어요. 그래서 어쩌면 진화는 말 그대로 뇌의 한 위치를 하드 코딩했을 수도 있어요.


Ilya: 그래서 "뇌의 GPS 좌표가 이러이러할 때, 그게 활성화되면, 그게 당신이 신경 써야 할 것이다"라고 말하는 거죠. 어쩌면 그게 진화가 했던 일일 수도 있어요. 왜냐하면 그건 진화의 툴킷 안에 있을 테니까요.


Dwarkesh: 네, 하지만 예를 들어, 선천적으로 눈이 먼 사람들은 그들의 대뇌 피질 영역이 다른 감각에 의해 채택되는 예들이 있어요.


Dwarkesh: 저는 전혀 모르지만, 시각 신호를 필요로 하는 욕망이나 보상 함수가 그들의 대뇌 피질의 다른 영역이 채택된 사람들에게 더 이상 작동하지 않는다면 놀랄 거예요.


Dwarkesh: 예를 들어, 당신이 더 이상 시각을 가지고 있지 않다면, 당신은 여전히 '내 주변 사람들이 나를 좋아했으면 좋겠다' 같은 감각을 느낄 수 있나요? 보통 시각적 신호도 있잖아요.


Ilya: 저는 거기에 전적으로 동의해요. 저는 이 이론에 대한 훨씬 더 강력한 반론이 있다고 생각해요.


Ilya: 어린 시절에 뇌의 절반이 제거된 사람들이 있어요. 그리고 그들은 여전히 모든 뇌 영역을 가지고 있죠. 하지만 그 모든 게 어떻게든 단 하나의 반구로 이동해요.


Ilya: 이는 뇌 영역, 그들의 위치가 고정되어 있지 않다는 걸 시사하며, 따라서 그 이론은 사실이 아니죠.


Ilya: 그게 사실이었다면 멋있었겠지만, 사실이 아니에요. 그래서 저는 그게 미스터리라고 생각해요. 하지만 흥미로운 미스터리죠.


Ilya: 사실은 진화가 어떻게든 우리에게 매우, 매우 신뢰할 수 있게 사회적인 것에 신경 쓰도록 부여할 수 있었다는 거예요.


Ilya: 온갖 종류의 이상한 정신적 상태와 결핍, 감정적 문제를 가진 사람들조차도 이걸 신경 쓰는 경향이 있어요.



9. SSI의 전략과 연구 취향



Dwarkesh: SSI는 다르게 무엇을 할 계획인가요? 아마도 당신은 이 시기가 왔을 때 최전선 회사들 중 하나가 되는 게 계획이겠죠.


Dwarkesh: 아마도 당신은 '다른 회사들과 달리 안전하게 이걸 수행할 수 있는 접근 방식이 있다'고 생각했기 때문에 SSI를 시작했을 거예요. 그 차이점은 뭐죠?


Ilya: 제가 그걸 설명하는 방식은, 제가 유망하다고 생각하는 몇 가지 아이디어가 있고, 저는 그것들이 정말로 유망한지 아닌지 조사하고 싶다는 거예요. 정말 간단하죠. 그건 시도예요.


Ilya: 만약 그 아이디어들—우리가 일반화에 대해 이해하는 것에 대해 논의했던 이 아이디어들—이 옳다는 것으로 판명된다면, 저는 우리가 가치 있는 무언가를 가질 거라고 생각해요.


Ilya: 그게 옳다고 판명될까요? 우리는 연구를 하고 있어요. 우리는 전적으로 **'연구의 시대'**의 회사죠. 우리는 진전을 이루고 있어요.


Ilya: 우리는 실제로 지난 한 해 동안 꽤 좋은 진전을 이루었지만, 더 많은 연구를 계속해야 해요. 저는 그걸 목소리이자 참여자가 되려는 시도로 봐요.


Dwarkesh: 당신의 공동 설립자이자 이전 CEO가 최근 Meta로 떠났는데, 사람들은 "만약 많은 돌파구가 만들어지고 있었다면, 그건 일어나지 않았을 가능성이 높다"고 물었어요. 어떻게 생각하세요?


Ilya: 이 문제에 대해, 저는 아마 잊으셨을 몇 가지 사실을 단순히 상기시켜 드릴게요. 저는 이 사실들이 상황을 설명하는 맥락을 제공한다고 생각해요.


Ilya: 맥락은 우리가 320억 달러의 가치로 자금을 모으고 있었고, Meta가 들어와서 우리를 인수하겠다고 제안했지만, 저는 거절했다는 거예요. 하지만 저의 이전 공동 설립자는 어떤 의미에서는 승낙했죠.


Ilya: 그 결과, 그는 또한 많은 단기 유동성을 누릴 수 있었고, 그는 SSI에서 Meta에 합류한 유일한 사람이었어요.


Dwarkesh: SSI의 계획은 당신이 초인적 지능을 가지는 이 매우 중요한 시기에 최전선에 서 있는 회사가 되는 것처럼 들려요.


Dwarkesh: 당신은 초인적 지능이 잘 진행되도록 하는 방법에 대한 이러한 아이디어를 가지고 있죠. 하지만 다른 회사들도 그들만의 아이디어를 시도할 거예요.


Dwarkesh: SSI의 초지능이 잘 진행되도록 하는 접근 방식을 구별하는 주요 요소는 뭔가요?


Ilya: SSI를 구별하는 주요 요소는 기술적 접근 방식이에요. 우리는 가치 있다고 생각하고 추구하고 있는 다른 기술적 접근 방식을 가지고 있죠.


Ilya: 저는 결국 전략의 수렴이 있을 거라고 주장해요. 저는 AI가 더 강력해짐에 따라, 전략이 무엇이어야 하는지가 모두에게 다소 명확해질 어느 시점에서 전략의 수렴이 있을 거라고 생각해요.


Ilya: 그건 '당신은 서로 이야기할 방법을 찾아야 하고, 당신의 첫 번째 실제 초지능 AI가 정렬되고 어떻게든 지각 있는 생명체, 사람들, 민주적인 것들 중 하나, 또는 그 조합을 돌보기를 원한다'와 같은 것일 거예요.


Ilya: 저는 이게 모든 사람이 노력해야 할 조건이라고 생각해요. 그게 SSI가 노력하는 거죠.


Ilya: 저는 이제는 아니더라도, 다른 모든 회사들이 그들이 똑같은 것을 향해 노력하고 있다는 걸 깨달을 거라고 생각해요. 두고 볼 일이죠.


Ilya: 저는 AI가 더 강력해짐에 따라 세상이 진정으로 변할 거라고 생각해요. 상황이 정말 다를 거고, 사람들은 정말 다르게 행동할 거예요.


Dwarkesh: 예측에 대해 말하자면, 당신이 설명하는 이 시스템, 즉 인간만큼 잘 학습하고 결과적으로 초인적이 될 수 있는 시스템에 대한 당신의 예측은 뭔가요?


Ilya: 5년에서 20년 사이라고 생각해요.


Dwarkesh: 5년에서 20년이요?


Ilya: 네.


Dwarkesh: 당신이 세상이 펼쳐지는 것을 어떻게 볼지 전개해 보고 싶어요. 마치 '우리가 몇 년 더 보내고 다른 회사들은 현재의 접근 방식을 계속하고 그것이 정체된다'는 것과 같아요.


Dwarkesh: 여기서 **'정체된다'**는 것은 그들이 수천억 달러 미만의 수익을 얻는다는 걸 의미하나요? 정체된다는 것이 무엇을 의미한다고 생각하세요?


Ilya: 저는 정체된다는 것이... 모든 다른 회사들 사이에서 매우 유사하게 보일 거라고 생각해요. 그럴 수도 있죠. 저는 잘 모르겠어요. 왜냐하면 저는 정체되더라도 이 회사들이 엄청난 수익을 올릴 수 있다고 생각하기 때문이에요.


Ilya: 어쩌면 그들이 서로를 구별하기 위해 열심히 노력해야 하기 때문에 이익은 아닐 수도 있지만, 수익은 확실히 가능하죠.


Dwarkesh: 하지만 당신의 모델에 따르면 올바른 해결책이 나타날 때, 모든 회사들 사이에 수렴이 있을 거라고 암시해요. 왜 그렇게 생각하시는지 궁금한데요.


Ilya: 저는 그들의 정렬 전략에 대한 수렴에 대해 더 많이 이야기하고 있었어요.


Ilya: 저는 기술적 접근 방식에 대한 궁극적인 수렴도 일어날 거라고 생각하지만, 저는 정렬 전략에 대한 수렴을 암시하고 있었어요. 정확히 뭘 해야 할까요?


Dwarkesh: 저는 단지 당신이 미래가 펼쳐지는 것을 어떻게 보는지 더 잘 이해하고 싶어요. 현재, 우리는 이러한 다른 회사들을 가지고 있고, 당신은 그들의 접근 방식이 계속해서 수익을 창출하겠지만, 이 인간과 같은 학습자에게는 도달하지 못할 거라고 예상하죠.


Dwarkesh: 그래서 이제 우리는 이 다른 회사들을 가지고 있어요. 당신이 있고, Thinking Machines가 있고, 다른 많은 연구소들이 있죠. 어쩌면 그들 중 하나가 올바른 접근 방식을 알아낼 수도 있어요.


Dwarkesh: 하지만 그들의 제품 출시가 다른 사람들에게 이 일을 하는 방법을 명확하게 만들겠죠.


Ilya: 저는 그걸 하는 방법이 명확하지 않을 거라고 생각하지만, 다른 무언가가 가능하다는 것이 명확해질 것이고, 그게 정보예요.


Ilya: 그러면 사람들은 그게 어떻게 작동하는지 알아내려고 노력할 거예요. 하지만 저는 여기에 논의되지 않은 한 가지가 있다고 생각해요. 그건 AI의 능력이 증가할 때마다, 저는 상황이 수행되는 방식에 어떤 종류의 변화가 있을 거라고 생각해요.


Ilya: 저는 그게 중요할 거라고 생각하지만, 그게 정확히 뭔지는 명확하게 설명할 수 없어요.


Dwarkesh: 기본적으로, 당신은 그 모델을 가진 회사가 모든 이득을 얻을 거라고 예상할 거예요. 왜냐하면 그들이 세상에서 구축하고 있는 기술과 지식을 가진 모델을 가지고 있으니까요.


Dwarkesh: 그 이익이 널리 분산될 것이고, 이 지속적 학습 루프를 먼저 시작하는 모델 회사에만 집중되지 않을 거라고 생각하는 이유는 뭘까요?


Ilya: 여기에 제가 생각하는 일이 일어날 거예요. 첫째, 과거의 AI들이 어떻게 진행되었는지 봅시다.


Ilya: 한 회사가 발전을 이루었고, 다른 회사는 서둘러 일정 시간이 지난 후 비슷한 것들을 생산하고 시장에서 경쟁하며 가격을 낮추었어요.


Ilya: 따라서 시장 관점에서는 그곳에서도 비슷한 일이 일어날 거라고 저는 생각해요.


Ilya: 그나저나, 우리는 좋은 세상에 대해 이야기하고 있어요. 좋은 세상이란 뭘까요? 그건 우리가 강력한 인간과 같은 학습자를 가지고 있고, 그들이 또한...


Ilya: 그나저나, 우리가 논의하지 않은 초지능 AI의 사양에 대한 또 다른 것이 있을 수도 있어요. 그건 당신이 그걸 좁게 만들고, 동시에 유용하고 좁게 만들 수 있다는 거예요.


Ilya: 당신은 많은 좁은 초지능 AI를 가질 수 있죠.


Ilya: 하지만 당신이 그들 중 많은 것을 가지고 있고, 그걸로 많은 이익을 생산하는 회사를 가지고 있다고 가정해 봐요.


Ilya: 그러면 들어와서 경쟁하기 시작하는 다른 회사가 있어요. 경쟁이 작동하는 방식은 전문화를 통해서일 거예요.


Ilya: 경쟁은 전문화를 좋아해요. 당신은 그걸 시장에서도 보고, 진화에서도 보죠.


Ilya: 당신은 많은 다른 틈새 시장을 갖게 될 것이고, 다른 틈새 시장을 차지하고 있는 많은 다른 회사들을 갖게 될 거예요.


Ilya: 이 세상에서 우리는 한 AI 회사가 정말 복잡한 경제 활동의 어떤 영역에서 정말 훨씬 더 낫고, 다른 회사는 다른 영역에서 더 낫다고 말할 수 있어요. 그리고 세 번째 회사는 소송에서 정말 잘하죠.


Dwarkesh: 이건 인간과 같은 학습이 의미하는 바와 모순되지 않나요? 학습할 수 있다는 건데...


Ilya: 그럴 수 있지만, 당신은 누적된 학습을 가지고 있어요. 당신은 큰 투자를 했죠. 당신은 이 일에서 정말, 정말 뛰어나고, 정말 경이롭게 되기 위해 많은 컴퓨팅을 썼어요.


Ilya: 다른 누군가는 다른 일에서 정말 잘하기 위해 엄청난 양의 컴퓨팅과 경험을 썼죠.


Ilya: 당신은 거기에 도달하기 위해 많은 인간 학습을 적용하지만, 이제 당신은 다른 누군가가 "봐, 나는 네가 배운 걸 배우기 시작하고 싶지 않아"라고 말할 이 높은 지점에 있어요.


Dwarkesh: 저는 그게 유효한 주장이라고 생각해요. 제 강한 직관은 그게 그렇게 되지 않을 거라는 거예요. 이론은 그렇게 될 거라고 말하지만, 제 강한 직관은 그게 그렇게 되지 않을 거라는 거예요.


Dwarkesh: 이론과 실제 사이에는 차이가 없어요. 실제로는 있죠. 저는 그게 그 중 하나가 될 거라고 생각해요.


Dwarkesh: 많은 사람들의 재귀적 자기 개선 모델은 말 그대로, 명시적으로, '우리는 서버에 백만 명의 Ilya를 가질 것이고, 그들은 다른 아이디어를 생각해 낼 것이며, 이것이 초지능이 매우 빠르게 출현하도록 이끌 것이다'라고 말해요.


Dwarkesh: 당신이 하고 있는 일이 얼마나 병렬화될 수 있는지에 대한 어떤 직관이 있나요? Ilya의 복사본을 만드는 것에서 얻는 이득은 뭘까요?


Ilya: 저는 모르겠어요. 저는 확실히 수확 체감이 있을 거라고 생각해요. 왜냐하면 당신은 똑같은 사람이 아니라 다르게 생각하는 사람들을 원하니까요.


Ilya: 만약 저의 문자 그대로의 복사본이 있다면, 저는 당신이 얼마나 더 많은 점진적인 가치를 얻을지 확신할 수 없어요. 다르게 생각하는 사람들, 그게 당신이 원하는 거예요.



10. 자기 대결과 연구 취향



Dwarkesh: 왜 완전히 다른 회사들이 출시하고 잠재적으로 겹치지 않는 데이터셋으로 훈련된 다른 모델들을 볼 때, LLM들이 서로 얼마나 유사한지는 실제로 놀라운 일일까요?


Ilya: 어쩌면 데이터셋이 보이는 것만큼 겹치지 않는 건 아닐 수도 있어요.


Dwarkesh: 하지만 비록 개별 인간이 미래의 AI보다 덜 생산적일지라도, 인간 팀이 AI 팀이 가질 수 있는 것보다 더 많은 다양성을 가진다는 사실에 무언가가 있을지도 모르죠.


Dwarkesh: AI들 사이에서 의미 있는 다양성을 어떻게 이끌어낼 수 있을까요? 단지 온도를 높이는 건 횡설수설로 이어질 뿐이죠.


Dwarkesh: 당신은 다른 과학자들이 다른 편견이나 다른 아이디어를 가지는 것과 같은 것을 더 원해요. AI 에이전트들 사이에서 그런 종류의 다양성을 어떻게 얻을 수 있을까요?


Ilya: 저는 다양성이 없었던 이유는 사전 훈련 때문이라고 생각해요. 모든 사전 훈련된 모델은 그들이 동일한 데이터에서 사전 훈련하기 때문에 거의 동일해요.


Ilya: 이제 **RL과 후속 훈련(post-training)**은 일부 차별화가 나타나기 시작하는 곳이에요. 왜냐하면 다른 사람들이 다른 RL 훈련을 생각해 내기 때문이죠.


Dwarkesh: 저는 당신이 과거에 **자기 대결(self-play)**을 데이터 확보 또는 학습을 시작하기 위해 동등한 지능의 다른 에이전트들과 에이전트를 맞추는 방법으로 암시하는 것을 들었어요.


Dwarkesh: 왜 LLM에서는 이런 종류의 작업에 대한 공개적인 제안이 없는지에 대해 어떻게 생각해야 할까요?


Ilya: 저는 두 가지를 말할 수 있다고 생각해요. 제가 자기 대결이 흥미롭다고 생각했던 이유는, 그것이 데이터 없이, 오직 컴퓨팅만을 사용하여 모델을 만드는 방법을 제공했기 때문이에요.


Ilya: 만약 당신이 데이터가 궁극적인 병목 현상이라고 생각한다면, 컴퓨팅만을 사용하는 것은 매우 흥미롭죠. 그래서 그것이 그것을 흥미롭게 만드는 거예요.


Ilya: 자기 대결은, 적어도 과거에 이루어졌던 방식—서로 경쟁하는 에이전트들을 가질 때—으로는, 특정 기술 세트를 개발하는 데만 좋아요. 너무 좁죠.


Ilya: 그것은 협상, 갈등, 특정 사회적 기술, 전략 수립, 그런 종류의 것들에만 좋죠. 당신이 그 기술들에 신경 쓴다면, 자기 대결은 유용할 거예요.


Ilya: 실제로, 저는 자기 대결이 자리를 찾았지만, 단지 다른 형태로 찾았다고 생각해요.


Ilya: 따라서 토론, **증명자-검증자(prover-verifier)**와 같은 것들, 당신은 당신의 작업에서 실수를 찾도록 인센티브를 받는 LLM-as-a-Judge와 같은 종류의 것을 가지고 있어요.


Ilya: 당신은 이것이 정확히 자기 대결은 아니지만, 사람들이 하고 있는 관련 **적대적 설정(adversarial setup)**이라고 말할 수 있다고 저는 생각해요.


Ilya: 실제로 자기 대결은 에이전트들 사이의 더 일반적인 경쟁의 특별한 경우예요. 경쟁에 대한 자연스러운 반응은 달라지려고 노력하는 것이죠.


Ilya: 따라서 당신이 여러 에이전트를 함께 두고, 그들에게 "너희 모두는 어떤 문제에 대해 작업해야 하고, 너는 에이전트이고 다른 모두가 작업하는 것을 검사하고 있다"고 말한다면, 그들은 "글쎄, 그들이 이미 이 접근 방식을 취하고 있다면, 내가 그것을 추구해야 할지 명확하지 않아. 나는 차별화된 무언가를 추구해야 해"라고 말할 거예요.


Ilya: 따라서 저는 이와 같은 것이 또한 다양한 접근 방식에 대한 인센티브를 창출할 수 있다고 생각해요.


Dwarkesh: 마지막 질문: **연구 취향(research taste)**은 무엇인가요? 당신은 분명히 AI 연구를 하는 데 있어 가장 좋은 취향을 가진 사람으로 여겨지는 세상 사람이에요.


Dwarkesh: 당신은 AlexNet부터 GPT-3 등에 이르기까지 딥 러닝 역사상 일어난 가장 큰 일들의 공동 저자였어요. 그것은 무엇이며, 당신은 이러한 아이디어를 어떻게 생각해 내는지 어떻게 특징지을 수 있을까요?


Ilya: 저는 이것에 대해 저 자신을 위해 말할 수 있어요. 저는 사람들마다 그것을 다르게 한다고 생각해요.


Ilya: 저를 개인적으로 안내하는 한 가지는 AI가 어떠해야 하는지에 대한 미학이에요. 사람들은 어떠한지에 대해 생각하지만, 올바르게 생각함으로써 말이에요.


Ilya: 사람들은 어떠한지에 대해 잘못 생각하기는 매우 쉽지만, 사람들에 대해 올바르게 생각한다는 것은 무엇을 의미할까요?


Ilya: 제가 몇 가지 예를 들어드릴게요. 인공 뉴런의 아이디어는 뇌에서 직접적으로 영감을 받았으며, 그것은 훌륭한 아이디어예요. 왜냐하면 당신은 '뇌는 이 모든 다른 기관들을 가지고 있고, 주름을 가지고 있지만, 주름은 아마 중요하지 않다. 뉴런이 중요하다고 생각하는 이유는 무엇일까? 왜냐하면 그것들이 많기 때문이다'라고 말하기 때문이죠.


Ilya: 그것은 어떤 종류의 뉴런을 원하고, 뉴런들 사이의 연결을 바꿀 어떤 **지역적 학습 규칙(local learning rule)**을 원해요. 뇌가 그것을 한다는 것이 그럴듯하게 느껴지죠.


Ilya: **분산 표현(distributed representation)**의 아이디어. 뇌가 경험에 반응하므로 우리의 신경망도 경험으로부터 배워야 한다는 아이디어. 뇌는 경험으로부터 배우고, 신경망은 경험으로부터 배워야 하죠.


Ilya: 당신은 '무언가가 근본적인가 아닌가?'라고 스스로에게 묻습니다. 상황이 어떠해야 하는지 말이에요.


Ilya: 저는 그것이 여러 각도에서 생각하고 거의 아름다움, 아름다움과 단순함을 찾는 것이 저를 꽤 많이 안내해 왔다고 생각해요.


Ilya: 추함, 추함이 들어설 자리는 없어요. 그것은 아름다움, 단순함, 우아함, 뇌로부터의 올바른 영감이에요. 이 모든 것들이 동시에 존재해야 하죠.


Ilya: 그것들이 더 많이 존재할수록, 당신은 **하향식 믿음(top-down belief)**에 더 자신감을 가질 수 있어요.


Ilya: 하향식 믿음은 실험이 당신과 모순될 때 당신을 지탱하는 거예요. 왜냐하면 당신이 항상 데이터를 신뢰한다면, 글쎄, 때때로 당신은 올바른 일을 하고 있을 수 있지만 버그가 있어요. 하지만 당신은 버그가 있다는 것을 모르죠.


Ilya: 당신이 버그가 있다는 것을 어떻게 알 수 있을까요? 당신은 계속 디버깅해야 할지 아니면 그것이 잘못된 방향이라고 결론 내려야 할지 어떻게 알 수 있을까요?


Ilya: 그것은 하향식이에요. 당신은 '상황은 이래야 한다. 이것과 같은 것은 작동해야 한다. 그러므로 우리는 계속 가야 한다'고 말할 수 있어요.


Ilya: 그것이 하향식이며, 그것은 이 다각적인 아름다움과 뇌에 의한 영감에 기초합니다.


Dwarkesh: 알겠습니다. 거기서 마무리하겠습니다.


Ilya: 정말 감사합니다.


Dwarkesh: Ilya, 정말 감사합니다.


Ilya: 좋습니다. 감사합니다.


Dwarkesh: 네, 좋았습니다.


Ilya Sutskever – We're moving from the age of scaling to the age of research 14-7 screenshot.png


keyword
매거진의 이전글피드백 프레임워크(to-date, to-go)