오픈AI 연구원이 밝히는 o1 학습의 비밀?
MIT에서 진행된 "Don't teach, incentivize"라는 제목의 강연에서, OpenAI의 한 연구원은 인공지능 개발에 대한 흥미로운 관점을 제시했다. 그의 주장은 단순하면서도 도전적이었다. 우리가 AI에게 무언가를 직접 가르치려 노력하는 대신, 스스로 학습할 수 있는 동기와 환경을 제공해야 한다는 것이다.
연구원은 현재 AI 개발이 직면한 근본적인 문제를 지적했다. "우리가 원하는 모든 기술을 일일이 열거하고 가르치는 것은 불가능하다." 이는 단순한 기술적 한계를 넘어서는 문제다. 특히 미래에 필요한 능력들을 현재 시점에서 정확히 예측할 수 없다는 점에서, 직접 교육 방식은 본질적인 한계를 갖는다.
이러한 한계를 극복하기 위해 연구원이 제시한 것이 "약한 인센티브" 기반의 학습 방식이다. 그는 이를 "물고기 잡는 법을 가르치는 대신, 물고기의 맛을 알게 하고 배고픔을 느끼게 하라"는 비유로 설명했다. 이 비유는 단순해 보이지만 심오한 의미를 담고 있다. 직접적인 기술 교육이 아닌, 학습의 동기와 목적을 이해하게 하는 것이 더 효과적일 수 있다는 것이다.
강연에서 특히 주목할 만한 점은 연구원이 제시한 인공지능의 발전 방향이다. 그는 인간의 지능이 유일한 또는 최종적인 목표가 되어서는 안 된다고 주장했다. 우리는 인간의 사고 과정을 완벽히 이해하지 못하며, 따라서 이를 모방하려는 시도는 근본적으로 제한적일 수밖에 없다. 대신 기계가 인간과는 다른, 그러나 똑같이 효과적인 방식으로 문제를 해결할 수 있도록 해야 한다는 것이다.
연구원은 또한 컴퓨팅 능력의 기하급수적 증가를 AI 발전의 핵심 동력으로 보았다. 그러나 그의 관점은 단순히 더 많은 컴퓨팅 파워를 투입하자는 것이 아니었다. 대신 그는 이 증가하는 컴퓨팅 능력을 어떻게 효과적으로 활용할 것인가에 대한 근본적인 질문을 던졌다. 수천억 달러 규모의 컴퓨팅 자원이 주어진다면, 이를 가장 효과적으로 활용하는 방법은 무엇일까?
이러한 관점은 AI 연구의 본질적인 방향성에 대한 중요한 질문을 제기한다. 연구원은 많은 연구자들이 학문적 만족을 위해 모델링 아이디어를 추가하려 하지만, 이것이 오히려 확장성의 병목이 될 수 있다고 지적했다. 대신 그는 AI 기술 개발의 궁극적 목적이 인류에게 혜택을 주는 가치를 창출하는 것이며, 이를 위해서는 더 유연하고 확장 가능한 접근법이 필요하다고 주장했다.
강연에서 가장 흥미로운 부분은 연구원이 제시한 '암시적 멀티태스크 학습'의 개념이었다. 그는 웹 규모의 데이터를 학습하는 과정에서 AI 모델이 마주하게 되는 과제의 수가 수조 개에 달한다고 설명했다. 이런 상황에서 각각의 과제를 개별적으로 해결하는 방법을 학습하는 것은 현실적으로 불가능하다. 대신 모델은 이러한 다양한 과제들을 효율적으로 해결하기 위한 일반화된 능력을 자연스럽게 발전시키게 된다는 것이다.
이러한 학습 방식의 효과를 설명하기 위해 연구원은 흥미로운 예시를 들었다. "만약 내가 당신에게 100개의 문제를 주고, 그 중 50개의 답을 모른다면, 각각의 문제에 대해 '아는지 모르는지'를 개별적으로 기억할 수 있습니다. 하지만 수조 개의 문제라면 어떨까요?" 이 질문은 단순해 보이지만, AI 학습의 본질적인 특성을 드러낸다. 규모가 커질수록 개별적 접근은 불가능해지며, 따라서 모델은 '무엇을 아는지 모르는지 아는' 일반적인 능력을 발전시켜야만 한다.
연구원은 또한 이러한 학습 과정이 초기에는 비효율적으로 보일 수 있다고 인정했다. 모델이 각 과제에 대해 최소한의 노력으로 해결하려 할 때, 매번 새로운 기술을 학습해야 하는 상황이 발생할 수 있기 때문이다. 예를 들어, "끔찍한 영화였다, 정말로 _____"라는 문장에서 빈칸을 채우는 것과 "구글 주가가 5% 상승해 _____에서 마감했다"라는 문장의 빈칸을 채우는 것은 완전히 다른 종류의 기술을 요구한다.
그러나 이러한 상황이 바로 일반화된 능력 발전의 계기가 된다. 연구원은 모델이 결국 "가장 적은 노력으로 최대한 많은 과제를 해결할 수 있는 일반적인 기술"을 개발하게 된다고 설명했다. 이는 마치 인간이 다양한 경험을 통해 문제 해결의 일반적인 전략을 발전시키는 것과 유사하다.
특히 주목할 만한 점은 이러한 학습 방식이 예상치 못한 능력의 출현으로 이어질 수 있다는 것이다. 연구원은 언어 이해, 추론 능력, 수학적 사고와 같은 고차원적 능력들이 직접적인 교육 없이도 자연스럽게 발현될 수 있다고 주장했다. 이는 우리가 모델에게 가르치지 않은 능력들이 암시적 멀티태스크 학습의 부산물로 나타날 수 있다는 것을 의미한다.
이러한 접근법의 또 다른 장점은 확장성이다. 직접적인 교육 방식은 새로운 유형의 과제가 등장할 때마다 추가적인 학습이 필요하지만, 일반화된 능력을 갖춘 모델은 처음 보는 유형의 문제도 기존의 능력을 활용해 해결할 수 있다. 이는 미래의 불확실한 요구사항에 대응하는 데 있어서 큰 장점이 된다.
연구원은 이러한 학습 방식이 안전성 측면에서도 이점을 가질 수 있다고 설명했다. 직접적인 규칙 주입이 아닌, 스스로의 판단 능력을 발전시키는 방식은 예상치 못한 상황에서도 더욱 견고한 성능을 보일 수 있다는 것이다. 이는 AI 시스템의 신뢰성과 안정성을 높이는 데 기여할 수 있는 중요한 특성이다.
강연의 가장 도발적인 주장 중 하나는 AI 모델의 능력 출현에 관한 것이었다. OpenAI의 연구원은 "가장 작은 트랜스포머 모델에서는 전혀 보이지 않던 능력이 특정 규모에 도달하면 갑자기 나타나는 현상"을 설명하며, 이것이 우연이 아닌 필연적인 패턴이라고 주장했다.
연구원은 이러한 현상을 물의 상태 변화에 비유했다. 물이 99도까지는 끓지 않다가 100도에서 갑자기 상태가 변하는 것처럼, AI 모델도 특정 임계점에 도달하기 전까지는 특정 능력이 전혀 관찰되지 않다가, 임계점을 넘어서면 갑자기 그 능력이 출현한다는 것이다. 이는 AI 발전이 점진적이기보다는 급진적일 수 있다는 것을 시사한다.
이러한 관점은 AI 연구에 있어 매우 중요한 시사점을 제공한다. 연구원은 "아직 작동하지 않는다"는 표현 대신 "아직 작동하지 않을 뿐이다"라는 관점을 강조했다. 이는 현재의 한계가 영구적인 것이 아니라, 더 많은 컴퓨팅 파워와 학습 시간을 통해 극복될 수 있는 임시적인 상태라는 의미다.
특히 흥미로운 점은 이러한 능력의 출현이 예측 가능한 패턴을 따른다는 주장이다. 연구원은 세 가지 능력 유형을 예로 들었다. 첫 번째 유형은 현재 모델 규모에서 이미 달성 가능한 능력이다. 두 번째는 약간의 규모 확장으로 달성할 수 있는 능력이며, 세 번째는 현재로서는 달성이 매우 어려운 능력이다. 그는 연구자들이 두 번째 유형의 능력에 집중해야 한다고 제안했다.
이러한 임계점 기반의 발전 모델은 컴퓨팅 자원의 효과적인 활용 전략에도 영향을 미친다. 연구원은 현재 우리가 수천억 달러 규모의 컴퓨팅 자원을 최적으로 활용하는 방법을 아직 완전히 이해하지 못하고 있다고 지적했다. 중요한 것은 단순히 더 많은 컴퓨팅 파워를 투입하는 것이 아니라, 각 능력의 임계점을 파악하고 그에 맞는 자원을 효율적으로 배분하는 것이다.
연구원은 또한 이러한 임계점 현상이 AI 연구의 특수성을 보여준다고 설명했다. 물리학이나 수학과 같은 전통적인 과학 분야에서는 실험 결과가 시간이 지나도 동일하게 유지되지만, AI 분야에서는 기반이 되는 모델의 능력이 지속적으로 변화하면서 이전의 한계나 제약이 더 이상 유효하지 않게 될 수 있다.
이는 AI 연구에 있어 매우 특별한 역학을 만들어낸다. 연구 경험이 많지 않은 학부생들이 1년 만에 전체 분야의 방향성을 바꾸는 논문을 발표하는 경우를 볼 수 있는데, 이는 이론 물리학이나 수학과 같은 전통적인 학문 분야에서는 상상하기 어려운 일이다. 이는 기존의 지식이나 경험이 때로는 새로운 패러다임을 받아들이는 데 장애물이 될 수 있다는 점을 시사한다.
결국 능력의 출현과 임계점에 대한 이해는 AI 연구의 방향성을 결정하는 데 핵심적인 역할을 한다. 이는 단순한 기술적 문제를 넘어서는 근본적인 패러다임의 전환을 의미하며, AI 발전의 본질을 이해하는 데 중요한 통찰을 제공한다.
OpenAI 연구원은 강연에서 AI의 추론과 문제 해결 능력 발전에 대한 흥미로운 관점을 제시했다. 특히 주목할 만한 것은 '다음 토큰 예측'이라는 단순해 보이는 작업이 어떻게 복잡한 추론 능력의 발전으로 이어질 수 있는지에 대한 설명이었다.
연구원은 먼저 우리가 AI의 문제 해결 방식을 인간의 것과 비교하려는 경향이 있다고 지적했다. 많은 연구자들이 인간의 사고 과정을 AI에게 가르치려 하지만, 이는 근본적인 한계를 가진다. 우리는 인간의 사고 과정조차 완벽히 이해하지 못하는 상황에서, 이를 수학이라는 제한된 언어로 AI에게 전달하려 시도하고 있다는 것이다.
대신 연구원은 AI가 자신만의 방식으로 추론 능력을 발전시킬 수 있도록 해야 한다고 주장했다. 예를 들어, 다음 토큰을 예측하는 과정에서 모델은 다양한 유형의 추론을 수행하게 된다. "끔찍한 영화였다, 정말로 ___"라는 문장의 빈칸을 채우기 위해서는 감정적 맥락을 이해해야 하고, "주가가 5% 상승해 ___에서 마감했다"는 수치적 추론을 필요로 한다.
이러한 다양한 추론 과제들을 효율적으로 해결하기 위해, 모델은 점차 일반화된 문제 해결 전략을 발전시키게 된다. 연구원은 이를 "최소한의 노력으로 최대한의 과제를 해결하기 위한 일반적 기술의 발전"이라고 설명했다. 이는 마치 인간이 다양한 경험을 통해 문제 해결의 메타 전략을 발전시키는 것과 유사하다.
특히 흥미로운 점은 이러한 학습 과정에서 나타나는 '창발적 능력'이다. 연구원은 우리가 직접적으로 가르치지 않은 능력들, 예를 들어 논리적 추론, 수학적 문제 해결, 프로그래밍과 같은 복잡한 능력들이 자연스럽게 출현할 수 있다고 설명했다. 이는 마치 언어를 배우는 과정에서 문법을 명시적으로 배우지 않아도 자연스럽게 습득하는 것과 비슷한 현상이다.
연구원은 또한 이러한 자기주도적 학습 방식이 안전성 측면에서도 장점을 가질 수 있다고 주장했다. 규칙을 직접 주입받은 모델은 예상치 못한 상황에서 취약할 수 있지만, 스스로 추론 능력을 발전시킨 모델은 새로운 상황에서도 더 견고한 판단을 할 수 있다는 것이다. 특히 "무엇을 아는지 모르는지 아는" 능력의 발전은 모델의 신뢰성을 크게 향상시킬 수 있다.
강연의 마지막 부분에서 연구원은 AI 시스템의 안전성 확보를 위한 새로운 패러다임을 제시했다. 그의 접근법은 기존의 제약이나 규칙 기반 통제와는 달리, 모델의 자기 인식과 판단 능력을 발전시키는 데 초점을 맞추고 있다.
연구원이 제시한 핵심 아이디어는 적절한 인센티브 구조를 통해 모델이 자신의 확실성 수준을 스스로 평가하고 표현하도록 유도하는 것이다. 그는 이를 설명하기 위해 구체적인 보상 체계의 예시를 들었다:
- 정확하고 확신에 찬 답변: +1점
- 정확하지만 불확실성을 표현한 답변: +0.5점
- "모른다"는 답변: 0점
- 불확실하면서 틀린 답변: -2점
- 확신에 찬 틀린 답변: -4점
이러한 보상 구조는 단순해 보이지만 중요한 함의를 갖는다. 모델은 잘못된 확신에 대해 가장 큰 페널티를 받게 되므로, 자신의 지식 한계를 인식하고 불확실성을 적절히 표현하는 것이 유리하다는 것을 학습하게 된다. 이는 할루시네이션 문제를 해결하기 위한 근본적인 접근법을 제시한다.
특히 주목할 만한 점은 이러한 접근법이 예상치 못한 상황에서 더욱 효과적일 수 있다는 것이다. 직접적인 규칙이나 제약으로 통제되는 모델은 학습하지 않은 상황에서 취약할 수 있지만, 자체적인 판단 능력을 갖춘 모델은 새로운 상황에서도 더 신중하고 신뢰할 수 있는 결정을 내릴 수 있다.
연구원은 이러한 안전성 접근법이 AI 발전의 장기적인 방향성과도 일치한다고 강조했다. AI 시스템이 더욱 강력하고 복잡해질수록, 외부적 통제보다는 내재된 안전 메커니즘이 더욱 중요해질 것이라는 것이다. 이는 단순히 기술적인 해결책을 찾는 것을 넘어서, AI 시스템의 근본적인 설계 철학에 대한 재고를 요구한다.
이러한 관점은 AI 안전성 연구에 새로운 방향을 제시한다. 지금까지 많은 연구들이 모델의 출력을 직접적으로 통제하거나 제한하는 방식에 집중해왔다면, 연구원은 모델이 스스로 판단하고 자제할 수 있는 능력을 발전시키는 것이 더 효과적일 수 있다고 제안한다. 이는 AI 안전성 확보를 위한 패러다임의 근본적인 전환을 의미한다.
원본 강연 영상 : https://www.youtube.com/watch?v=kYWUEV_e2ss