검증가능성에서 구조적 보상으로

by 지적 지니

Andrej Karpathy의 auto-research가 던지는 핵심 명제는 단순하다. 평가할 수 있고 목표를 세울 수 있다면, 그 대상은 최적화할 수 있다는 것이다. 이 명제를 조금 더 압축하면 결국 목표와 평가는 검증가능성의 문제로 수렴한다. 무엇을 하려는지 분명하고, 그것이 이루어졌는지를 판별할 수 있다면, 그 사이의 과정은 최적화의 대상이 된다. 다시 말해 검증가능성은 곧 최적화 가능성의 다른 이름이다.


이때 검증은 크게 질적 검증과 양적 검증으로 나눌 수 있다. 질적 검증은 인간의 판단에 의존한다. 책을 다 읽었는가, 커피를 다 마셨는가 같은 질문은 표면적으로는 단순해 보이지만, 실제로는 맥락과 해석을 필요로 한다. 반면 양적 검증은 비교와 측정으로 이루어진다. 넘긴 페이지 수가 전체 페이지 수와 일치하는가, 컵 안의 액체가 더 이상 감지되지 않는가 같은 질문은 수치와 관측을 통해 판별할 수 있다. 양적 검증은 형식화하기 쉽고, 기계가 다루기에도 적합하다.


그러나 실제 세계에서 질적 검증은 양적 검증과 완전히 분리되어 존재하지 않는다. 오히려 질적 검증은 맥락 위에 올려진 양적 검증이라고 보는 편이 더 정확하다. 예컨대 “커피를 다 마셨는가”라는 판단은 액체 수위라는 양적 신호 위에서 이루어진다. 다만 그 기준은 상황에 따라 달라진다. 급한 상황에서는 컵 바닥에 조금 남아 있어도 ‘다 마셨다’고 간주할 수 있고, 여유 있는 상황에서는 한 방울까지 비워야 ‘다 마셨다’고 판단할 수 있다. 즉 숫자 자체가 질적인 것이 아니라, 숫자에 맥락이 부여될 때 그것은 상황적 의미를 획득한다. 질적 자료란 본질적으로 맥락화된 양적 자료라고 할 수 있다.


이 지점에서 LLM은 특이한 위치를 점한다. LLM은 숫자만 계산하는 전통적 시스템과 달리, 질적 자료를 처리할 수 있는 거의 유일한 비인간적 양적 체계처럼 보인다. 물론 LLM 내부에서 일어나는 연산은 끝내 수치 계산이다. 그러나 그 수치 계산의 결과가 문맥, 뉘앙스, 상황, 암묵적 기준까지 다루는 언어적 판단으로 나타난다는 점에서, LLM은 양적 체계이면서 동시에 질적 판단을 흉내 내거나 부분적으로 수행할 수 있다. 그래서 인간만의 영역처럼 보였던 “맥락 위에 양적 기준을 올리는 일”에도 LLM이 진입하기 시작한다.


지금까지 불변하는 인간의 역할은 바로 여기에 있었다. 인간은 단순히 목표를 수행하는 존재가 아니라, 무엇을 목표로 삼을지 정하고 어떤 기준으로 그것을 평가할지를 설계하는 존재였다. 다시 말해 양적 검증을 맥락 위에 올려 보상함수와 목표를 구성하는 역할이 인간의 핵심 기능이었다. 그런데 auto-research는 이 단계, 즉 목표의 지정과 평가 기준의 구성 자체를 LLM에게 일부 위임하려는 시도이다. 이는 단순한 자동화가 아니다. 최적화의 대상이던 시스템이 이제 최적화의 기준까지 부분적으로 작성하기 시작했다는 뜻이다.


문제는 여기서부터 시작된다. 인간은 검증 불가능한 영역에서도 놀라울 정도로 능숙하게 행동한다. 명시적인 점수표가 없고, 옳고 그름을 수치화하기 어려운 상황에서도 비교적 안정적으로 방향을 잡는다. 반면 LLM은 그런 영역에 들어가면 급격히 표류(drift)한다. 표면적으로는 그럴듯한 문장을 계속 생산하지만, 목표 일관성, 판단의 밀도, 암묵적 기준의 유지 능력은 빠르게 무너진다. 이는 현재 AI 과학이 맞닥뜨린 중요한 한계이다. 검증 가능한 영역에서는 성능이 가파르게 향상되지만, 검증 불가능하거나 검증이 구조적으로 지연되는 영역에서는 안정적인 개선이 어렵다.


이유는 AI가 지식을 다루는 방식에 있을 가능성이 크다. 현재의 AI 시스템은 지식을 살아 있는 구조로 다루기보다, 기호로 고정된 대상으로 취급하는 경향이 있다. 실제 운용에서도 AI가 어떤 목표를 지속적으로 염두에 두고 작업하려면 사실상 두 개의 공간에 의존한다. 하나는 컨텍스트이고, 다른 하나는 각종 MD 파일이나 메모 파일 같은 낙서장이다. 컨텍스트는 비교적 유연하게 작동한다. 입력의 흐름 속에서 의미를 재구성하고, 앞뒤 문맥을 참고하며, 순간적으로나마 일관된 추론을 수행한다. 그러나 MD 파일 낙서장은 매우 조잡하다. 그것은 살아 있는 사고 공간이라기보다, 압축된 지시문을 캐시해 둔 외부 기억 장치에 가깝다. 매번 설명서를 업데이트하고, 모델이 그것을 다시 읽고, 그에 맞춰 행동하기를 기대하는 수준의 장치(harness)일 뿐이다.


하지만 동시에 여기에는 희망도 있다. AI는 인간이 책장에 책을 꽂아 두듯 지식을 저장하지 않는다. AI는 다음 단어를 예측하도록 훈련된 시스템이며, 그 과정에서 특정 입력이 들어왔을 때 관련 지식이 높은 확률로 현현하도록 학습되어 있다. 즉 지식이 네트워크 어딘가에 온전한 문장이나 명제의 형태로 보관되어 있는 것이 아니다. 지식은 추론 과정 속에서 드러나는 경향성, 활성화 패턴, 잠재 구조에 가깝다. 다시 말해 AI의 강점은 지식을 고정된 대상처럼 보관하는 데 있지 않고, 적절한 조건에서 지식을 출현시키는 데 있다.


그렇다면 현재의 MD 파일 낙서장이 왜 문제인가도 분명해진다. 그 방식은 본래 유동적으로 현현해야 할 지식을, 원자적 값과 명시적 규칙의 집합으로 취급하게 만든다. 다시 말해 AI에게 가장 잘 맞는 지식 형식은 생성적이고 구조적인데, 우리는 그것을 정적인 문서와 규칙 목록으로 강제하고 있는 셈이다. 그 결과 모델은 사고하는 대신 규칙을 조회하는 쪽으로 기울고, 살아 있는 판단 대신 명시된 표식을 재조합하는 수준에 머문다. 이는 검증 가능한 단순 작업에서는 유효할 수 있으나, 맥락이 깊고 목표가 유동적인 영역에서는 곧 한계를 드러낸다.


따라서 돌파구는 캐시된 프롬프트조차도 고정된 기호 덩어리가 아니라, 추론 과정에서 현상적으로 드러나는 구조로 바꾸는 데 있을 수 있다. 즉 목표, 규칙, 메모, 전략이 외부 문서로 박제되어 있는 것이 아니라, 모델의 현재 추론과 상호작용하며 매 순간 재구성되는 형태여야 한다는 뜻이다. 이는 검증가능성이 약한 RL과 유사한 문제의식으로 이어진다. 명시적인 정답이 없고, 보상이 지연되며, 무엇이 좋은 중간 상태인지조차 완전히 형식화되지 않는 영역에서는 보상 자체가 단순한 숫자로 주어질 수 없기 때문이다.


결국 RLVR이 지향하는 궁극적 목표를 끝까지 밀어붙이려면, 원자적 기호로 표상된 검증가능한 보상(verifiable rewards)만으로는 부족하다. 오히려 그런 보상 형식에서 벗어나야 할 가능성이 크다. 미래의 보상은 명시적 체크리스트가 아니라 구조적이어야 한다. 다시 말해 보상은 외부에서 완성된 형태로 주어지는 값이 아니라, 모델이 환경과 상호작용하고 추론을 전개하는 과정 속에서 드러나는 관계적이고 맥락적인 구조여야 한다. LLM이 지식을 정적인 데이터베이스에서 꺼내는 것이 아니라 추론 과정 속에서 현현시키는 것처럼, 보상 또한 RL 과정 속에서 현현해야 한다.


이 관점에서 보면 다음 단계의 핵심은 더 많은 정답 데이터를 수집하는 데만 있지 않다. 진짜 과제는 검증가능한 보상을 더 촘촘히 만드는 것이 아니라, 검증 불가능한 것처럼 보이는 영역에서도 구조를 포착할 수 있는 보상 형식을 만드는 데 있다. 인간이 해오던 역할, 즉 맥락 위에 기준을 세우고 수치를 의미로 전환하는 역할을 어떻게 기계적 학습의 내부 구조로 이식할 것인가가 문제의 본질이다. auto-research는 바로 그 문턱에 서 있다. 최적화의 시대 다음에는, 무엇을 어떻게 최적화할 것인지를 스스로 구조화하는 시스템의 시대가 올 가능성이 크다.

작가의 이전글청춘의 고뇌는 어떻게 표현되는가