#2 - Workflow 너머의 방법들
Workflow의 한계를 인식한 후, 다음 시도는 도구였다.
모델에게 사전 정의된 함수들을 호출할 수 있는 권한을 주었다. 웹 검색, 데이터베이스 조회, 수치 계산, 시각화 생성. 더 나아가, 필요한 도구가 없으면 스스로 만들어 쓸 수 있게 했다. 파이썬 코드를 작성하고, 그것을 실행하고, 결과를 해석하는 일련의 과정을 자율적으로 수행하게 만들었다.
이것은 workflow와 근본적으로 달랐다. Workflow가 '정해진 경로를 따라가는 것'이었다면, 도구를 가진 모델은 '경로를 스스로 선택하는 것'이었다. 비트코인을 분석하다가 골드가 필요하면 직접 찾아보고, 상관관계 계산이 필요하면 코드를 짜서 돌릴 수 있었다.
결과는 분명히 나아졌다. 모델은 분석 중 예상치 못한 방향으로 뻗어나갔다. 주어진 주제에 대해 깊이 파고들었고, 관련 데이터를 능동적으로 수집했으며, 중간 결과를 바탕으로 다음 단계를 결정했다.
그러나 한 달쯤 지나자 다른 종류의 답답함이 생겼다.
모델은 주어진 주제를 놀라울 정도로 깊게 파고들었다. 반도체 공급망을 분석하라고 하면, TSMC의 생산 용량부터 네덜란드 ASML의 EUV 장비 수출 규제, 일본 소재 기업들의 시장 점유율까지 촘촘하게 연결했다. 각 노드에서 다음 노드로 논리적으로 이동했고, 놓친 연결고리가 있으면 도구를 써서 메웠다.
문제는 시야였다. 모델은 '반도체 공급망'이라는 주제 안에서는 자유롭게 움직였지만, 그 경계 밖으로는 나가지 않았다. 같은 시기, 중동 지정학 리스크가 고조되고 있었다. 에너지 가격이 요동쳤고, 이것은 결국 반도체 생산 비용에 영향을 미칠 수밖에 없었다.
또한 AI 붐으로 인한 전력 수요 급증이 데이터센터 입지 선정에 영향을 주고 있었는데, 이것 역시 반도체 수요 구조와 무관하지 않았다.
나는 이런 연결들을 보았다. 뉴스를 읽다가, 다른 분석을 하다가, 우연히 마주친 정보들이 머릿속에서 연결되었다. 그러나 모델은 이것을 하지 못했다. '반도체 공급망 분석'이라는 과제를 받으면, 그 테두리 안에서만 작동했다.
마치 깊이 우선 탐색(DFS)만 가능하고 너비 우선 탐색(BFS)은 불가능한 것 같았다. 하나의 가지를 끝까지 파고들 수는 있지만, 전혀 다른 가지가 있다는 사실 자체를 인식하지 못했다.
자연스럽게 다음 질문이 떠올랐다. 모델이 스스로 탐색의 너비를 넓힐 수는 없을까?
여러 방법을 시도했다. "관련 없어 보이는 영역도 살펴보라"는 지시를 추가했다. "예상치 못한 연결을 찾아라"고 명시했다. 심지어 무작위로 다른 주제의 데이터를 주입해보기도 했다.
결과는 실망스러웠다. 모델은 지시를 '이행'했다. 반도체 분석 중 "관련 없어 보이는 영역"을 찾으라고 하면, 반도체와 약간 거리가 있는 전자제품 시장이나 소프트웨어 산업을 언급했다. 논리적으로는 맞았다. 그러나 내가 원했던 것은 에너지 지정학이나 기후변화 같은, 진짜로 다른 차원의 연결이었다.
모델은 '관련 없어 보이는'의 의미를 해석할 때, 여전히 주어진 맥락 안에서 해석했다. 반도체 분석 중이니까, '관련 없어 보이는'은 반도체에서 한두 다리 건너뛴 영역을 의미했다. 완전히 독립적인 영역까지 뻗어나가는 것은 구조적으로 어려워 보였다.
여기서 한 가지 사실을 인정해야 했다. 현재의 LLM 구조로, 탐색의 지평을 '자율적으로' 넓히는 시스템을 만들기는 어렵다.
그렇다면 우회할 수 있지 않을까. 모델이 스스로 지평을 넓히지 못한다면, 애초에 넓은 지평을 제공하면 되지 않을까.
이 생각은 단순했지만, 실험해볼 가치가 있었다.
접근은 이랬다. 분석 대상 데이터만 주는 것이 아니라, 관련 없어 보이는 광범위한 데이터를 함께 주입한다. 반도체 공급망을 분석하면서, 동시에 에너지 가격, 환율, 정치 이벤트, 기후 데이터, 인구통계 변화, 소비 트렌드까지 모두 컨텍스트에 올려놓는다.
핵심은 '무엇이 관련 있는지를 사전에 판단하지 않는 것'이었다. 내가 보기에 관련 없어 보여도 일단 넣는다. 관련성 판단은 모델에게 맡긴다.
결과는 달랐다.
충분히 넓은 데이터 영역이 attention의 조망 아래 놓이자, 모델은 내가 예상하지 못한 연결을 만들어냈다.
중동 긴장과 TSMC 주가 사이의 연결. 미국 금리 정책과 삼성전자 설비투자 타이밍의 관계. 단순히 '깊이 파고든' 결과가 아니라, 여러 영역을 가로지르는 해석이 나왔다.
물론 이것이 진정한 의미의 '발견'인지는 논쟁의 여지가 있다. 실제로 일어나는 일은 이렇게 설명할 수 있다: 광범위한 도메인이 컨텍스트에 공존하면, 원래라면 멀리 떨어져 있었을 지식들 사이의 거리가 가까워진다. 그리고 그 거리의 단축이 '참신함'이라는 현상으로 나타난다. 모델이 창조적 도약을 한 것이 아니라, 단지 가까이 놓인 것들을 연결한 것뿐일 수 있다.
그러나 결과적으로, 그것은 내가 원하던 '놀라운 발견'과 현상적으로 유사했다.
이 실험에서 얻은 결론은 두 가지였다.
첫째, 모델이 놀라운 연결을 만들어내도록 하려면, 투입하는 데이터의 양이 중요하다. 적은 데이터로는 깊이만 가능하고, 넓은 데이터가 있어야 너비가 생긴다.
둘째, 데이터의 종류를 사전에 선별하지 않아야 한다. 무엇이 관련 있고 없는지를 내가 미리 판단하는 순간, 그 판단의 한계 안에 시스템이 갇힌다.
이것은 직관에 반하는 측면이 있다. 보통 효율을 위해 관련 데이터만 정제해서 투입하려 한다. 노이즈를 줄이고, 신호 대 잡음비를 높이려 한다. 그러나 그 '정제' 과정 자체가 가능성의 공간을 제한한다. 내가 노이즈라고 생각한 것이 실제로는 아직 발견되지 않은 신호일 수 있다.
결국 무엇을 쓰고 버릴지는 모델이 판단할 일이다. 나는 판단 재료를 최대한 넓게 제공하고, 판단 자체는 위임해야 한다.
이 결론에 도달했을 때, 리처드 서튼의 글이 떠올랐다.
서튼은 "The Bitter Lesson"에서 인공지능 연구 70년의 교훈을 정리했다. 인간의 도메인 지식을 정교하게 주입하려는 시도는 결국 실패했고, 단순히 연산량을 늘리는 접근이 승리했다는 것. 체스도, 바둑도, 음성인식도, 결국 '더 많은 계산'이 '더 영리한 설계'를 이겼다.
내 실험은 규모가 작았지만, 같은 패턴을 따르는 것 같았다. 정교한 workflow를 설계하는 것보다, 더 많은 데이터를 던져주는 것이 효과적이었다. 관련성을 미리 판단하는 것보다, 판단 자체를 모델에게 맡기는 것이 더 나은 결과를 냈다.
쓴 교훈이다. 나의 분석 능력, 나의 도메인 지식, 나의 판단력. 이것들이 시스템의 병목이 될 수 있다는 사실은 받아들이기 쉽지 않다. 그러나 데이터는 그렇게 말하고 있었다.
다음 글에서는 이 원리를 실제로 적용한 시스템에 대해 이야기하려 한다. 수백 개의 경제 지표를 동시에 투입하고, 그 안에서 모델이 무엇을 발견하는지 관찰한 실험이다.