brunch

LLM, 이제 사진을 찍듯이

사진을 찍듯이 기억하는 사람들이 있다.

by 닥터브룩스

우리는 종종 인공지능, 특히 거대 언어 모델(LLM)에게서 모순적인 한계를 발견하곤 한다. 인간보다 월등한 지식을 암기하고 있는 듯 보이는 이 기계가, 정작 우리와의 대화처럼 '길어지는 맥락'을 기억하지 못하고 또 그걸 해내기 위해서는 엄청난 비용을 지불해야 한다는 사실이다. 인간은 수십 년 전의 대화도 문득 떠올리지만, AI는 불과 몇 시간 전의 대화 내용을 기억하게 하는 것만으로도 천문학적인 연산 자원을 소모해야 한다. 단순히 텍스트를 '읽고 기억하는' 행위에 왜 이토록 막대한 비용이 들어야만 하는 것일까? 이 질문이 단순한 기술적 호기심을 넘어, 우리가 앞으로 AI와 어떤 관계를 맺고 어떻게 정보를 처리하며 살아갈 것인지에 대한 근본적인 물음과 맞닿아 있을지도 모르겠다.




이 문제의 핵심에는 '이차적 비용'이라는 어마 무시무시한 장벽이 존재한다. 컴퓨터 과학의 용어로 'O(n²)', 즉 'O(n-제곱)' 문제라고 불리는 이 현상은, LLM이 텍스트를 처리하는 방식과 깊이 관련되어 있다. 모델이 문장의 의미를 이해하기 위해 사용하는 '어텐션(Attention)' 메커니즘은, 문장 내의 모든 단어가 다른 모든 단어와 어떤 관계를 맺는지를 일일이 계산해야 한다는 것이다. 텍스트의 길이가 두 배로 늘어나면, 계산량은 네 배로 폭증한다. 10페이지짜리 문서를 읽는 것은 1페이지를 읽는 것보다 100배의 비용이 든다. 이것이 바로 우리가 AI에게 "책 한 권을 통째로 읽고 대화하자"라고 쉽게 말하지 못하는 이유이며, AI가 진정한 '장기 기억'을 갖지 못하게 가로막는 가장 큰 기술적 병목이다. 지금까지 인간은 이 문제를 해결하기 위해 더 많은 GPU를 투입하거나, 관계 계산을 일부 생략하는 등의 임시방편에 의존해 왔다. 하지만 최근, 이 문제의 본질을 완전히 다른 각도에서 접근하는 독창적인 시도가 등장했다. 만약 문제가 '계산 방식'이 아니라 '데이터의 형태' 그 자체에 있다면 어떨까? 만약 우리가 텍스트를 더 이상 '텍스트'로 취급하지 않는다면 어떨까?


최근 한 논문이 발표되었다. 'DeepSeek-OCR'이라는 논문(DeepSeek-OCR: Contexts Optical Compression)인데. 이 논문이 제시하는 아이디어 이렇다. 이들은 '텍스트 토큰'이라는 기존의 방식을 과감히 버리고, 극도로 단순하지만 강력한 해법을 제안한다. "긴 텍스트 문서를 그냥 통째로 '사진'으로 찍으면 어떨까?" 인간도 그렇지 않은가. 마치 사진처럼 기억하는 사람들 말이다. 이 논문이 얘기하고자 하는 것은 100페이지짜리 PDF 문서를 하나의 거대한 고해상도 이미지로 렌더링 한 다음, 이 이미지를 비전-언어 모델(VLM)에게 '읽으라'라고 시키는 것이다. 모델은 이 거대한 이미지를 분석하여, 원본 텍스트가 담고 있던 수만, 수십만 개의 '텍스트 토큰'이 아니라, 그 의미를 압축적으로 함축한 단 몇백 개의 '비전 토큰(Vision Token)'으로 변환해 낸다. 예를 들어 5,000개의 텍스트 토큰으로 이루어진 문서를 단 250개의 비전 토큰으로 압축하는 것이다. 이는 O(n²) 문제의 'n'값 자체를 20분의 1로 줄여버리는, 그야말로 가히 놀라울만한 '발상의 전환'이라고 볼 수 있을 것이다.


이것이 단순히 계산 비용을 아끼기 위한 '꼼수'에 불과했을까? 그렇게 생각할 수 있을지도 모른다. 하지만 그렇지 않다고 생각하는 부분은 '비용 절감'이라는 목적의 접근법이자 원인이었으며, 그 결과로 '속도 향상', '효율 극대화', 그리고 놀랍게도 특정 분야에서는 '성능 향상'이라는 직접적인 보상이 따라왔다. 즉, 비용을 아끼는 것이 곧 성능을 잠금 해제하는 열쇠였던 것이다. 연구진은 이 압축 과정을 인간의 '기억'에 비유한다. 방금 입력된 최신 정보는 고해상도 이미지처럼 '선명하게(Crystal Clear)' 처리하고, 오래된 정보는 저해상도 이미지처럼 '흐릿하게(Blurry)' 압축하여 저장한다는 개념이다. 이는 우리가 100페이지짜리 책을 읽을 때, 1페이지의 정확한 워딩은 잊어버리지만 그 '핵심적인 인상'이나 '맥락'만을 기억하는 방식과 유사하다. 완벽한 복원이 아니라 '쓸모 있는' 기억만을 남기는 효율적인 방식이다. 인간도 그렇지 않은가. 책을 읽기 시작해서 끝 부분으로 읽어 갔을 때 초반의 내용이 약간은 흐릿한 느낌으로 다가오는 그런 현상 말이다.


그리고, 이 '흐릿한 기억'이라는 비유에 반드시 짚고 넘어가야 할 중요한 한계가 있다. 이 모델의 '흐릿함'은 정보의 '손실 압축'을 의미한다. 즉, 효율을 위해 고의로 정보의 일부를 '포기'하는 것이다. 이는 이미지의 품질을 높이기 위해 의도적으로 노이즈를 추가했다가 제거하는 훈련 기법과는 본질적으로 다르다. 이 '흐릿함'은 성능 향상을 위한 기능이 아니라, 속도와 효율이라는 더 큰 이득을 얻기 위해 기꺼이 지불하는 '트레이드오프(Trade-off)'이다. 20배로 압축했을 때 40%의 정확도 손실이 발생한다는 것은, 우리가 그만큼의 원본 데이터를 '포기'했음을 의미한다.


여기서 우리는 인간의 기억과 이 기계적 기억의 결정적인 차이점을 발견한다. 인간에게 '흐릿한 기억'은 영원한 손실을 의미하지 않는다. 수십 년간 잊고 지냈던 유년 시절의 기억이, 우연히 맡은 낯선 냄새나 스쳐 지나간 음악 한 소절에 의해 갑자기 '선명하게' 복원되는 '연관학습을 통한 기억 인출(새로운 정보를 기존 기억과 연결하는 것)'을 우리는 경험한다. 우리의 뇌는 데이터를 단순히 압축하는 것이 아니라, 복잡하게 연결된 네트워크 어딘가에 그 단서들을 보관한다. 하지만 DeepSeek 모델의 압축은 일방통행이다. 한번 '흐릿하게' 만들어진(저해상도로 다운샘플링된) 정보는 다시는 원본의 선명함을 되찾을 수 없다. 이것은 효율적인 '망각'일뿐, 역동적인 '회상'의 (인간이 가지고 있는) 메커니즘은 아닌 것이다.


그렇다면 또 다른 의문이 생긴다. 모델이 이 '흐릿한' 이미지를 해독해야 한다면, 손실된 정보를 채우기 위해 결국 LLM 고유의 '추측(Generation)' 능력에 의존해야 한다. "아마 이 단어는 이것일 거야"라고 확률적으로 추론하는 과정에서, 또 다른 비용이 발생하는 것은 아닐까 하는 생각도 들지만, 비용의 '규모'를 구별해서 생각해 보면, '추측'에 드는 비용은 '문맥 처리'에 드는 비용에 비하면 거의 무시할 수 있을 만큼 미미하다는 것이다. 5,000개 토큰(원본 텍스트)의 모든 관계를 계산하는 O(n²)의 비용이 고속도로 전체를 구매하는 비용이라면, 250개 토큰(압축 이미지)의 관계를 계산하는 것은 그 고속도로의 톨게이트 비용만을 지불하는 것과 같다. 이 과정에서 발생하는 '흐릿한' 부분을 추측하는 비용은, 톨게이트를 지나며 내는 동전 몇 닢에 불과하다. 이 전략의 핵심은, 감당 불가능한 '어텐션 비용'을 감당 가능한 '생성 비용'으로 영리하게 '전가'시키는 것이다.


pexels-pspov-3046629.jpg

Pexels.com © 2019 Pia B


이러한 접근 방식은 우리에게 자연 속의 또 다른 지능을 떠올리게 한다. 바로 '문어'의 신경계이다. 문어는 인간처럼 거대하고 중앙화된 뇌 하나가 신체의 모든 말단을 통제하지 않는다. 대신, 8개의 다리 각각에 독립적인 '미니 뇌(신경절)'가 존재하여, 스스로 맛을 보고, 질감을 느끼며, 움직임을 결정한다. 중앙 뇌는 "저기 있는 게를 잡아라"와 같은 고차원적인 '의도'만을 압축하여 전달할 뿐, 각 다리의 근육 섬유 하나하나를 어떻게 움직일지(O(n²)의 계산)를 일일이 통제하지 않는다. 이는 생물학적 '압축'이자 '분산 처리'이다. DeepSeek-OCR이 보여준 방식도 이와 다르지 않다. 비전 인코더가 '다리의 뇌'처럼 작동하여 방대한 시각 정보(이미지)를 먼저 처리하고, 그 핵심 요약본(비전 토큰)만을 '중앙 뇌'(LLM 디코더)로 보내는 것이다. 우리는 비로소 기계에게 '중앙집권적'인 무식한 연산을 강요하는 대신, 효율적이고 '분산된' 추상적 사고를 가르치기 시작한 것일지도 모른다.


결국 우리가 이 논문에서 목격하는 것은 단순한 OCR 기술의 발전이 아니다. 이는 데이터를 '이해'하는 방식에 대한 근본적인 패러다임의 전환일 수 있다. 지난 수십 년간 기술의 목표는 '완벽한 원본 복원'이었다. 텍스트는 텍스트로, 오디오는 오디오로, 가장 '순수한' 형태로 보존하는 것이 미덕이었다. 하지만 그 순수함에는 천문학적인 비용이라는 대가가 따랐다. 이 새로운 접근은 '충분히 좋은 것'이 새로운 '완벽함'이 될 수 있음을 시사한다. 데이터를 '상징적'으로(이것이 무엇을 말하는가?) 처리하는 대신 '지각적'으로(이것이 어떻게 보이는가?) 처리함으로써, 우리는 완전히 새로운 차원의 효율성을 잠금 해제하고 있다. 우리는 기계에게 단지 '읽는' 법이 아니라 '훑어보는' 법을 가르치고 있다.


이 논문이 던지는 진정한 질문은 이런 것이 아닐까 싶다. "AI가 과연 1,000페이지짜리 책을 완벽하게 읽을 수 있는가?"가 분명 아닐 것이라고 생각한다. 그보다는 "과연 그렇게 완벽하게 읽을 필요가 있는가?"가 되어야 할 것이다. 어쩌면 기계도 인간처럼, 책의 모든 글자를 기억하는 대신 그 책이 남긴 '인상'과 '맥락'만을 기억하는 것만으로도 충분할지 모른다. 그리고 바로 그 '흐릿함'을 허용하는 대가로, 마침내 자신만의 새로운 것을 창조할 수 있는 막대한 계산적 '자유'를 얻게 될 것이다.

어쩌면, 인간이 지식을 축적하는 방식을 AI에게 가르치는 시도가 아닐까.

더 이상 데이터를 학습하는 것이 아닌.




keyword
작가의 이전글리터러시와 RAG