2025년은 다양한 AI 모델이 폭발적으로 등장하며 AGI가 곧 도래할 것이라는 기대가 고조된 해였습니다. 화려한 데모와 스펙 경쟁 속에서 많은 모델이 “이제 인간과 거의 비슷하다”는 인상을 남겼지만, 동시에 하나의 사실도 점점 분명해졌습니다. 오늘날의 AI는 여전히 인간이 세계를 인식하는 방식, 특히 시각을 통해 세계를 이해하는 방식과는 근본적으로 다른 작동 원리 위에 서 있다는 점입니다.
인간은 언어 이전에 시각을 통해 세계를 경험합니다. 공간적 관계, 물리적 안정성, 위험과 가능성, 감정적 맥락까지도 시각적 지각에서 출발합니다. 지도, 설계도, 인터페이스, 도로 표식, 도시 구조에 이르기까지 인간 사회의 정보 체계는 시각을 중심으로 조직되어 있습니다. 이는 인간 지능의 기반이 언어가 아니라 시각적 세계 모델임을 분명히 보여줍니다.
그러나 AI는 이 세계를 직접 경험하지 않습니다. 오늘날 대부분의 모델은 여전히 세계를 ‘텍스트로 변환된 형태’로 이해합니다. 멀티모달이라는 이름을 달고 있지만, 그 내부를 들여다보면 시각은 여전히 언어를 보조하는 입력 중 하나에 머물러 있습니다.
현재 대부분의 AI 서비스에서 멀티 모달 추론을 위해 사용하는 모델은 Vision-Language 모델(VLM) 입니다. VLM의 핵심 구조는 대체로 동일합니다. 이미지는 비전 인코더(CNN 또는 ViT)를 통해 특징 벡터로 변환되고, 이 벡터는 언어 모델의 토큰 시퀀스에 정렬(alignment)되어 최종적으로 텍스트 예측 문제로 환원됩니다. 이 구조는 멀티모달 처리를 가능하게 했지만, 동시에 근본적인 제약을 내포하고 있습니다.
이미지는 수백만 개의 픽셀과 연속적인 공간 정보를 포함하지만, VLM에서는 이 정보가 비교적 이른 단계에서 저차원 임베딩으로 압축됩니다. 즉, 모델이 사용하는 시각 정보는 “이미지 그 자체”가 아니라 이미지를 설명하기에 충분한 요약 정보에 가깝습니다.
VLM의 학습 목표는 대부분 언어적 출력의 정확도입니다. 이로 인해 멀티모달 표현 공간은 점점 언어 모델에 최적화된 방향으로 왜곡됩니다. 이는 VLM이 이미지를 지각(perception) 하는 것이 아니라, 이미지에 대해 발화(speech) 하고 있다는 점을 명확히 보여줍니다.
이러한 한계는 단순히 Vision-Language 모델의 성능 개선으로 해결될 문제는 아닙니다. 시각 정보가 결국 언어 표현 공간에 종속되는 한, 모델은 이미지를 세계의 상태로 다루지 못하고, 설명 가능한 단서의 집합으로만 취급하게 됩니다. 다시 말해, 언어를 중심에 둔 멀티모달 구조에서는 ‘보는 것’ 자체가 결코 사고의 주체가 될 수 없습니다.
이러한 문제의식 속에서 다시 주목받기 시작한 접근이 바로 Image-to-Image 모델입니다. 지금까지 Image-to-Image 모델은 객체 제거, 스타일 변환, 배경 합성과 같은 픽셀 조작의 정교함을 중심으로 발전해 왔습니다. 그러나 진정한 전환점은 “얼마나 잘 고치는가”가 아니라 “얼마나 잘 이해하는가”에 있습니다.
예를 들어, 공책에 적힌 수학 문제를 촬영한 이미지가 주어졌을 때 문제의 의미를 이해하고 풀이 결과를 같은 공책 위에 손글씨로 자연스럽게 추가하는 작업은 단순 편집으로 해결되지 않습니다. 모델은 문제의 수학적 구조, 기존 필기체의 스타일, 공간 배치와 종이의 질감까지 동시에 고려해야 합니다.
의자를 테이블 위에 올려놓는 장면을 합성하는 경우 역시 마찬가지입니다. 무게중심, 접촉면, 그림자, 시점과 원근감이 일관되지 않으면 우리는 즉시 부자연스러움을 감지합니다. 이는 모델이 물리 세계에 대한 암묵적 가설, 즉 세계 모델을 내부에 가지고 있어야만 가능한 작업입니다.
이 지점에서 Image-to-Image 모델은 더 이상 후처리 도구가 아닙니다. 이미지를 통해 세계를 시뮬레이션하고, 그 상태를 수정하며, 수정 결과가 다시 세계의 규칙과 충돌하지 않는지를 점검하는 시각적 사고 시스템으로 성격이 변화합니다. 사고의 주 무대가 언어 공간이 아니라 이미지 공간에 남아 있다는 점이 핵심입니다.
2025년 8월, LMArena를 중심으로 ‘나노 바나나(Nano Banana)’라는 코드명의 모델이 주목을 받기 시작했습니다. 곧 구글의 Gemini 2.5 Flash Image 모델로 공식 발표되는 이 모델이 남긴 인상은 단순한 품질 향상이 아니었습니다. 사용자들이 가장 강하게 느낀 것은 이미지의 선명함보다 장면 전체의 일관성과 사물 이해력이었습니다.
나노 바나나가 생성한 이미지에서는 객체의 형태, 질감, 조명, 시점이 서로 충돌하지 않았고, 장면 내 사물들의 역할과 관계가 명확했습니다. 특히 피규어 이미지 생성이 유행처럼 번진 이유도, 단순히 디테일이 뛰어나서가 아니라 “이 사물이 왜 이런 구조를 갖는지 알고 있다”는 감각을 전달했기 때문입니다.
이는 이미지가 결과물이 아니라 사고 과정의 매개로 사용되고 있다는 가설로 이어집니다. 나노 바나나는 한 번에 이미지를 그려내기보다, 내부적으로 세계의 상태를 구성하고 그 상태를 시각적으로 전개하는 방식에 가까워 보입니다. 구글은 “전례 없는 통제력”, “강화된 세계 지식”을 강조했는데, 이는 모델이 이미지 내부의 구조와 제약을 안정적으로 다루기 시작했음을 의미합니다. 생성이 아니라 세계 상태를 조작하는 능력이 핵심 지표로 등장한 것입니다.
나노 바나나는 더 이상 “무엇을 그릴 것인가”가 아니라 “이 장면이 어떤 세계 상태를 의미하는가”를 먼저 설정합니다. 생성 모델이 사고 모델로 이동하는 경계에서, 나노 바나나는 그 가능성을 가장 선명하게 보여준 사례입니다.
Visual Intelligence는 이미지 기술의 다음 단계가 아닙니다. 이는 AI가 세계를 표상하고 사고하는 기본 단위가 전환되는 순간을 의미합니다. 언어 모델이 사고의 상징적 층위를 모사했다면, 시각 지능은 인간이 살아가는 세계의 구조 자체를 다루려는 시도입니다.
시각이 새로운 언어가 된다는 것은 이미지를 더 잘 설명하는 것이 아니라, 이미지 자체가 의미를 담고 추론을 수행하는 상태를 뜻합니다. 질문, 가설, 수정, 검증이 모두 시각적 표현 안에서 이루어지는 구조입니다. 이는 로보틱스, 의료 영상, 자율주행, 산업 디자인, 교육 등 세계를 직접 다루는 모든 영역에서 결정적인 변화를 촉발할 것입니다. 동시에 AI가 재구성한 세계를 인간이 어떻게 검증하고 통제할 것인지라는 새로운 과제도 남깁니다.
나노 바나나로 상징되는 변화는 아직 시작에 불과합니다. 그러나 방향성은 분명합니다. 시각은 더 이상 입력이나 출력이 아니라 사고 그 자체의 공간이 되고 있습니다. 그리고 그 공간에서, AI는 처음으로 인간과 같은 세계를 공유하기 시작합니다. Visual Intelligence의 지평은 바로 그 지점에서 열리고 있습니다.