눈이 달린 AI
말을 잘하는 AI는 이제는 기본이다. 요즘 사람들이 기대하는 AI는 문장만 읽고 답하는 그런 단순한 존재가 아니다. 사진을 보여주면 상황을 이해하고, 문서를 보여주면 표를 읽고 요약하며, 영상까지 던져주면 핵심만 뽑아 정리해 주고 그런 만능 AI를 원하는 것이다.
LLM이 ‘말하는 도구’였다면, VLM/MLLM은 ‘보고 이해하는 도구’이며, 그다음은 ‘보고-이해하고-일하는 도구’로 가는 과정이다.
이번 글에서는 이러한 멀티모달 AI에 대해 알아보고자 한다.
예전에는 AI가 텍스트를 이해하는 것만으로도 충분히 신기했다. 하지만 현실의 업무와 일상은 텍스트로만 굴러가지 않는다. 회의 화면에는 그래프가 있고, 사내 문서는 표와 캡처 이미지가 섞여 있으며, 현장 사진 속에는 맥락(상황)이 있다. 결국 AI가 실제 문제를 풀려면 텍스트 밖의 정보를 읽을 수 있어야 한다.
그래서 요즘의 대표 AI 제품들은 ‘비전’ 기능을 기본으로 제공한다. ChatGPT는 이미지 업로드 후 이미지에 대해 질문하고 문서/사진을 분석할 수 있게 안내하고 있고, Gemini 역시 이미지 이해와 비디오 이해를 개발자 문서에서 별도 가이드로 다룬다. 즉 “멀티모달 입력”은 더 이상 특수 기능이 아니라 기본 인터페이스가 되어가고 있다.
멀티모달 AI가 실제로 쓸만해졌다고 느껴지는 이유는 단순히 ‘사진을 설명한다’ 수준을 넘어섰기 때문이다. 체감이 크게 달라진 지점은 보통 아래 세 가지이다.
(1) 고해상도 문서 입력을 그대로 다루는 능력이 좋아졌다
최근 모델들은 고해상도 입력을 더 잘 활용하는 방향으로 진화했다. 그래서 스캔 문서, 매뉴얼, 제품 라벨, 스크린샷처럼 글자와 레이아웃이 핵심인 입력에서 성능이 눈에 띄게 좋아졌다.
특히 문서에는 “글자만” 있는 게 아니다. 표/도형/아이콘/각주/페이지 구조가 함께 있고, 다국어가 섞이기도 한다. 멀티모달 AI가 강해졌다는 말은 사실상 ‘문서 이해(document understanding)’가 좋아졌다는 말과 겹친다.
(2) ‘보는 것’과 ‘추론하는 것’이 결합되기 시작했다
이미지 설명은 쉽다. 하지만 사용자가 원하는 것은 대개 설명이 아니다.
“이 에러 화면이면 뭘 먼저 확인해야 하나?”
“이 그래프가 말하는 핵심은 무엇인가?”
“이 제품 설치 사진에서 잘못된 부분이 무엇인가?”
이런 질문은 이미지 인식 + 맥락 추론 + 행동 제안이 함께 필요하다. 최근 모델은 이 과정을 더 자연스럽게 수행한다. 즉 “보는 능력”이 “문제 해결”에 가까워졌다는 점이 사용자에게 크게 다가온다.
(3) 결과물이 ‘대화 가능한 형태’로 돌아온다
멀티모달 AI의 진짜 편리함은 “이미지를 읽어준다”가 아니라, 읽은 결과를 다시 대화로 다듬을 수 있다는 점이다. 예를 들어 문서 사진을 올리고 “이 내용 핵심 5줄”, “실행 항목만 체크리스트로”, “메일로 보낼 문장 톤으로 바꿔줘”처럼 후속 요청을 연달아 할 수 있다. ‘시각 입력 → 텍스트로 정리 → 다시 편집’이 한 흐름으로 이어지는 순간, AI는 단순 인식기가 아니라 업무용 인터페이스가 된다.
멀티모달의 다음 단계는 비디오이다. 이미지는 한 장의 장면이다. 하지만 비디오는 시간 축이 있다. 누가 무엇을 언제 했는지, 어떤 변화가 있었는지, 중요한 순간이 어디인지가 핵심이다.
영상 이해가 실용적인 이유는 단순하다. 우리가 시간을 가장 많이 쓰는 정보가 ‘영상’이기 때문이다.
강의/세미나를 전부 보기는 어렵다
회의 녹화본에서 필요한 구간만 찾고 싶다
제품 리뷰 영상에서 장단점만 뽑고 싶다
스포츠/하이라이트에서 핵심 장면만 보고 싶다
최근 멀티모달 모델은 비디오를 입력으로 받아 요약하거나, 특정 질문에 답하거나, 심지어 타임스탬프 단위로 근거 구간을 잡아내는 형태로 발전하고 있다. 사용자 체감은 더 심플하다.
“영상을 보는 시간을 절약해 준다."
이 한 줄이 영상 이해의 가치를 설명한다.
멀티모달 AI가 좋아진 배경을 “모델이 똑똑해져서”라고만 말하면 반쪽짜리 설명이다. 실제로는 데이터와 학습 방식이 크게 바뀌었기 때문이다.
(1) 웹 규모 데이터 학습이 ‘기본’이 되었다
텍스트만의 시대에는 웹 텍스트가 핵심이었다. 멀티모달 시대에는 웹 이미지/영상/자막/문서가 함께 중요해진다. 모델이 세상을 이해하려면 세상에 가까운 데이터로 학습해야 하기 때문이다.
(2) 멀티모달 데이터도 ‘합성(synthetic)’이 중요해졌다
고품질 멀티모달 데이터는 만들기 어렵다. 이미지 한 장에 대해 “사람이” 정교한 질문과 답을 붙이는 것은 비용이 너무 크다. 그래서 최근 흐름은, 좋은 모델을 이용해 멀티모달 데이터셋을 만들고(합성), 그 데이터로 또 다른 모델을 더 넓게 학습시키는 방식으로 확장되는 경향이 강하다.
여기서 중요한 포인트는 “합성 데이터가 진짜를 대체한다”가 아니다. 합성 데이터는 ‘질문하는 법’과 ‘답하는 법’을 학습시키는 도구가 된다는 점이다. 덕분에 모델은 ‘그럴듯한 캡션’이 아니라, 사용자가 실제로 물어볼 법한 문제 해결형 질의응답을 배우게 된다.
(3) 멀티모달은 결국 ‘언어 능력’과 같이 간다
재미있는 역설이 있다. 멀티모달이 좋아질수록, 언어 능력이 더 중요해진다. 왜냐하면 멀티모달 AI의 출력은 대부분 텍스트(설명, 계획, 체크리스트, 요약)이고, 그 텍스트가 곧 사용자 경험이기 때문이다.
즉, 멀티모달 모델은 “눈이 생긴 LLM”이기도 하지만, 동시에 “말을 잘해야 쓸모 있는 눈”이기도 하다.
멀티모달 AI가 보편화되면서, 사용자는 이제 ‘텍스트로 설명하는 수고’를 덜게 된다. 특히 아래 같은 상황에서 변화가 크다.
일상/업무에서 바로 쓰이는 예시
업무 자동화
문서/영수증/청구서 정리
설치/조립/고장 해결
쇼핑/비교 의사결정
학습/공부 자동화
콘텐츠 작업(블로그/제안서/보고서)
이 모든 예시의 공통점은 하나이다. 사용자가 ‘설명’ 대신 ‘입력’으로 문제를 던진다는 점이다.
Computer Vision 개발자는 오랫동안 이런 방식으로 문제를 풀어왔다.
OCR 모델 따로
분류 모델 따로
검출(Detection) 모델 따로
세그멘테이션 모델 따로
문서 레이아웃/정보추출(IE) 따로
하지만 요즘은 foundation VLM 하나로 커버되는 범위가 급격히 넓어졌다. 그래서 개발자의 질문도 바뀐다.
“모델을 새로 학습해야 하나?”
→ “프롬프트로 풀리나?”
→ “툴을 붙이면 되나?”
→ “평가를 어떻게 안정화하나?”
즉, 모델 학습 자체의 비중이 줄고, 활용(프롬프트/시스템/에이전트)의 비중이 커졌다는 것이다.