교과서를 덮고 노트를 펼쳐라: MLLM이 진정한 추론을 배우는 법
학창 시절 시험 기간을 떠올려 보자. 유명 일타 강사의 인터넷 강의(인강)를 밤새워 돌려보고, 학교 수업을 맨 앞줄에서 빠짐없이 듣는다고 해서 무조건 성적이 오르던가? 강의를 듣는 그 순간에는 고개를 끄덕이며 내용을 다 이해한 것 같은 착각에 빠지지만, 막상 시험지를 받아 들면 "아, 선생님이 분명 강조했던 건데..."라며 정답을 비켜 가기 일쑤였다. 듣는 것만으로는 지식이 휘발되어 버리기 때문이다. 반면, 최상위권 학생들의 비결은 '듣는 시간'보다 '적는 시간'에 있었다. 그들은 아무리 좋은 수업이라도 그냥 흘려듣지 않고, 반드시 핵심을 추려 자신만의 언어로 '노트 필기'를 했다. 정보를 단순히 입력받는 것을 넘어, 스스로 요약하고 구조화하는 그 능동적인 과정이 있어야만 비로소 진짜 내 지식이 되기 때문이다.
하지만 지식을 머릿속에 정리했다고 끝이 아니다. 이제 운전을 생각해 보자. 필기시험에서 만점을 받고 면허를 땄다고 해서 바로 도로 위의 베스트 드라이버가 될 수 있을까? 실전 도로 주행에 나선 우리에게 필요한 것은, 머릿속의 교통 법규(지식)와 눈앞에 펼쳐진 복잡한 도로 상황(시각 정보)을 순발력 있게 결합하는 능력이다. 수많은 간판과 배경 속에서 '진입 금지' 표지판이나 '신호등' 같은 핵심 요소에만 시선을 집중해야 사고가 나지 않는다. 즉, 지식을 바탕으로 어디를 봐야 할지 판단하는 능력이 필수적인 것이다.
흥미롭게도, 최첨단 인공지능 기술인 멀티모달 대규모 언어 모델(MLLM)의 세계에서도 이와 똑같은 현상이 벌어지고 있다. 최근 발표된 NoteMR(Notes-guided MLLM Reasoning) 연구는 AI에게 단순히 방대한 데이터를 보여주는 것을 넘어, 마치 우등생처럼 정보를 '노트'에 정리하고, 베테랑 운전자처럼 중요한 곳을 응시하게 했을 때 비로소 진정한 추론(Reasoning)이 가능함을 증명했다.
이러한 AI의 '공부 능력'과 '운전 능력'을 동시에 검증하기 위한 무대로 주로 활용되는 것이 바로 KB-VQA(Knowledge-Based Visual Question Answering)다. 이는 우리말로 '지식 기반 시각 질의응답'이라 불리는데, 단순히 눈에 보이는 것만 답하는 일반적인 VQA보다 한 차원 더 높은 추론 능력을 요구한다.
예를 들어, 한 이미지와 함께 "1948년에 도입된 물건과 이미지 속 사람들은 어떤 관계가 있는가?"라는 질문이 주어졌다고 가정해 보자. AI는 먼저 이미지 속 사람들이 하늘을 향해 손을 뻗으며 무언가를 잡으려 뛰어오르는 동작을 인식해야 한다(시각). 그와 동시에 '1948년에 도입된 물건'이 무엇인지 외부 지식 베이스에서 검색하여 그것이 '프리스비'임을 알아내야 한다(지식). 최종적으로 이 두 가지 정보를 결합하여 "사람들이 프리스비를 잡으려 한다"는 정답을 도출하는 것이다. 즉, KB-VQA는 AI에게 시각적 인지 능력과 방대한 세상의 지식을 얼마나 잘 융합하여 정답을 도출할 수 있는지 묻는, 그야말로 '고난도 종합 시험'인 셈이다.
하지만 기존의 AI 모델들은 이 시험을 치르는 방식에서 한계를 보였다. 외부 지식이 필요할 때면 검색 엔진(Google, Wiki 등)에서 관련 문서를 무작위로 긁어오는 방식(RAG)을 택했는데, 이는 마치 시험 시간에 교과서 전체를 펼쳐놓고 허둥지둥 답을 찾는 준비 안 된 학생과 같았다. 너무 많은 정보는 오히려 '노이즈'가 되어 AI를 혼란에 빠뜨렸고, 엉뚱한 답을 내놓게 만들었다.
또한, 시각 정보를 처리할 때도 이미지 전체를 대충 훑어보는 경향이 있었다. 마치 초보 운전자가 신호등을 봐야 할 때 화려한 네온사인을 보느라 정신이 팔리는 것처럼, 배경의 불필요한 객체에 시선을 뺏겨 '환각(Hallucination)' 증세를 보이기도 했다.
위의 야구경기 예시를 보자. 이미지를 보여준 뒤 "한 번의 안타로 베이스로 바로 돌아오는 것을 뭐라고 하는가?" AI에게 질문하면, 정답은 홈런이지만, 외부 시직 없이 그냥 답변할 때에는 Round Bases라고 오답을 말했고(내부 지식이 없기에 모를 수 있다), 이에 외부 지식을 참고한 뒤에도 검색된 지식의 홍수 속에서 혼란을 겪고 홈런에 대해 묻는 질문에 엉뚱하게도 "도루(Stealing)"라고 답해버렸다. 또한, 오른쪽 이미지처럼 시각 정보 처리에서도 이미지 전체를 대충 훑어보다가, 배경에 있는 초록불을 보고도 멈춤(Stop) 표지판과 혼동하는 등 환각(Hallucination) 증세를 보였다. 이는 지식이 없어서가 아니라, 너무 많은 정보 속에서 '무엇이 중요한지' 정제하는 과정이 부재했기 때문이다.
CVPR 2025에서 발표된 NoteMR은 이러한 한계를 극복하기 위해 AI에게 인간의 학습 프로세스를 이식했다.
첫째, 지식 노트(N_kl)의 도입이다. 이는 앞서 말한 '우등생의 필기 습관'과 같다. 방대한 검색 결과 중에서 질문과 직접 관련된 핵심만을 AI가 스스로 요약 정리하게 했다. 날것의 정보가 정제된 지식으로 변환되자, AI는 더 이상 정보의 홍수 속에서 길을 잃지 않게 되었다.
둘째, 비주얼 노트(N_vl)의 적용이다. 이는 '베테랑 운전자의 시선'과 같다. 정리된 지식 노트를 바탕으로, 이미지의 어느 영역을 봐야 할지 가이드(Attention Mask)를 주는 것이다. "지금은 야구 규칙(지식)에 대해 묻고 있으니 관중석 말고 선수(시각)에 집중해"라고 명령을 내리는 셈이다. 이를 통해 AI는 시각적 노이즈를 제거하고 정답과 직결된 핵심 객체에만 집중할 수 있게 되었다.
이 두 가지 노트 덕분에 NoteMR은 정보를 수동적으로 받아들이는 단계를 넘어섰다. "정보 수집 → 핵심 요약(Note-taking) → 정밀 관찰(Visual Focusing) → 답변 도출"이라는 인간의 고차원적인 사고 과정을 모방하게 된 것이다. 그 결과, OK-VQA 데이터셋에서 기존 최고 성능 모델들을 제치고 5.31%라는 유의미한 성능 향상을 이뤄냈다.
ChatGPT와 같은 생성형 AI가 비약적으로 발전하면서, 이제는 기계와 인간을 명확히 구분하는 것이 가능한가에 대한 근원적인 물음이 던져지고 있다. 흥미로운 점은 AI가 단순히 결과물(Output)만 인간을 흉내 내는 것이 아니라, 그 결과물을 만들어내는 '학습과 사고의 과정'까지도 인간을 닮아가고 있다는 사실이다.
이번 NoteMR 연구는 이러한 흐름을 명확히 보여준다. 수동적으로 강의를 듣기만 하던 AI가, 이제는 우등생처럼 스스로 노트를 필기하고, 운전자처럼 중요한 정보에 선택적으로 집중하며 세상을 이해하기 시작했다. 이는 AI의 발전이 단순한 연산 능력의 확장을 넘어, 인간의 인지 과정을 모방하는 방향으로 나아가고 있음을 시사한다. 앞으로의 AI 연구가 나아가야 할 길 또한 여기에 있지 않을까? 인간이 수천 년간 쌓아온 효율적인 학습법, 그리고 뇌가 정보를 처리하고 기억하는 프로세스를 기반으로 새로운 가설을 세우고 이를 모델에 적용하는 것이다. '어떻게 더 많이 학습시킬까'가 아니라 '어떻게 더 인간답게 생각하게 할까'를 고민할 때, AI는 지금보다 더 깊이 있는 추론과 통찰을 보여주며 또 한 번의 거대한 도약을 이뤄낼 것이다.