노력의 배신, 질문의 시대 - 6

AI가 바꿀 대한민국의 성공 방정식

Nov 23. 2025

6. 멀티모달(Multi-modal)의 충격: 텍스트를 넘어 세상을 읽는 기계

우리는 흔히 AI를 '똑똑한 챗봇' 정도로 생각하곤 한다. 컴퓨터 화면 속에서 글을 쓰고, 코드를 짜고, 엑셀 정리를 돕는 사무직의 경쟁자 정도로 여겼다. 그래서 몸을 쓰거나, 눈으로 현장을 확인하고, 귀로 소리를 들어 판단해야 하는 영역만큼은 여전히 인간의 고유 권한이라 믿었다.

"글 쓰는 건 AI가 해도, 엑스레이를 판독하거나 공사 현장의 균열을 찾는 건 사람이 해야지." 이것이 우리의 마지막 방어 심리였다. 하지만 구글의 Gemini 3.0이 보여준 '멀티모달(Multi-modal)' 능력은 이 믿음마저 위태롭게 만들었다.

AI가 텍스트 감옥을 탈출해 '오감(五感)'을 얻었다.

이번 수능 테스트 결과에서 가장 소름 돋는 지점은 국영수 점수가 아니다. 바로 '탐구 영역'과 '영어 듣기 평가'의 성과다. 기존의 AI 모델들은 물리, 화학, 생명과학 과목에서 유독 약한 모습을 보였다. 복잡한 수식 때문이 아니다. 문제에 포함된 '그래프, 도표, 실험 기구의 그림'을 제대로 이해하지 못했기 때문이다. 텍스트로 된 정보는 천재적이지만, 시각 정보(Vision)를 해석하는 데는 까막눈이나 다름없었다.

하지만 Gemini 3.0은 달랐다. 물리 역학 문제의 도르래 그림을 보고 힘의 방향을 유추하고, 생명과학의 유전 형질 도표를 픽셀 단위로 분석해 정답을 찾아냈다. 이는 AI가 이제 인간의 시각 정보를 텍스트 정보와 동등한 수준으로, 아니 그 이상으로 정교하게 처리하기 시작했음을 의미한다.

영어 듣기 평가는 더 충격적이다. AI는 스피커에서 흘러나오는 오디오(Audio)와 시험지의 텍스트(Text)를 동시에 입력받아 100점 만점을 기록했다. 소리를 듣는 동시에 눈으로 지문을 읽고 문맥을 파악하는, 지극히 인간적인 '동시 감각 처리' 능력을 보여준 것이다.

이 '멀티모달'의 충격은 수능 시험장에만 머물지 않는다. 이것은 곧바로 산업 현장의 지각 변동으로 이어진다.

생각해 보라. 의사가 MRI 사진을 판독하는 행위, 정비공이 엔진 소리를 듣고 고장을 진단하는 행위, 안전 관리자가 CCTV 화면 속에서 화재 징후를 찾는 행위. 이 모든 전문 영역의 본질은 결국 '시각·청각 정보를 통한 패턴 인식'이다. 그리고 AI는 이제 인간보다 더 넓은 주파수의 소리를 듣고, 인간의 눈이 놓치는 미세한 균열(Pixel)까지 잡아낸다.

"현장 경험은 무시 못 해"라는 말은 이제 유효하지 않을지도 모른다. 수만 장의 엑스레이 데이터를 학습한 AI의 눈은 30년 경력의 영상의학과 전문의보다 정확할 수 있고, 24시간 지치지 않고 공장 설비를 감시하는 AI의 귀는 베테랑 공장장보다 예민할 수 있다.

이제 '사무직(White Collar)'뿐만 아니라 '전문 현장직'의 성벽도 무너졌다. AI는 책상 앞의 모니터를 넘어, 카메라 렌즈와 마이크를 통해 세상 밖으로 걸어 나오고 있다. 텍스트를 읽는 기계는 작가를 위협했지만, 세상을 읽는 기계는 의사, 관제사, 감시관, 그리고 수많은 현장 전문가들을 위협한다.

우리는 이제 인정해야 한다. 단순히 '보고 듣는 감각'만으로는 AI와 경쟁할 수 없다. 오감이 수집한 정보를 바탕으로 '어떤 가치 판단을 내릴 것인가' 하는 최종 의사결정만이 인간에게 남겨진 몫이다.

기계가 우리보다 더 잘 보고, 더 잘 듣는 세상. 당신은 무엇을 볼 것인가? 아니, 기계가 보지 못하는 무엇을 찾아낼 것인가?

[다음 글] 7. OMR 카드와 AI: 효율적인 머리와 관료적인 손

모든 것이 완벽해 보이는 AI에게도 치명적인 약점이 발견되었습니다. 수능 문제는 만점을 받았지만, 정작 답안지인 'OMR 카드' 마킹은 엉망으로 한 것입니다. 본질(정답)은 알지만 형식(마킹)을 모르는 AI. 그리고 형식에 집착하는 인간 사회. 이 아이러니가 보여주는 미래의 슬픈 자화상을 그립니다.

Brunch Book

이전 05화노력의 배신, 질문의 시대 - 5노력의 배신, 질문의 시대 - 7다음 07화