기술 용어 없이 읽는 현재와 미래의 기록
어느 순간부터 "이제 AI는 보고, 듣고, 말도 한다"는 말이 들리기 시작했습니다. 텍스트뿐 아니라 이미지, 음성, 영상까지 다루는 멀티모달의 시대가 온 것이지요. 그래서 "그럼 이제 진짜 세상을 이해하는 거 아니야?"라는 생각이 드실 수 있습니다. 이 장은 바로 이 질문에서 출발합니다.
멀티모달의 핵심 개념은 '공통 잠재공간'입니다. 쉽게 말해 '고양이'라는 단어와 '고양이 사진', '고양이 울음소리'를 수학적 공간에서 서로 가까운 곳에 배치하는 것입니다. 그래서 AI는 사진을 보고 고양이라 말하고, 고양이라는 말을 듣고 이미지를 떠올립니다. 정말 엄청난 성과이지요.
하지만 여기서 착각이 생깁니다. "AI가 서로 다른 감각을 하나의 의미로 묶었다"는 말은 절반만 맞습니다. AI가 묶은 것은 표현의 통계적 구조입니다. 가장 중요한 문장은 이것입니다. 같은 좌표에 있다는 것은, 같은 것을 이해한다는 뜻이 아닙니다.
사람에게 고양이는 질감, 움직임, 반응이 묶인 경험 덩어리입니다. 반면 AI는 벡터들을 가깝게 놓았을 뿐, 그 안에서 "고양이가 컵을 밀면 컵이 깨진다"는 인과를 자연스럽게 굴려보지는 않습니다.
멀티모달 AI는 설명이나 묘사는 잘하지만, 물리적 예측에는 여전히 약합니다. 정렬은 잘되어 있지만, 세계가 변하는 방식인 인과는 내부에 없기 때문입니다. 그럼 멀티모달은 의미가 없을까요? 아닙니다. 멀티모달의 진짜 가치는 세계로 들어가는 '입구'를 넓혔다는 데 있습니다. 하지만 입구가 넓어졌다고 해서 집안 구조가 완성된 것은 아니지요. AI는 세상을 같은 언어로 묶었을 뿐, 같은 방식으로 이해하는 단계는 아직 아닙니다.