AI 디코딩 #002
이 영화 『첫 키스만 50번째』(50 First Dates, 2004)의 여주인공 루시 윗모어(드류 베리모어 扮)은 안타깝게도, 앞서 소개한 『메멘토』의 주인공과 비슷한 병을 앓고 있다. 온전하게 하루를 잘 보내놓고도, 그 기억을 모두 잃어버리는 것. 그녀의 머릿속에선 매일 똑같은 하루가 시작되고 끝난다.
여주인공의 가족들은 그녀를 위해 눈물겨운 노력을 한다. 같은 신문을 수 백부 인쇄해서 가져도 놓고, 벽에 그린 그림을 다시 하얗게 칠해 그날의 행적을 지우고, 매일 같이 『식스 센스』를 보며 하루를 마무리한다.
훈훈한 가족애를 묘사하는 이 장면, AI의 세계로 넘어오면 의미가 달라진다. AI는 기억이 없다. 학습 종료 후에는 새로운 지식과 경험의 추가는 다음 학습의 진행까지 미뤄야 한다. 그래서 일정 기간이 지난 후에는 ‘분포 이동(distributional shift)’이라는 문제를 발생시킬 수 있다. 이것은 학습 시점 이후의 달라진 세계를 인공지능이 알지 못한다는 말이다.
한 컴퓨터 언어학자는 과거 연구 결과를 재현하려 했지만, 훈련 데이터가 2016년에서 2017년 것으로 바뀌었다는 이유만으로 동일한 정확도에 도달할 수 없었다. 그는 “과거의 데이터로 훈련한 모형은 세계가 변하면서 정확성이 서서히 떨어진다”라고 말한다. AI 모델이 학습을 마친 ‘과거의 스냅숏’이라면, 현실 세계는 끊임없이 새로운 ‘사실적 단언’을 통해 변화하며 데이터의 분포를 바꾸기 때문에 둘 사이의 차이는 필연적으로 발생한다.
-『에코로 AI 읽기 - 움베르토 에코의 기호학으로 읽는 인공지능』中 -
루시의 머릿속 세상과 실제가 달라서 받을 충격이 그녀의 아버지와 오빠에겐 큰 걱정거리였지만, 이 일은 AI 분야의 기술적 난제이다. 이른바 인공 일반 지능(AGI)로 가는 가장 큰 걸림돌이고 말이다.
하지만 남주인공 헨리 로스(아담 샌들러 扮)의 방식은 달랐다. 그는 루시의 뇌(파라미터)를 억지로 고치려 하지 않았다. 대신 그녀가 눈을 뜨면 가장 먼저 볼 수 있는 '비디오테이프'를 준비했다.
"굿모닝 루시, 지금은 2004년이야."
"우린 연인이고, 어제 야구 경기 결과는 이랬어."
헨리는 매일 아침 업데이트된 '최신 정보(Context)'를 루시에게 주입한다. 그녀의 뇌를 재학습(Fine-tuning) 시키는 건 불가능하니, 외부의 정보를 참조(Retrieval)하게 만든 것이다. AI 개발자들은 헨리의 이 사랑스러운 비디오테이프를 이렇게 부른다. 바로 RAG(Retrieval-Augmented Generation, 검색 증강 생성)라고.
RAG란 대규모 언어 모델(LLM)이 답변을 생성할 때, 기존 학습 데이터 외에 외부의 신뢰할 수 있는 정보 소스(문서, 데이터베이스 등)에서 관련 정보를 검색(Retrieval) 하여 참고하고, 그 정보를 바탕으로 더욱 정확하고 최신 정보를 포함한 답변을 생성(Generation) 하는 기술을 말한다.
그러니까 헨리가 매일 아침 자신의 연인이자 아내인 루시에게 자신들의 삶의 기록을 비디오로 보여주는 것은, 외부의 데이터로 AI에게 학습 자료 이외의 세상을 알려주는 이 RAG와 닮은 점이 많다.
이 기술은 인공지능의 한계를 넘어선 실용적인 서비스를 만드는 데 있어서 적절한 해결책이고, 매우 유용한 방법이지만, 그렇다고 완벽하진 않다. 오픈북 테스트에 비유해서 쉽게 설명할 수 있는데, 모두가 책을 보고 시험을 친다고 해서 모든 학생의 점수가 같을 수는 없다. 책을 보는데도 해당 분야에 대한 학습과 이해가 선행되어야 하는 것은 너무나 당연하니까.
RAG도 동일한 문제를 발생시킨다. 학습 이후에 고정된 지식으로는 온전한 해석과 이해에 이르지 못하는 데이터가 존재할 수밖에 없다.
하지만 우리는 이 영화의 결말이 단순히 '비디오테이프(RAG)'의 승리로 끝나지 않는다는 점을 기억해야 한다. 루시는 어느 순간, 비디오를 보지 않고도 헨리를 꿈꾸고 그를 화폭에 담아낸다. 외부 데이터의 참조 없이도, 그에 대한 기억이 그녀의 심연에 각인된 것이다.
움베르토 에코의 기호학을 빌려 말하자면, 이것은 '사실적 단언에 의한 코드의 변경'이다. 현재의 AI는 RAG를 통해 외부 정보를 가져와 정답을 낼 수는 있지만, 그것이 AI의 본질(파라미터, 코드) 자체를 영구적으로 변화시키지는 못한다. 그저 잠시 참고할 뿐이다.
반면 루시는 달랐다. 헨리의 헌신적인 사랑이라는 반복된 입력값은 단순한 데이터를 넘어, 그녀의 뇌라는 시스템의 코드를 바꿔버렸다. 이것이 바로 기계가 흉내 낼 수 없는 인간만의 영역, 혹은 현재의 인공지능이 넘어야 할 가장 높고 아득한 벽이 아닐까.