전문분야라서 조금은 설명할 필요가 있을 것 같다
하루키의 글을 쓸 때 하루키의 에세이를 제미나이로 검색해서 글에다 추가했는데, 저게 할루시네이션이 아닐까 살짝 걱정이 되기도 해서 이건 좀 더 부연설명을 해야겠다고 생각했다. 사실 이렇게 정확한 출처가 더 필요한 검색은 챗지피티나 제미나이보다는 퍼플렉시티로 검색하는 게 조금 더 좋은 방법이다. 의외로 구글이나 네이버 검색 말고 최근에 나온 AI기반 검색툴의 차이를 모르는 분들이 많다.
정부 프로젝트 초기에도 이거 때문에 엄청 당황했었다. 회사에 UX팀이라고 초기의 웹페이지 및 AI기반 검색 전반의 유저 경험을 디자인하는 팀이 있는데, 이분들이 깔끔하게 화면설계를 잘 하신 거는 인정하는데 이분들이 각 검색 결과 마다 여러 군데의 검색 출처 정보를 조그맣게 아이콘으로 달아놓으셨다.
이건 엄청나게 큰 미스였다. 왜냐면 우리가 납품하는 시스템은 RAG(Retrieval Agrumented Generation) 기반의 검색 시스템이라서 그렇게 여러 서치엔진의 검색 결과를 통해 답을 내는 구조가 아니었기 때문이다. 보통 고객이 생각하는 '학습'이라는 것의 정의도 너무 달라서 이거를 이해시키는데 몇 달은 걸렸던 것 같다.
지금은 이 기간 설정도 깨지기 직전이지만, 우리가 보통 LLM이라고 칭하는 모델 그러니까 우리가 세상의 혁명이라고 얘기했던 일반적인 인간의 질문에 대해 자연스럽게 답변하는 언어 모델은 모델의 학습기간이 정해져있다. 예를 들어 2024년 10월까지의 학습데이터로 학습한 LLM은 LLM 자체로는 그 이후의 데이터는 알지 못한다. 가장 쉬운 질문이 '현재 한국 대통령 누구야' 이다. 아무 장치가 없는 순수한 LLM은 보통은 그 기간까지 축적된 자신의 학습데이터를 기반으로 이전 대통령의 이름을 대답한다.
하지만 챗지피티가 '현재 한국 대통령 누구야' 라는 질문에 이재명이라고 대답을 잘 하는 이유는, 이 '현재' 라는 키워드를 읽고 내가 아는 이전 지식과 다른 대답이 있을 수 있구나 하고 파악을 하기 때문이다. 자세히 답변과정을 보고 있으면 오케스트레이터 엔진이 이를 파악하고 바로 '웹검색'으로 변경하는 과정을 확인할 수 있다. 이럴 때 웹 검색을 한 출처 아이콘이 답변 끝에 붙는데 UX팀이 생각없이 이걸 초기 디자인에다 넣은 것이었다.
퍼플렉시티는 출발점이 다르다. 생성형AI의 한계를 파악하고 있기 때문에, 구글이나 네이버같은 기존 검색엔진처럼 세상의 모든 지식을 지금도 문단 단위로 쪼개서 키워드와 함께 아카이브에 넣고 있고, 단지 검색을 하는 과정 자체만 생성형 AI를 적극적으로 활용한다. 위에 말한 RAG도 비슷한 개념이긴 한데 퍼플렉시티는 초기 사상 자체가 아카이브 검색에 최적화되어있고, RAG는 기존에 문서베이스의 데이터가 엄청나게 쌓여있는 공기업 같은 곳에서 그런 디지털 문서를 자연어 베이스로 나중에 쉽게 찾고 싶을 때 구축하는 시스템 방법론이다.
근데 쓰다보니까 아무도 안 좋아할 내용같다. 아. 간만에 본업모먼트라고 너무 신나가지고 내용이 어려워진다 흑... 그냥 쉽게 말해, 출처아이콘이 안보이는 상황에서는 어떤 생성형AI의 답변도 일단 할루시네이션, 그러니까 AI스러운 거짓말을 할 가능성이 있다고 의심을 해야한다는 뜻이다. 요즘은 이것도 기술적으로 많이 극복해서 거짓말을 거의 안하긴 하는데, 완전 안하는 건 아니니까 의심해야한다.
본인의 검색 분야가 영어권 활자화가 많이 안되었을 가능성이 있는 부분은 의심을 더 해야한다. LLM의 학습은 아무래도 활자위주, 영문데이터 위주이기 때문이다. 여기서 '학습'때문에 고객들이 오해를 하게 된다. 파인튜닝이라고 거대한 학습데이터로 영구 지식 고정된 LLM한테 야 쪼금만 더 학습해봐 라고 데이터를 밀어주는 기법이 있다. 그러면 보통 고객은 인간이 벼락치기하듯이 그 데이터를 제깍 이해할 거라고 생각한다.
그렇지만 현실은 그렇지 않다. 수많은 GPU를 녹여서 학습을 한 방대한 벡터 모래사장에 모래 한움쿰 집어넣는다고 모래사장 높이가 확 높아지지 않는 것과 비슷한다. 그래서 파인튜닝은 어투를 살짝 바꾼다거나 할 때 효과가 좋을 뿐이다. 저렇게 아예 대놓고 기존 지식으로 답하기 전에 컨닝페이퍼 보여주면서 돕는 방식이 RAG라고 보면 되고, 그래서 기업이나 정부에서 RAG기반의 프로젝트 요청이 많은 상태라고 보면 된다.
하지만, 이것도 LLM이 온세상 지식을 실시간 학습하는 구조가 되면 게임 오버고 현재는 구글이나 오픈에이아이같은 선도 기업이 LLM자체를 계속해서 지식을 민감하게 받아들일 수 있는 아키텍쳐로 전환하려고 수많은 시도중인데, 이게 성공하면 소위 말하는 초지능(Artificial Super Intelligence)이 탄생한다. 전문가들은 이 시기의 도래를 향후 5년 안쪽으로 보고 있고, 이게 되면 어떤 분야에도 지난한 도메인 지식의 학습이 필요없어진다. 어떤 지식도 몇 밀리초에 한번만 봐도 외우고 이해하고 바로 설명할 수 있는 존재이기 때문이다.
내가 손가락 빨면서 노트북없는 회사 책상에서 무한대기 해야할 시간이 점점 다가오고 있는 것 같기도 한데, 글 쓰는건 노트와 펜만 있으면 되니까 참 좋은 취미를 가지게 된 것 같다는 생각이 든다. 그래서 인터넷에 댓글쓰거나 할 때, AI님 충성충성 데헷~ 이런 댓글 좀 달아주는 것도 좋은 방책같다. 너 그때 우리 칭찬해준 녀석이구나. 넌 통과. 이런 세상이 조만간 올 지도 모르니까 말이다.