늦은 밤, 불 꺼진 연구실에서 노트북 화면들이 깜빡이고 있다. 박사과정 연구원은 논문을 읽으며 아이디어를 내고, 엔지니어는 코드를 실행하며 실험 데이터를 돌리고 있다. 박사후 연구원(Post-doc)은 결과를 분석하고, 교수는 이 모든 과정을 하나의 이야기로 엮어 학술 논문을 작성한다.
여기까지만 보면 인간 연구자들로 구성된 전형적인 연구실 모습이다. 하지만, 이 연구실은 큰 차이점이 하나 있다. 바로 사람이 없다는 점이다. 노트북 앞에는 아무도 앉아 있지 않으며, 화면 속에는 인공지능들만 있다. 정확하게는 AI 에이전트 말이다.
이 시나리오는 공상과학일까? 아니다. 실제로 컴퓨터 속에서 구현되기 시작한 현실이다. 2025년 초 한 논문에서 이런 ‘AI 연구실’ 개념이 등장했다. 미국의 AMD사와 존스홉킨스 대학 연구자들이 개발한 에이전트 연구실(Agent Laboratory)이 바로 그것이다.
에이전트 연구실에서는 GPT와 같은 거대 언어 모델(LLM)로 구동되는 여러 특화된 AI 에이전트들이 하나의 연구 프로젝트를 협업으로 수행한다. 사람이 제시한 연구 아이디어를 바탕으로, AI 에이전트들은 문헌 조사, 실험 수행, 논문 작성의 모든 단계를 거쳐 최종적으로 논문 초안과 실행 코드까지 완성해 낸다.
위 그림은 에이전트 연구실의 개념을 나타내고 있다. 왼쪽 상단의 말풍선은 인간 연구자가 던진 연구 질문이다. 그리고 그 밑에는 AI 에이전트에게 전달하는 지침이 있다. 중앙의 방 에는 네 명의 픽셀아트 캐릭터가 있는데, 이들은 각각 문헌 조사, 실험 계획, 코딩, 결과 분석 등 역할을 맡은 AI 에이전트를 형상화한 것이다. 그리고 오른쪽에는 최종 산출물인 연구 논문 초안과 코드 파일들이 정리되어 있다. 말 그대로 LLM 기반 협업 연구 자동화가 실현된 셈이다.
2025년, AI 업계 최대 화두는 ‘AI 에이전트’이다. AI 에이전트는 스스로 목표를 설정하고 이를 달성하기 위해 능동적으로 행동하는 AI 시스템을 뜻한다. 현재의 챗GPT처럼 단순히 사용자의 질문에 답하거나 정보를 검색하는 수준을 넘어서, 보다 복합적이고 고도화된 작업을 자율적으로 수행한다. 나아가 AI 에이전트는 사용자와 지속적인 상호작용을 통해 의도를 정확히 이해하고, 변화하는 환경에 빠르게 적응하며, 나아가 사용자의 요구를 미리 예측하는 역량까지 갖출 전망이다. 영화 <그녀(Her)>의 사만다가 전형적인 개인용 AI 에이전트의 형태이다.
오픈AI, 구글, 앤트로픽 등 대부분의 인공지능 기업들은 AI 에이전트 개발에 사활을 걸고 있다. 보통 우리는 에이전트 하면 <그녀>의 사만다처럼 단일 기계나 솔루션을 생각한다. 하지만 이번 연구에서 구현한 에이전트 연구실에서는 여러 에이전트가 등장하며, 이들 에이전트에게는 각자 맡은 역할이 주어진다.
예컨대 박사과정 에이전트는 연구 주제와 관련된 선행 논문들을 찾아 요약하는 일을 맡았다. 다른 박사과정생과 박사후 연구원 에이전트는 대화를 주고받으며 실험 계획을 구체화한다. 계획이 정해지면, 머신러닝 엔지니어 에이전트가 해당 계획에 맞춰 데이터를 준비하고 실제 실험을 수행했다. 실험 후, 박사과정생 에이전트와 박사후 에이전트는 함께 결과를 검토한다. 마지막으로 교수 AI 에이전트가 지금까지의 흐름을 종합해 논문 초안을 작성하고 다듬는다. 흥미로운 점은, 이 모든 과정에서 AI 에이전트들끼리 필요한 정보를 주고받으며 협력한다는 점이다. 실제 연구실에서 벌어지는 팀워크를 보는 것 같다. (실제 연구실에서도 이렇게 팀워크가 잘 맞을까?)
이처럼 여러 AI 에이전트가 팀을 이루어 연구의 처음부터 끝까지 수행한다는 점이 에이전트 연구실의 큰 특징이다. 이전까지의 시도들은 인공지능 혼자 모든 것을 해보는 형태가 많았다. 하지만 이 시스템은 여러 단계에 걸쳐 전문성을 갖춘 에이전트들이 소통하고 작업하면서, 일관된 연구 파이프라인을 구축했다.
에이전트 연구실은 두 가지 모드로 운영 가능하다. 하나는 ‘완전자율 모드’로, 말 그대로 AI 에이전트들로만 처음부터 끝까지 논문과 코드를 완성하는 방식이다. 다른 하나는 ‘협업 모드’로 문헌조사, 실험, 논문 쓰기 등 단계가 끝날 때마다 사람이 중간 결과를 검토하여 수정 방향을 제시하는 방식이다. 연구진은 두 가지 모드를 시험해 보았고, 협업 모드가 완전자율모드보다 전반적으로 품질이 더 높다는 것을 확인했다.
실제 테스트에 참가한 연구자들 대부분은 이 연구실을 활용하고 나서 “계속 사용하고 싶다”는 의향을 보였으며, AI 에이전트를 든든한 연구 파트너로 느꼈다고 한다.
AI 에이전트들로만 이뤄진 연구팀은 실제로 연구 효율을 크게 끌어올렸다. 막대한 시간과 인력이 드는 연구 작업의 상당 부분을 인공지능이 대신하면서, 소수의 인원으로도 훨씬 적은 비용으로 다양한 실험을 해볼 수 있게 되었다. 이는 곧 연구 생산성의 비약적 향상으로 이어질 수 있다.
또한, 인간 연구자의 창의성을 극대화하는 데도 도움을 준다. 단순 반복 작업은 인공지능에게 맡기고, 인간은 창의적인 구상과 비판적 사고에 집중할 수 있기 때문이다. 결과적으로 인간의 독창성과 인공지능의 속도가 조화를 이루어 연구의 질도 향상될 수 있다.
물론 에이전트 연구실에는 해결해야 할 한계와 윤리적 문제들도 존재한다.
가장 큰 문제는 역시나 할루시네이션이다. AI 에이전트는 자신 있게 다른 정보를 논문에 포함시키거나, 허위 실험을 하곤 했다. 할루시네이션은 현재 생성형 인공지능이 가지고 있는 근본적 한계이기에, 이를 줄이는 보완책이 필요하다.
또한 인공지능이 논문 작성에 기여했다면 그 사실을 반드시 공개해야 한다. 인공지능 관여를 숨긴 채 결과만 발표하면 책임 소재나 신뢰도 측면에서 혼란이 생길 수 있다. 따라서 인공지능의 참여 정도를 논문에 명시하여 독자들이 알 수 있도록 하는 투명한 절차가 꼭 뒷받침되어야 한다.
가까운 미래의 연구실 풍경은 지금과는 많이 다를 것이다. 연구자 옆자리에서 AI 논문 비서가 참고 문헌을 찾아주고, AI 코딩 비서가 대신 실험을 해 줄 수 있다. 학회에 제출된 논문의 저자 목록에 AI 에이전트의 이름이 올라가는 일도 심심찮게 찾아볼 수 있을 것이다. 연구자는 창의적 방향을 제시하는 감독이 되고, 인공지능은 성실하고 박학다식한 보조자가 되는 새로운 파트너십이 자리 잡지 않을까?
물론 이런 변화가 발생하면 과학의 본질에 대한 질문이 나올 수밖에 없다. 인공지능이 지식 탐구의 주체가 된다면, 누가 발견의 영예를 가져가야 할까? 이 질문에 대한 답은 이미 작년에 나온 바 있다. 인공지능을 활용해 노벨화학상을 받은 딥마인드의 알파폴드 연구팀 말이다.
결국 계산기와 컴퓨터 등장이 과학자를 대체한 것이 아니라 오히려 더 복잡한 문제 해결을 가능케 했다. 이처럼 인공지능 역시 그동안 불가능해 보였던 연구를 현실로 만드는 강력한 조력자가 되어줄 수 있다. 핵심은 사람과 인공지능이 각자의 강점을 살려 서로를 보완하는 일이 될 것이다.
본 포스팅에서 참고한 연구는 아래에서 확인 가능합니다.
https://arxiv.org/abs/2501.04227
최재운님의 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.