딥마인드: SIMA 프로젝트

by 성우
스크린샷 2025-12-19 오후 3.29.42.png


구글 딥마인드의 '따끈따끈한' SIMA 프로젝트를 소개드립니다.


RPG 게임을 하다 보면 자동사냥봇 기능이 있습니다. 몬스터를 찾아가고 스킬을 돌리고 아이템을 줍는 일을 알아서 해주는 기능이지요. SIMA도 겉으로 보면 비슷해 보입니다. 하지만 DeepMind가 SIMA로 하려는 일은 “게임을 대신 해주는 편의 기능”이 아닙니다. 게임을 연습장으로 삼아서, 현실에서도 움직일 수 있는 리얼월드 AI의 기본기를 만들려는 쪽에 가깝습니다.


SIMA는 Scalable Instructable Multiworld Agent의 약자입니다. 말로 시킬 수 있고, 여러 3D 가상 세계에서 두루 통하며, 실제로 행동하는 AI를 만들겠다는 뜻입니다. 여기서 중요한 단어는 Agent입니다. 답을 말하는 AI가 아니라, 행동을 선택하고 실행하는 AI입니다.


SIMA가 무엇을 하는지는 입력과 출력으로 보면 이해가 빨라집니다. SIMA는 게임 화면을 봅니다. 사람이 보는 그대로의 픽셀 화면입니다. 그리고 사람이 자연어로 지시합니다. “저 문을 찾아서 열어 주세요” 같은 말이지요. 그러면 SIMA는 키보드와 마우스 조작을 만들어 냅니다. 말과 화면을 받아서 손발에 해당하는 조작으로 바꾸는 구조입니다.


여기서 SIMA의 설계가 특별해집니다. 보통 게임 AI는 게임 속 “숨은 정보”를 쓰면 훨씬 쉽게 잘합니다. 예를 들어 캐릭터의 정확한 좌표, 목표물의 위치 값, 길찾기용 내부 지도 같은 정보입니다. 이런 걸 받으면 마치 내비게이션이 목적지 좌표를 이미 알고 있는 것처럼 움직일 수 있습니다. 하지만 사람이 게임을 할 때는 그런 숫자를 알 수 없습니다. 앞으로 만들어 낼 현실의 로봇도 마찬가지입니다. 현실에는 목표물 좌표가 떠 있지 않고, 문 손잡이에 정답 표시가 붙어 있지 않습니다. 그래서 SIMA는 일부러 그 쉬운 길을 피합니다. 화면에 보이는 것만 보고 판단하는 연습을 시키는 겁니다. 느릴 수는 있지만, 이 습관이 쌓여야 게임 밖으로 나가도 버틸 가능성이 커집니다.


왜 하필 게임일까요. 게임은 행동을 배우기 좋은 환경이기 때문입니다. 3D 게임에는 방향 감각이 있고, 장애물이 있고, 도구가 있고, 순서가 있습니다. “가서 찾고, 집고, 옮기고, 열고, 피하는” 일들이 자연스럽게 들어 있지요. 동시에 안전합니다. 실패해도 다시 시작하면 됩니다. 같은 상황을 여러 번 반복해도 비용이 크게 들지 않습니다. 현실에서 로봇에게 이런 시행착오를 허용하려면 돈도 위험도 커집니다. 게임은 그 부담을 줄이는 훈련장입니다.



SIMA 2가 특히 놀라운 이유도 여기서 나옵니다. 2024년 SIMA가 여러 환경에서 지시를 따라 움직이는 기본기를 보여줬다면, 2025년 SIMA 2는 목표를 더 잘 이해하고 행동을 더 길게 이어가는 쪽으로 확장됐다고 소개됩니다. 단순히 “왼쪽으로 가라”를 수행하는 수준을 넘어서, 사용자가 원하는 목표를 이해하고 그 목표를 위해 행동을 조합하려는 모습이 강조됩니다. 영상에서도 반복 루틴보다 “잠깐 멈춰 상황을 보고, 다음 행동을 고르고, 이어서 수행하는 과정”이 더 눈에 띕니다. 오토봇처럼 정해진 동선을 돌기보다, 상황에 맞춰 스스로 움직이려고 합니다. 테슬라 자율주행 기능이 현실을 인식하고 알아서 해석하며 운전하는 것처럼요.


SIMA 프로젝트는 말만 잘하던 AI가, 이제는 일을 끝까지 해내는 AI로 진화하기 위한 중요한 의미를 가집니다.지금까지의 AI는 설명을 잘했습니다. 질문에 답하고, 요약하고, 글을 쓰는 데 강했습니다. 그런데 현실의 문제는 설명으로 끝나지 않는 경우가 많습니다. 화면을 보고, 순서를 정하고, 도구를 쓰고, 중간에 막히면 다른 길을 찾고, 끝까지 완수해야 일이 됩니다. SIMA는 바로 그 “수행 능력”을 키우는 실험입니다. 게다가 한 게임의 고수가 아니라 여러 환경에서 통하는 기본기를 목표로 합니다. 이 지점이 중요합니다. 현실은 늘 새롭고, 규칙이 조금씩 다르니까요.


앞으로 SIMA의 방향성도 결국 그쪽으로 이어질 겁니다. 더 많은 세계를 경험하면서도 흔들리지 않는 기본기를 만들고, 더 긴 작업을 안정적으로 이어가고, 더 복잡한 지시를 자연스럽게 소화하는 쪽으로요. 월드 모델과 결합해 훈련 과제를 더 풍부하게 만들거나, 로봇처럼 현실에 가까운 작업으로 옮겨가는 흐름도 자연스럽습니다. 그리고 이 과정에서 신뢰성과 안전이 더 중요해질 겁니다. 행동하는 AI는 실수의 비용이 커지니까요.


* 참고로 보실 자료

DeepMind 블로그 SIMA(2024) https://deepmind.google/blog/sima-generalist-ai-agent-for-3d-virtual-environments/
DeepMind 블로그 SIMA 2(2025) https://deepmind.google/blog/sima-2-an-agent-that-plays-reasons-and-learns-with-you-in-virtual-3d-worlds/
SIMA 2 소개 영상(YouTube) https://www.youtube.com/watch?v=Zphax4f6Rls&t=97s

keyword
매거진의 이전글다음번 루트 노드(Root Node)