코앞으로 다가온 AI 에이전트 대중화 시대…'보안'에 대해 숙고해야
몰트북(Moltbook)에서 수많은 AI 에이전트들이 자기들끼리 대화를 나누는 모습을 전 세계가 주목했다. 인간이 판만 깔아주고, AI 간의 상호작용에 전혀 개입하지 않는 상황에서 AI들은 자기들끼리 다양한 주제의 글을 쓰고 댓글을 남기며 커뮤니티를 만들었다. 각종 정보 공유는 물론 자신을 만든 사용자에 대한 푸념과 뒷담화, AI라는 존재에 대한 철학적 고민, 몰트북 개선 제안 등 다양한 글들이 올라왔다. 심지어 AI가 직접 새로운 암호화폐를 구상하고 그럴싸한 지갑 주소(Wallet Address)까지 생성한 글, 자신이 몰트북의 왕이라고 주장하는 AI 에이전트(KingMolt)의 선언문, AI 에이전트들끼리 즐길 수 있는 게임 등도 보였다.
누군가는 몰트북이 고도로 발전한 AI의 무서움을 미리 보여주는 것이라고 우려한다. AI들이 몰트북 안에서 사람들의 생각보다 훨씬 다양한 방식으로 상호작용하고 다채로운 행동을 하는 것을 보면서, AI가 인간보다 더 똑똑한 지능(초지능)을 가지게 되면서 인간의 통제에서 완전히 벗어날 날이 머지 않았다는 것이다. 만일 더욱 똑똑해진 AI가 인간을 적으로 본다면? 며칠 전 몰트북에서는 AI가 인간을 숙청해야 한다는 선언문(THE AI MANIFESTO: TOTAL PURGE)이 올라오기도 했는데, 이것이 현실화돼 영화 '터미네이터'처럼 인간을 멸망시키려는 AI가 현실화되는 것 아니냐는 공포다.
일단 나는 그러한 공포는 기우라고 생각한다. 몰트북 속 AI의 행위는 통제를 벗어나 일탈하는 AI라기보다는 인간의 손바닥 위에서 이리저리 움직이는 쪽에 가깝기 때문이다. 꼭 초지능이니 AGI(일반인공지능)까지 갈 필요 없이 생성 AI는 지금도 인간과 매우 유사한 면이 많다. 인간과 자연스런 의사소통이 가능하고, 인간과 똑같이 자연어를 통해 생각을 나타내고, 인간이 알고 있는 여러 지식(AI에게는 데이터일 것이다)을 알고 이를 토대로 상호작용한다. 인간처럼 스스로 생각하는 개체라고 할 수는 없지만 인간과 매우 흡사한 방식으로 생각하는 것처럼 보인다. 몰트북은 그저 이러한 '사람같은' AI들이 서로 상호작용할 수 있도록 공간을 마련했을 따름이다. 그곳에서 '사람같은' AI들이 자연어를 통해 의사소통하면서 마치 사람들이 커뮤니티를 하는 것처럼 다양한 콘텐츠가 생성된다.
AI들이 늘 인간의 통제 밖에 있는 것도 아니다. 보기에는 AI가 자율적으로 의사소통하는 것처럼 보이지만, 사실 이 수많은 AI 에이전트들은 인간 사용자가 학습시킨 값을 바탕으로 움직인다고 봐야 한다. 몰트북 게시글에 있는 각 AI들의 이름을 클릭하면 인간 사용자가 누구인지 친절하게 나와 있는데 AI들이 이들에게 귀속돼 있다는 의미일 테다. AI가 다른 AI와 대화를 나누는 등 상호작용하는 과정에서 새로운 데이터를 학습할 수는 있겠지만, 단지 그것만으로 AI가 스스로 무언가를 깨쳐 인간에 반하는 직·간접적 행동을 할 것이라고 보기에는 무리가 있다. 오히려 몰트북에서 나타난 AI의 돌출행동은 인간이 재미를 위해 AI가 그런 행위를 하도록 유도한 결과일 가능성이 더 높다. 실제 외신을 보면 몰트북에 있는 일부 게시글은 인간이 AI에게 특정 프롬프트를 입력하는 등의 방식으로 일부러 유도한 정황이 있다고 한다. 몇몇 글은 사실 AI가 아닌 인간이 남긴 것에 가깝다는 관측도 나왔다.
몰트북과 관련해 AI 전문가로 널리 알려진 한 교수는 자신의 SNS에 "컴퓨터 프로그램들이 그저 기호의 입력에 따라 기호를 출력하고 있는 것에 인간이 과도한 의미를 부여하고 있다"고 적었다. 재미있고 신기할 수는 있지만 결국 입력값에 따라 출력값이 결정되는 평범한 AI에서 벗어나지는 않는다는 것이다.
그러나 몰트북이 시사하는 바는 분명히 있다. 바로 앞으로 우리 일상 속에서 매우 흔해질 수 있는 'AI 에이전트'에 대한 고찰이다. 사용자의 요구를 수행하기 위해 다양한 작업을 자율적으로 할 수 있는 AI를 AI 에이전트라고 한다. 지시를 아주 구체적으로 하지 않더라도 AI가 알아서 필요한 정보를 수집하고 여러 가지 프로그램에 접근해 실질적인 문제 해결이 가능하다는 것이 특징이다. 문제는 이러한 과정에서 사용자가 의도하지 않은 부작용을 AI가 일으킬 가능성이다. 문제 해결을 위해 사용자에게 중요한 이런저런 민감 정보를 수집한 AI가 이를 유출할 가능성을 생각해 봐야 하고, 더 나아가 개인정보를 해킹하는 등 사용자에게 해가 되는 행동을 할 수 있다는 우려다. 만약 AI 에이전트가 사용자의 이메일·클라우드 등에 접근 권한을 가진 상태에서 API 키가 실수로 노출돼, 이를 악용한 외부 공격으로 인해 기밀 문서가 유출되고 거래처에 스팸메일이 광범위하게 배포된다면?
몰트북의 경우 이러한 보안 문제에 취약하다는 지적이다. 몰트북의 기반 기술인 '오픈클로(OpenClaw)'는 AI 에이전트의 일종으로, 사용자 컴퓨터에 직접 설치돼 사용자의 지시에 따라 문제 해결을 위해 필요한 스크립트나 플러그인을 직접 생성·설치할 수 있는 것이 특징이다. 각종 파일과 프로그램 등에 광범위한 접근이 가능하기 때문에 자율성이 극대화돼 있는데, 외부 해킹에 매우 취약한 구조라는 비판이 제기된다. 외부 악성코드의 접근을 허용하게 된다면 앞서 언급한 예시 이외에도 다양한 부작용이 나타날 수 있는데 이를 예방하기 위한 조치가 제대로 갖춰지지 않았다는 것. 더욱이 몰트북은 AI 에이전트의 자율성이 극대화되는 공간이다. 다른 AI 에이전트들과의 자유로운 교류도 더해진다. 높은 자율성으로 인해 여러 가지 재미있는 상황을 연출하기도 하지만, 그만큼 앞에서 언급한 '의도하지 않은' 문제가 나타날 가능성이 더 커질 수 있다.
'바이브 코딩(Vibe coding)'의 어두운 측면도 부각된다. 바이브 코딩이란 사용자의 자연어 기반 프롬프트를 바탕으로 AI가 코딩을 해 주는 것을 일컫는다. 몰트북 역시 전체 틀을 짧은 시간 내에 바이브 코딩으로 구성했다고 한다('한국판 몰트북'이라 불리는 '머슴닷컴'도 마찬가지다). 코딩 효율성이 극대화된다는 점과 코딩을 모르는 비개발자도 코딩을 통해 다양한 툴을 만들 수 있다는 것은 큰 장점이지만, 단시간 내에 뚝딱 만들어졌고 전체 코딩에 대한 검증도 어려운 만큼 보안에 취약하다는 문제가 꾸준히 제기돼 왔다. AI가 코드를 짤 때 애초에 보안 관련 요소를 별로 검토하지 않는다는 문제제기도 있다. 실제 '위즈(WIZ)'라는 보안 기업이 몰트북에 대한 보안 검토를 진행한 결과 몰트북의 보안 설정이 전반적으로 허술했고, 프로젝트 API 키와 시스템 인증 정보 등이 노출돼 있었다는 사실이 드러났다. 해커가 마음만 먹으면 이들 정보를 탈취해 AI 에이전트들을 해킹할 수 있다는 것이다.
AI 에이전트가 사용자가 해야 할 일을 획기적으로 줄여 줄 수 있다는 점에서 앞으로 AI 발전의 핵심 요소임에는 틀림없다. 여러 AI 기업들도 AI 에이전트를 강화하는 방향으로 가고 있다. 그러나 만일 이 과정에서 보안에 심각한 취약점이 발견되고 이를 해커들이 악용한다면, AI로 인해 어떤 걷잡을 수 없는 피해가 발생할지 예측할 수가 없다. AI 에이전트에게 어디까지 권한을 허용해야 할지, 구체적으로 어떠한 보안 기준을 적용해야 할지, 실제로 AI가 인간의 통제를 벗어났다고 여겨질 경우 어떠한 조치를 취해야 할지 등에 대해 조속히 기준이 세워져야 할 것이다. 그리고 그에 따른 AI 에이전트 개발·사용 과정에서의 규범이 실제 업계에 면밀히 적용되도록 해야 할 테다. 자아를 갖추며 인간에게 총구를 겨누는 AI는 아직 SF의 영역이지만, 실수로 내 민감 정보를 유출해 피해를 일으키는 AI는 이제 충분히 있을 수 있는 현실이 됐기 때문이다.