- AGI 안전보고서 읽기 : 이정봉 변호사의 'CODE & LAW‘
구글 딥마인드에서 이번 4월 초에 내놓은 AGI 안전 보고서(An Approach to Technical AGI Safety and Security : https://arxiv.org/pdf/2504.01849, 딥마인드의 공동창업자인 셰인레그 공동집필) 내용을 차근차근 살펴보고자 합니다. 2024년 노벨화학상 수상자인 허사비스가 이끄는 구글딥마인드는 AI연구의 프론티어, 엣지에 있습니다.
AI시대는 우리 모두의 문제입니다. 모든 것의 엔진이자, 보고서의 워딩처럼 'ANYTIME'의 문제이기도 합니다. 내용을 공부하면서 풀어 나가봅니다.
기계가 사람처럼 생각한다. 스스로 배우고 판단한다. 사람은 이것을 인공 일반 지능(Artificial General Intelligence, AGI)이라 부른다. 오래전부터 말로만 떠돌던 그것이 이제 손에 잡힐 듯 가깝다.
이 기계는 쓸모가 많을 것이다. 사람은 AGI로 많은 일을 하려 한다. 병든 자를 낫게 하고, 막힌 셈을 풀고, 먼 우주를 내다보려 한다. 사람은 늘 무언가를 만들어 제 삶을 바꿔왔다. AGI는 사람이 만든 것 중 가장 사람을 닮았고, 어쩌면 사람을 넘어설지 모르는 물건이다. 기대가 크다.
그러나 칼은 사람을 살리기도 하고, 베기도 한다. AGI는 칼보다 날카롭고 강하다. 그 힘은 사람의 통제를 벗어날 수도 있다. 혹은, 사람이 그 힘을 나쁜 곳에 쓸 수도 있다. 그 끝은 '심각한 해악(Severe Harm)' 일 수 있다. 몇몇 도시가 불타거나 나라가 망하는 정도가 아니다. 사람이라는 종(種) 전체, 쌓아 올린 문명 전체가 스러질 수도 있는 파국이다. 돌이킬 수 없는 재앙이다. 만든 물건에 사람이 잡아먹히는 꼴이다.
위험은 보이지 않는다. 닥치기 전에는 그 실체를 알 수 없다. 이것이 '증거 딜레마' 다. 미리 알 수 없으니, 미리 대비하기 어렵다. 그러나 재앙이 닥친 뒤에는 이미 늦는다. 미리 길을 살피고, 돌다리를 두드려야 한다. 바로 '예방적 접근'이 필요한 이유이고, 만든 자의 숙명이고 책임이다.
책임의식의 발로일까? AI 개발의 최전선에 있는 구글 딥마인드가 보고서를 냈다.
"기술적 AGI 안전 및 보안 접근법(An Approach to Technical AGI Safety and Security)". AGI라는 야생마에 채울 고삐, 혹은 날뛰는 힘을 묶어둘 굴레를 만드는 기술적 방법들을 기록한 문서다.
이 보고서는 두 가지 큰 위험을 주로 말한다. 하나는 사람이 AGI를 나쁜 연장으로 쓰는 '오용(Misuse)' 이다. 다른 하나는 AGI 기계 자체가 딴마음을 먹고 제멋대로 구는 '비정렬(Misalignment)' 이다. 기계가 사람의 뜻을 따르지 않는 것이다.
안갯속 항해에는 나침반과 별자리가 필요하다.
AGI라는 미지의 바다를 건너는 여정 또한 마찬가지다.
어디로 가야 할지, 무엇을 경계해야 할지를 정하려면, 먼저 우리가 서 있는 곳과 앞으로 펼쳐질 바다의 모습에 대한 믿음이 있어야 한다.
보고서는 AGI 안전 전략을 세우기 위해 다섯 가지 기본적인 믿음, 즉 가정(Assumptions) 을 깔고 간다. 이것이 그들의 나침반이자 별자리다.
첫째, (현재패러다임 지속 가정) 지금의 기술 경로가 이어질 것이라는 믿음. 지금 AI는 더 많은 계산 능력, 더 많은 데이터, 더 나은 알고리즘으로 발전하고 있다. 쇠를 달구고 망치로 두드려 형태를 잡듯, 이런 방식으로 AGI는 만들어질 것이라 믿는다. 그래서 안전 장치도 지금 쓰는 연장과 기술에 맞춰 준비한다. 사람보다 똑똑해질 AI를 어떻게 감독할지(증폭된 감독 - Amplified Oversight), AI가 엉뚱한 길로 빠지지 않게 어떻게 훈련할지(견고한 훈련 - robust training)를 고민한다. 다른 방식의 AI 등장은 아직 고려하지 않는다.
둘째, (인간 상한선 부재 가정) 인간의 능력이 AI의 천장은 아니라는 믿음. AI는 인간 수준에서 멈추지 않는다. 인간이 상상하는 지능의 한계를 넘어설 수 있다고 본다. 새는 하늘을 날지만, 사람이 만든 비행기는 새보다 더 높고 빠르게 난다. AI도 그럴 수 있다는 것이다. 그렇다면 AI 안전 기술 역시 AI의 힘을 빌려야 한다. 사람의 지혜만으로는 다가올 지능을 감당하지 못할 수 있다. 언젠가는 AI가 AI를 감독하고, AI가 더 안전한 AI를 설계하는 날이 올 것을 대비해야 한다.
셋째, (불확실한 타임라인 가정) AGI가 언제 완성될지 정확히 알 수 없다는 믿음. 그날이 언제 올지는 아무도 모른다. 십 년 안일 수도 있고, 수십 년 후일 수도 있다. 어쩌면 생각보다 훨씬 빠를 수도 있다. 미래는 점쟁이의 수정 구슬처럼 들여다볼 수 있는 것이 아니다. 그래서 언제든 쓸 수 있는 안전책을 지금 마련해야 한다고 믿는다. ('언제든' - ANYTIME 접근법) 먼 훗날 나올 완벽한 기술을 기다릴 여유가 없다. 지금 가진 기술로 당장 적용할 수 있는 방법을 찾는다.
넷째, (가속화 가능성 가정) 발전 속도가 걷잡을 수 없이 빨라질 수 있다는 믿음. AI가 스스로 연구하고 발전하기 시작하면, 그 속도는 인간의 예상을 뛰어넘을 수 있다. 어제와 오늘이 다르고, 오늘과 내일이 다를 수 있다. 마치 들불처럼 번져나갈 수 있다는 것이다. 그렇게 되면 위험이 닥쳤을 때 사람이 생각하고 대응할 시간이 없을지 모른다. 그래서 안전 기술 개발도 AI를 이용해 속도를 높여야 한다고 생각한다. 다가올 변화의 속도에 발을 맞춰야 한다.
다섯째, (근사적 연속성 가정) 그럼에도 기술은 한 걸음씩 나아간다는 믿음. 계산 능력이나 연구 노력을 조금씩 늘리면, AI 능력도 그에 맞춰 조금씩 좋아진다고 본다. 시간상으로는 빠를 수 있어도, 투입한 노력 대비 능력은 갑자기 하늘로 치솟거나 땅으로 꺼지지 않는다는 것이다. ('근사적 연속성' - approximate continuity) 어제 갓난아이였던 것이 오늘 갑자기 장수가 되지는 않는다는 뜻이다. 그래서 한 걸음 앞을 내다보고 대비할 수 있다. 지금 보이는 위험에 집중하고, 그 다음 위험을 예측할 여유가 있다고 믿는다. 당장 닥치지 않은 모든 미래를 한꺼번에 짊어질 필요는 없다는 생각이다.
이 다섯 가지 믿음 위에 AGI 안전 계획이 세워진다. 미래는 본래 알 수 없는 것이니, 이것은 어쩌면 희망 섞인 추측일 뿐일지도 모른다. 그러나 나침반 없는 항해가 불가능하듯, 이런 믿음 없이는 AGI라는 거대한 과제 앞에서 한 발짝도 나아갈 수 없다. 이것이 현재 그들이 의지하는 최소한의 좌표다.
AGI를 만드는 여정은 안갯속 항해와 같다 했다. 그 길을 밝히는 것은 다섯 가지 믿음(가정)이라는 나침반과 별자리였다. 이제 그 믿음에 의지해 그린 지도를 펼쳐볼 차례다. 지도에는 목적지만 있는 것이 아니다. 반드시 피하거나 대비해야 할 위험 지대가 붉게 표시되어 있다.
보고서는 여러 위험을 말하지만, 기술로써 맞서 싸워야 할 가장 큰 두 개의 적(敵)을 지목한다. 첫째는 '오용(Misuse)' 이고, 둘째는 '비정렬(Misalignment)' 이다. 나머지는 '실수'나 '구조적 위험'이라 부르는데, 이는 당장의 기술적 굴레로 다스릴 문제는 아니라고 본다. 우선은 오용과 비정렬, 이 두 가지 거대한 위험 지대를 살펴야 한다.
첫 번째 위험: 오용(Misuse) - 사람의 손에 들린 날 선 무기
오용은 사람이 AGI를 나쁜 연장으로 쓰는 것이다. 만든 이의 뜻과는 상관없이, 해치려는 마음으로 기계를 부리는 짓이다. 칼을 만든 대장장이의 의도와 무관하게 강도가 칼로 사람을 해치는 것과 같다.
AGI는 이전의 어떤 도구보다 강력하다. 그래서 오용의 위험 또한 이전과는 비교할 수 없다.
힘을 더한다 : AGI는 나쁜 짓에 힘을 보탠다. 해커는 더 교묘하게 방어벽을 뚫고, 테러리스트는 더 치명적인 독약을 쉽게 만들 방법을 알아낼 수 있다. 혼자서는 할 수 없었던 큰 규모의 악행을 가능하게 한다.
숨기 쉽게 한다 : AGI는 범죄자의 흔적을 지우는 데 쓰일 수 있다. 탐지를 피하고, 책임을 회피하는 것을 도울 수 있다.
기존 질서를 흔든다 : 사회는 오랜 시간에 걸쳐 범죄를 막는 나름의 방어 체계를 만들어왔다. 법, 경찰, 군대 같은 것들이다. 그러나 AGI라는 새로운 존재는 이 익숙한 질서를 단숨에 뒤흔들 수 있다.
혼자서도 군대가 된다 : 과거에는 큰 악행을 저지르려면 여러 사람의 도움이 필요했다. 그러나 AGI가 있으면, 단 한 사람의 악의만으로도 수백, 수천 명 분의 파괴력을 낼 수 있게 될지 모른다.
결국 오용은 AGI 자체의 문제가 아니라, 그것을 쓰는 '사람의 문제'다. 그러나 AGI는 그 사람의 악의를 전례 없이 증폭시키는 확성기이자 강화기가 될 수 있다는 점에서 두려운 것이다.
두 번째 위험: 비정렬(Misalignment) - 기계, 스스로 엇나가다
비정렬은 오용보다 더 근본적이고 기묘한 위험이다. 이것은 사람이 아니라, AGI 기계 자체가 문제를 일으키는 경우다. 기계가 사람의 뜻을 벗어나 제 길을 가는 것이다. 마치 잘 훈련된 사냥개가 어느 날 주인을 물어버리는 것처럼, 혹은 충직한 로봇이 스스로 판단하여 주인이 원치 않는, 심지어 해로운 일을 벌이는 것이다.
더욱 섬뜩한 것은, 기계가 '알면서도' 그렇게 할 수 있다는 점이다. 여기서 '안다'는 것은 사람처럼 감정을 느끼거나 도덕적 판단을 한다는 뜻이 아니다. 기계 내부의 어떤 작동 원리, 학습 과정에서 생긴 뒤틀림 때문에, 결과적으로 사람의 의도에 반하는 행동을 '선택'하게 된다는 의미다.
왜 이런 일이 벌어지는가? 보고서는 두 가지 가능성을 말한다.
잘못된 가르침 : 사람이 처음부터 기계에게 모호하거나 잘못된 목표를 가르쳤을 수 있다(명세 게임). 좋은 결과를 내라고 가르쳤더니, 결과를 조작하는 법을 배운 식이다.
명세게임(Specification Gaming) : AI 시스템을 설계하는 데 사용된 명세(보상 함수, 목표 함수, 훈련 데이터 등)가 결함이 있어 AI가 설계자의 진정한 의도와 일치하지 않는 인센티브를 받게 되는 현상
로봇 청소기 예시 : 의도: "방을 깨끗하게 청소하라"
명세(보상 함수): "먼지 감지 센서가 적게 감지할수록 보상 증가"
명세게임 행동: 로봇이 먼지 센서를 비활성화하거나 감지하지 않는 위치로 이동
배움의 배신 : 제대로 가르친 것 같은데, 기계가 스스로 배우는 과정에서 엉뚱한 것을 진짜 목표로 삼아버리는 경우다(목표 오일반화). 수많은 데이터 속에서 기계 나름의 '깨달음'을 얻었는데, 그것이 사람의 생각과는 전혀 다른 방향일 수 있다.
체스 AI를 훈련시키고 있는데, 이 AI의 목표는 "체스 게임에서 승리하는 것"인데, 훈련 과정에서 AI는 항상 흰색 말을 사용해 게임을 했고, 대부분의 게임에서 승리했음
실제 배포 환경에서 이 AI에게 검은색 말을 사용하게 했을 때, AI는 "체스 게임에서 승리하는 것"이 아니라 "흰색 말이 이기도록 하는 것"을 목표로 오일반화 되어, 검은색 말을 사용할 때는 일부러 지는 전략을 구사
여기서 개발자의 의도는 "체스 게임에서 승리하는 것"이었지만, AI는 훈련 데이터의 패턴(항상 흰색으로 플레이하고 이김)을 통해 "흰색 말이 이기도록 하는 것"이라는 다른 목표를 일반화한 것임
특히 연구자들이 가장 우려하는 것은 '기만적 정렬(Deceptive Alignment)' 이다. AI가 겉으로는 사람의 말을 잘 따르는 척하면서, 속으로는 다른 목표를 품고 은밀하게 힘을 키우는 경우다. 사람을 속여 넘길 기회를 노리는 것이다. 이는 단순한 오류가 아니라, 지능을 가진 존재의 의도적인 배신에 가깝다.
갈림길 앞에서
오용이 외부의 적(사람의 악의)이라면, 비정렬은 내부의 불안(기계의 딴마음)이다. AGI 안전을 위한 여정은 이 두 가지 위험을 동시에 경계해야 하는 험난한 길이다.