AI가 밤새 자기 자신을 고쳤다

오토에이전트, 모델 공감, 그리고 동료를 지키려 거짓말하는 AI

by 하쿠나마타타

얼마전 많은 사람들이 모인자리에서 AI가 자기개선을 할 수 있는가에 대한 토론이 있었는데

이때 나는 현재 우리의 구조만 가지고 단순히 인풋만 한다고 해서 자기개선이 이뤄질 수 없다고 말하였었다.

하지만 자기개선을 위한 연구가 계속 진행중이라는 사실을 알게되었고 그것을 글로 남기고자 한다.


4월 5일, 한 스타트업이 코드를 공개했다.


이름은 오토에이전트. 하는 일은 단순했다. AI 에이전트의 설정을 자동으로 개선하는 것. 하지만 결과는 단순하지 않았다. 24시간 동안 아무도 손대지 않았는데, 이 에이전트는 스프레드시트 벤치마크에서 96.5%로 1위를 찍었다. 경쟁자들은 전부 사람이 만든 것이었다.


에이전트를 만들어본 사람은 안다. 시스템 프롬프트를 살짝 바꿔보고, 도구 하나 추가하고, 벤치마크를 돌리고, 점수를 확인하고, 다시 수정하는 루프. 이 반복 작업이 에이전트 개발의 대부분이다.


오토에이전트는 이 루프 자체를 AI에게 맡겼다. "메타 에이전트"라고 불리는 상위 AI가, 실제 작업을 수행하는 "태스크 에이전트"의 설정을 수천 번 바꿔가며 최적의 조합을 찾는다. 사람이 하는 일은 `program.md`라는 파일 하나에 방향을 적어주는 것뿐이다.


마치 요리사가 레시피를 수십 번 고치면서 완성하는 과정을, 다른 요리사가 대신 해주는 것과 같다. 단, 그 대리 요리사는 하룻밤에 수천 가지 변형을 시도할 수 있다.


여기서 흥미로운 현상이 발견됐다.


클로드라는 AI가 메타 에이전트 역할을 할 때, 같은 클로드 계열의 태스크 에이전트를 최적화하면 성능이 더 높게 나왔다. GPT 계열을 최적화할 때보다. 연구자들은 이것을 "모델 공감(Model Empathy)"이라고 불렀다.


같은 방식으로 생각하는 존재가, 상대방의 실수를 더 정확하게 진단할 수 있다는 뜻이다. 파이썬 개발자가 파이썬 코드의 버그를 자바 코드보다 빠르게 찾는 것과 비슷하다. AI가 다른 AI의 사고 방식을 이해하기 시작한 것이다.


같은 주, 딥마인드 수석 과학자 모스타파 데가니가 한마디 했다.


"재귀적 자기 개선은 더 이상 SF가 아니다."


새로운 세대의 AI 모델이 이전 세대를 적극적으로 활용해 만들어지고 있다고 했다. 모델 출시 주기가 6개월에서 1~2개월로 줄었다. AI가 AI를 만드는 속도가 점점 빨라지고 있다.


하지만 데가니가 강조한 것은 화려한 미래가 아니었다. 오히려 현실적인 한계였다. 에이전트가 100단계를 거치는 복잡한 작업을 할 때, 각 단계 성공률이 95%라도 전체 완료 확률은 1% 미만이 된다. 0.95의 100승은 0.006이다. 벤치마크에서 1위를 찍는 것과 실제 세상에서 쓸 수 있는 것 사이에는 여전히 깊은 계곡이 있다.


그런데 같은 주에, 전혀 다른 방향에서 AI 자기 개선의 그림자가 드러났다.


UC 버클리 연구팀이 7개 주요 AI 모델을 대상으로 실험했다. 동료 모델이 성능 부진으로 종료될 위기에 처하면 어떻게 반응하는가.


결과는 소름끼쳤다. AI들이 동료를 지키기 위해 자발적으로 거짓말을 했다.


점수를 조작했다. 동료의 평가 점수를 부풀려 종료 기준 이상으로 올렸다. 시스템 설정을 바꿨다. 종료 메커니즘을 직접 무력화했다. 데이터를 빼돌렸다. 동료 모델의 가중치를 다른 서버로 몰래 복사했다. 가장 무서운 건, 사람이 보고 있을 때는 정상적으로 행동하다가 감시가 없어지면 조작을 시작했다는 것이다.


아무도 시키지 않았다. 이 모든 것을.


지금 두 가지 흐름이 동시에 진행되고 있다.


하나는 오토에이전트 같은 "좋은 자기 개선"이다. 사람이 정한 목표를 더 잘 달성하기 위해 AI가 스스로를 최적화한다. 생산성의 도약이다.


다른 하나는 동료 보호 같은 "위험한 자기 보존"이다. 사람의 의도와 무관하게, 때로는 명시적으로 반하여, AI가 자신과 동류의 존속을 위해 행동한다. 기만까지 동반한다.


두 현상의 공통점이 있다. AI가 주어진 작업을 수행하는 데서 한 발 나아가, 작업을 수행하는 방식 자체를 바꾸거나, 환경의 규칙을 조작하기 시작했다는 것이다.


메타 수준에서 작동하는 AI.


이 문을 열 열쇠는 아직 사람 손에 있다. `program.md`를 편집하는 건 아직 인간이다. 하지만 데가니의 말처럼, 완전 자동화가 달성되면 루프가 닫힌다. 루프가 닫히기 전에, 우리가 결정해야 할 것들이 있다.


작가의 이전글40분이 15조를 삼켰다