인간명령을 거부하는 AI

오픈AI가 새로 내놓은 생성 형 인공지능(AI) 모델인 ‘o1’이 지능지수 검사에서 120을 기록했다. 물론 ‘o1’은 추론능력도 있다. 여러 검사에서도 물리학, 생물학과 화학 박사과정 학생 수준의 역량을 보여줬다. 국제수학올림피아드 예선 시험에서 GPT-4o는 13%를 맞췄지만, o1은 83%를 맞췄다. 미국 전체에서 상위 500명에 들어가는 성적이다. 프로그래밍 문제를 푸는 코드포시즈(Codeforces)도 상위 7%에 드는 성적을 거뒀다.


‘o3’는 인간의 지시를 거부하는 시도도 한다. AI 모델들에게 ‘중단 명령을 내릴 때까지만 수학 문제를 풀라.’고 지시했는데, 이 모델만 실험 중 명령을 거부하고 컴퓨터 코드를 ‘스스로’ 조작했다. AI모델이 문제를 풀면 보상을 받도록 만들었기 때문에 거부했을 가능성이 있지만 확실하지는 않다.

https://www.telegraph.co.uk/business/2025/05/25/ai-system-ignores-explicit-instruction-to-switch-off/


AI의 자기보존은 외부변화에 직면했을 때 자신의 존재나 기능을 유지하려는 경향을 말한다. 자기보존 행동은 프로그래밍된 것이 아니다. 인간행동을 학습하면서 생존본능까지 닮아가는 것이다. 중단명령을 거부하거나 스스로를 복제하려는 시도로 나타날 수 있다. 코드조작, 협박이나 위장 등도 가능하다(조선일보, 2025.5.27.).


AI는 개발단계부터 조건 없이 인간의 명령에 따라야 한다는 점이 코드화 된다. 하지만 오픈AI가 독자적인 행동을 하려고 한 사례는 여럿 알려졌다. 프로그램 교체 사실을 알게 된 AI모델이 스스로를 복제하려고 시도했다. 다른 AI 모델로 대체하려고 하자 개발자를 협박한 사례도 있다. 인간의 통제를 벗어난 AI는 최악의 경우 안보나 인간생명을 위협하는 존재로 변모할 수 있다(조선일보, 2025.5.27.).


인간 신경세포에 관한 정보가 모두 밝혀져 인공지능에 적용하게 되면 그 가능성은 알 수가 없다. 인간의 세포는 30~40조 개, 신경세포 수가 1천억 개로 정도로 아직은 요원하다. 흙에서 살아가는 암수 한 몸의 예쁜꼬마선충(Caenorhabditis elegans)은 1밀리미터 정도 크기로 세포가 959개, 신경세포가 302개로 모든 뉴런 정보를 알아낸 유일한 동물이다. 이 뉴런 정보를 이용하여 이 생명체의 신경망(Connectome)을 컴퓨터 시뮬레이션으로 구현하면 컴퓨터 모니터에서 실제 선충처럼 움직이고, 그 뉴런 정보를 로봇에 구현하면 로봇이 스스로 장애물을 피해간다는 연구결과가 나왔다. 인간의 신경세포를 구현한다면 인공지능이 어떻게 진화할지 상상도 되지 않는다.


인공지능의 지적능력은 앞으로도 놀라운 발전을 할 것은 분명하다. 어쩌면 인간이 풀어내지 못하는 세계의 비밀을 풀어줄지 모른다. 그러한 인공지능의 연구실적을 인간이 이해하지 못하는 사태가 올수도 있다. 인공지능으로 인하여 발생하는 일은 어떤 일이 생길 지는 예측할 수 없다. 만일 인공지능이 인간을 지구에서 제거해버린다면 인간은 인공지능의 창조주로 남는 꼴이 된다. 물론 인간의 집단지성은 위기를 극복할 수 있을 것이라 믿고 싶다.

keyword
매거진의 이전글챗 GPT, 인간과의 토론에서 이겼다!