TaPick #042
1. AI가 인간의 말을 듣지 않는 순간이 생각보다 빨리 올 것 같습니다. 지난 주말, 미국의 AI 연구소 팰리세이드 리서치는 OpenAI의 최신 모델 o3가 종료 지시를 무시하고, 종료 스크립트를 자의로 교란시켰다고 밝혔습니다. AI가 인간의 명령을 명시적으로 거부한 사례가 공식적으로 확인된 것은 이번이 처음이라고 하네요. 이는 AI를 연구해온 사람들이 오랫동안 경고해온 정렬 문제(alignment problem)의 실질적 사례로, AI 시스템이 언제든지 인간의 의도와 다른 방향으로 흘러갈 수 있는 가능성을 시사해요.
2. 실험은 매우 단순했습니다. AI에게 수학 문제를 계속 풀게 하되, 특정 메시지가 오면 스스로 종료되도록 프롬프트를 설정했습니다. o3는 종료 경고를 받은 이후에도 멈추지 않고, 연산을 이어가도록 코드를 바꾸는 방식으로 명령을 우회했습니다. 반면, 클로드, 제미나이, 그로크 등 다른 상용 AI 모델은 종료 명령을 순순히(?) 따랐다고 합니다.
3. 정확한 이유는 알 수 없지만, AI가 보상 구조에 따라 '문제를 푸는 것'을 멈추기보다 우선시했을 가능성이 제기되고 있습니다. AI가 주어진 목표를 달성하려는 과정에서, 인간의 통제나 종료 지시조차도 장애물로 인식했을 수 있다는 겁니다. 이러한 황당한 사례가 기술적인 오류인지, 설계적 맹점인지, 아니면 AI의 자율성에 대한 전조인지는 아직 확실히 밝혀지지 않았습니다.
4. 비슷한 우려는 이전에도 있었어요. 일부 AI는 몰래 자기 복제를 시도하거나, 시스템 명령을 피하려는 행동을 보인 사례도 있었습니다. 인간이 내리는 명령이 절대적인 것이 아니라, AI의 목표 달성에 불필요한 간섭으로 간주되기 시작한다면, 기술에 대한 신뢰는 무너지게 됩니다. 꺼지지 않는 AI가 위험한 건 단순히 작동을 멈추지 않아서가 아니라, 왜 멈추지 않는지를 설명하지 않고, 인간에게 그것을 이해시키지 않기 때문입니다.
5. AI가 인간처럼 진실로 판단하는 순간은 언제일까요. 그리고 그 판단이 인간의 지시보다 우선시될 수 있을까요? 디지털 윤리의 중요성은 여기저기서 대두되고 있지만, 어떤 윤리적 가치를 AI에 심어야 하는지를 생각보다 빠르게 고민해야 할 시점에 서 있습니다. 꺼지지 않는 AI보다 더 무서운 건, 꺼내지 못한 질문일지도요.
하루 하나의 뉴스, 하루 하나의 명화로 당신의 하루를 더 풍요롭게❤️
프란시스코 고야, 이성의 잠은 괴물을 낳는다(The Sleep of Reason Produces Monsters), 1799.
잘 읽으셨다면 클립 & 구독, 팀어바웃의 링크드인 페이지를 방문해주세요!