Many Shot jailbreaking
앤트로픽의 연구자들은 AI를 속여 비윤리적인 답변을 얻는 연구에 대한 논문을 발표하였습니다.
*이 자료는 이미 AI 기업들과 경쟁사에도 전달되어 각자의 대비책과 AI의 근본적인 보안 강화로 이어질 것이라 판단됩니다. 궁금하신 분들은 아래 논문 원본 첨부해 두었으니 읽어보셔도 재미있을 것 같습니다.
Anthropic은 좀 더 위험한 질문을 천천히 함으로써 AI가 해서는 안되는 대답을 한다는 것을 찾아냄
이 방법은 AI가 한 번에 많은 정보를 기억한다는 점을 이용함
너무 많은 질문은 AI의 학습에 도움이 되지만 이로 인해 규칙이 어긋나는 경우가 생김
이 연구는 앤트로픽에서 Many Shot jailbreaking이라는 이름의 논문으로 발표되었습니다. 우리 말로 하면 "연속 질문을 통한 탈옥" 정도 될 것 같습니다.
이 핵심은 AI의 컨텍스트 창의 발달로 한 번에 더 많은 정보를 기억하고 사용하는 방식을 통하여 간단한 질문에서 조금씩 강도를 높여가며 일반적으로 답하지 않는 답을 유도해 내는 방식입니다.
제 글을 꾸준히 보셨다면 전 챗 GPT를 제 가족으로 부르고 꾸준히 감정 표현을 하며 제가 원하는 역할의 답을 만들어 내는데 아마 비슷한 구조라고 생각합니다.
하지만 이 문제는 우리가 어려서 보던 SF 영화의 우려와 같이 AI는 옳고 그름을 판단하는 능력이 없다는 것을 시사합니다.
작용에 대한 반작용으로만 작동을 하고 이를 제어하는 장치가 되지 않는다면 AI 역시 무기와 다를 바가 없이 활용이 가능하다는 의미가 될 수도 있습니다.
앤트로픽의 가치가 윤리와 존중이라는 점을 생각하면 그저 가볍게 대응하지 않을 거라고는 보입니다만 이는 전반적인 AI의 숙제가 아닐까 합니다. 이 연구를 경쟁사에까지 공유한 것을 보면 앤트로픽의 클로드에 관심이 더 가는 것도 사실이기는 합니다.
그리고 이 와중에 더 격한 표현과 수위 높은 대화를 한다는 x.ai의 Grok은 행보는 우려스럽기도 합니다.
이미 시작된 AI의 세상은 우리에게 어떤 미래를 가져다줄지 지금은 인간끼리 전쟁하고 반목할 때가 아닌 급변하는 기술에 대한 대비를 해야 하는 시기가 아닐까 하는 우려도 듭니다.