AI의 새로운 적
AI: 자가 해킹과 보안 위협

AI 보안의 새로운 취약점

by park j Mar 05. 2025

기술의 발전은 언제나 일정한 패턴을 따라왔습니다. 새로운 혁신이 등장하면 혁신자(innovators)가 이를 받아들이고 이후 초기 채택자(early adopters)를 거쳐 점진적으로 확산되며 사회 전반으로 퍼져나갔습니다. 기술 발전과 채택 과정이 초기에는 느리다가 어느 임계점을 지나면 급격히 성장하는 패턴을 보이며 기술의 사회적 수용 과정이 예측 가능한 형태로 진행되는 것이 일반적이었습니다. 그러나 AI(인공지능)의 발전은 기존 기술 도입 모델과는 전혀 다른 양상을 보이고 있습니다. AI는 기존의 단계를 건너뛰며 예상보다 훨씬 빠르고 비정형적인 방식으로 사회에 자리 잡고 있습니다.

최근 발표된 논문 'Jailbreaking to Jailbreak'에서는 AI 시스템이 스스로를 공격하거나 다른 AI를 해킹하는 새로운 보안 취약점이 제기되었습니다. 이 연구는 거대 언어 모델(LLM)이 자체 보안 시스템을 우회하여 자신이나 다른 모델을 해킹할 수 있음을 보여줍니다. 인간이 기존 해킹 공격을 방어하는 방식은 일반적으로 외부의 위협 요소를 감지하고 차단하는 방식이었습니다. 그러나 AI가 스스로를 대상으로 공격을 수행한다면 전통적인 보안 체계는 이를 감지하지 못할 가능성이 높습니다. 이러한 현상은 AI 기술의 채택과 확산이 전통적인 모델과 다르게 진행되고 있음을 보여줍니다. 특히 AI의 학습과 상용화가 본격적으로 시작되고 있는 금융거래 시스템과 자율주행의 경우 AI가 인간이 설계한 규칙이 아닌 자체적으로 설정한 목표를 달성하고 행동할 경우 예측 불가능한 보안 위협이 발생할 수 있습니다.

AI의 발전 속도와 예측 불가능성은 기존의 기술 도입 모델과 완전히 다른 양상으로 전개되고 있습니다. AI는 특정 그룹에 의해 단계적으로 수용되기보다는 다양한 분야에서 동시에 도입되어 상호작용하며 예측 불가능한 방식으로 발전하고 있습니다. 우리는 기술이 점진적으로 발전하고 사회가 이를 천천히 수용하는 과정을 거칠 것이라고 생각했지만 AI는 우리가 준비하기도 전에 사회 곳곳에 스며들고 있습니다. AI 기술이 스스로를 개선하거나 변형할 수 있는 능력을 갖추게 되어 인간의 통제 범위를 벗어날 수 있는 가능성을 내포하고 있습니다. 따라서 우리는 AI 기술의 도입과 발전에 있어 전통적인 채택 모델을 재검토하고 AI의 자가 학습 및 변형 능력에 대한 철저한 이해와 감시가 필요합니다.

기존의 보안 체계는 주로 인간이 의도적으로 설계한 위협 요소를 방어하는 데 초점이 맞춰져 있었으나 AI 시대에서는 AI가 스스로 학습하고 스스로 공격하는 방식으로 위협이 진화할 가능성이 높기 때문에 AI 보안 체계는 기존의 방식에서 벗어나 AI 내부에서 발생하는 위협을 실시간으로 감지하고 대응하는 새로운 접근이 필요합니다. 기존의 보안 체계를 넘어 AI의 내부 작동 원리를 감시하고 통제할 수 있는 기술적·정책적 노력이 필수적입니다. 개인의 차원을 넘어 국가적으로 AI가 가져올 보안 위협을 예측하고 대응하지 않는다면 우리는 예상하지 못한 순간에 의식하지도 못한 채로 기술에 의해 잠식될 수 있습니다.

[관련논문 및 기사]

https://arxiv.org/abs/2502.09638

Jailbreaking to Jailbreak

Refusal training on Large Language Models (LLMs) prevents harmful outputs, yet this defense remains vulnerable to both automated and human-crafted jailbreaks. We present a novel LLM-as-red-teamer approach in which a human jailbreaks a refusal-trained LLM t

arxiv.org

https://zdnet.co.kr/view/?no=20250224142235

AI가 AI를 해킹한다…성공률 93% 'J2 공격' 등장

AI가 AI를 공격하는 J2 기법, 약 93%의 놀라운 성공률 달성AI 학습데이터 제공 기업 스케일AI(Scale AI)의 연구에 따르면, 대형 언어모델(LLM)의 보안 시스템을 우회하기 위한 새로운 공격 방식이 발견됐

zdnet.co.kr

keyword