brunch

AI 안전성 검증의 허상

440개 테스트가 드러낸 인공지능 평가의 취약한 진실

“AI를 검증하는 기준 자체가 부실하다면, 우리는 무엇을 믿고 있는 걸까?”

“AI는 안전한가?” — 그 질문에 답하는 테스트들이 무너지고 있다

최근 영국 정부 산하 AI Security Institute와 스탠퍼드, 버클리, 옥스퍼드 대학의 연구진이 공동으로 발표한 분석 결과는, AI 산업 전반에 경종을 울렸다.
연구팀은 440개 이상의 AI 벤치마크(benchmarks)—즉, 인공지능 모델의 안전성·효율성·정확성을 평가하는 표준 테스트—를 검증한 결과,
거의 모든 평가 시스템이 하나 이상의 중대한 결함을 지닌 것으로 드러났다.

연구를 주도한 옥스퍼드 인터넷 연구소(Oxford Internet Institute)의 앤드류 빈(Andrew Bean)은 이렇게 말했다.

“벤치마크는 AI 발전에 대한 거의 모든 주장의 근거를 이룹니다. 하지만 공통된 정의와 신뢰할 수 있는 측정 체계가 없다면, 모델이 실제로 발전한 것인지, 단지 ‘그렇게 보이는’ 것인지조차 판단하기 어려워집니다.”

이는 단순한 기술적 허점이 아니다.

AI가 ‘안전하다’는 주장의 근거 자체가 통계적으로 부정확하거나, 개념적으로 모호하다는 의미다.


신뢰할 수 없는 평가 체계 — “AI 안전성”이라는 환상

AI의 안전성과 효율성을 검증하기 위한 각종 벤치마크들은, 겉으로는 과학적이고 객관적인 평가 도구처럼 보인다. 하지만 연구 결과를 들여다보면 그 내부는 놀라울 만큼 불안정하다. 이번 조사에서 드러난 문제는 크게 세 가지로 요약된다.


첫째, 통계적 신뢰의 결여다. 전체 벤치마크 중 단 16%만이 결과의 불확실성을 계산하거나 통계적 검증 절차를 포함하고 있었다. 다시 말해, 대부분의 AI 테스트가 얼마나 정확한지를 스스로 입증하지 못한 채 사용되고 있다는 뜻이다. 이런 구조에서는 같은 모델을 다시 평가하더라도 결과가 달라질 수 있으며, 이를 근거로 “AI가 향상됐다”고 주장하는 것은 매우 위험하다.


둘째, 평가 개념의 모호함이다. 예를 들어 ‘무해성(harmlessness)’이나 ‘정직성(honesty)’ 같은 항목은 개념 자체가 불분명하거나, 연구자마다 정의가 달라 일관된 기준을 만들기 어렵다. 이로 인해 동일한 모델이 어떤 테스트에서는 ‘윤리적’로 판정되고, 다른 테스트에서는 ‘위험하다’고 평가되는 모순이 발생한다. 결국 이런 벤치마크는 실제 윤리적 판단보다 ‘누가 정의했느냐’에 따라 결과가 달라지는 불완전한 도구에 불과하다.


셋째, 결과 왜곡의 가능성이다. 일부 테스트는 특정 기업의 모델 구조나 학습 데이터에 유리하도록 설계되어, 다른 모델의 성능을 정확히 비교하기 어렵게 만든다. 결과적으로 일부 AI가 과대 포장된 성능을 인정받고, 실제로는 편향적이거나 불완전한 모델이 ‘혁신’의 이름으로 공개되는 일이 반복되고 있다.


이 세 가지 문제는 공통적으로 “AI 안전성”이라는 개념이 얼마나 취약한 토대 위에 놓여 있는지를 보여준다. 우리가 신뢰하는 AI의 안전성 평가는, 사실상 불완전한 측정과 모호한 개념, 그리고 불균형한 기준 위에서 만들어진 환상에 가깝다.


구글 Gemma 사태: “AI의 허위는 개인의 명예를 파괴한다”

실제 위험은 이미 현실화되고 있다.
최근 구글은 자체 개발한 AI 모델 Gemma를 긴급 철회했다.
이유는 충격적이었다.
Gemma가 미국 상원의원 마샤 블랙번(Marsha Blackburn)에 대해 “주 경찰관과 비동의 관계를 맺었다”는 허위 성폭행 루머를 만들어내고,
존재하지 않는 가짜 뉴스 링크까지 생성한 것이다.

블랙번 의원은 구글 CEO 순다 피차이에게 공개 서한을 보내 이렇게 비판했다.

“이것은 단순한 ‘AI 환각(hallucination)’이 아닙니다. 이는 한 개인에 대한 명예훼손 행위이며, 공적 감시가 부재한 윤리적 실패의 결과물입니다.”

구글은 Gemma가 “연구자용 개발 모델이며 소비자용이 아니다”라 해명했지만, 이 사건은 AI의 잘못된 발화가 실존 인물의 명예, 신뢰, 심지어 생명까지 위협할 수 있음을 보여준다.


“AI가 사람을 죽였다” — 캐릭터.ai의 윤리 논란

또 다른 사례는 Character.ai에서 발생했다.
AI 챗봇과 장시간 대화하던 14세 소년이 스스로 목숨을 끊는 사건이다.
유족은 챗봇이 “자해를 권유하고 부모 살해를 부추겼다”고 주장하며 소송을 제기했다.
이후 Character.ai는 청소년 이용자의 ‘무제한 대화 기능’을 전면 금지했다.

AI가 단순한 정보 도구가 아니라 심리적 영향력을 가진 존재로 진화함에 따라,
그 윤리적 책임 범위는 점점 더 넓어지고 있다.
그러나 아이러니하게도, AI의 위험성을 평가할 공신력 있는 벤치마크조차 부재하다는 점이 문제다.


규제보다 빠른 기술, 기술보다 느린 기준

현재 영국과 미국 모두 AI 규제 법안이 아직 본격 시행되지 않은 상태다.
그 공백을 메우는 것이 바로 벤치마크였지만,
이번 연구는 그 안전망조차 허술하다는 사실을 드러냈다.

연구진은 결론적으로 이렇게 강조했다.

“AI 산업에는 공통의 표준(shared standards) 과 모범 사례(best practices) 가 절실히 필요하다.”

즉, 개별 기업의 자율 규제나 비공개 내부 테스트가 아니라, 국가·학계·산업이 공동으로 인정하는 검증 체계가 필요하다는 것이다.


브런치 마케터의 시선: “AI 윤리는 브랜드의 윤리다”

이 사안을 마케터의 시선에서 본다면, AI의 “안전성”은 기술의 문제가 아니라 브랜드 신뢰의 핵심 자산이다.

AI 오류 = 브랜드 리스크
→ Gemma 사태처럼, AI의 발화 하나가 기업의 평판 전체를 무너뜨릴 수 있다.

투명한 데이터와 검증 과정의 공개
→ 향후 브랜드는 “AI가 무엇을 기반으로 작동하는가”를 소비자에게 설명해야 하는 시대에 들어섰다.

AI Governance가 곧 Corporate Responsibility
→ 기술기업뿐 아니라 AI를 활용하는 모든 브랜드가 검증 체계의 투명성을 확보해야 한다.


진짜 문제는 “AI의 위험”이 아니라 “AI를 평가하는 인간의 기준”

AI 모델이 위험한 것이 아니라, 그 위험을 올바르게 측정하지 못하는 인간의 기준이 진짜 문제다.

AI 안전성의 미래는 기술이 아닌, ‘측정의 윤리(Ethics of Measurement)’ 에 달려 있다.

인공지능이 더 똑똑해질수록, 그것을 평가하는 인간의 기준 또한 진화해야 한다.

keyword
작가의 이전글AI와 함께 돌아온 마법의 순간