오픈 AI의 새로운 투명성 기술, 고백(Confessions)
AI는 이제 단순한 정보 검색 도구를 넘어 우리의 삶 곳곳에서 다양한 의사결정을 돕는 존재가 되었습니다. 진로 고민과 금융 선택부터 건강 관련 조언, 심지어 법률적인 상황까지… 우리는 수많은 순간에 AI에게 답을 구하고 있습니다. 하지만 질문을 한 뒤에는 늘 미묘한 불안이 따라왔습니다. “AI가 내놓은 답변 중에 혹시 틀린 건 없을까?” 특히 AI가 모르는 사실을 숨기거나, 존재하지 않는 정보를 그럴듯하게 꾸며내는 경우까지 있었기에 이러한 의구심은 쉽게 사라지지 않았습니다. 업계에서는 이런 현상을 ‘환각(Hallucination)’이라고 부르죠. 오픈 AI가 최근 공개한 연구는 바로 이 환각 문제를 정면으로 다룬 시도입니다. 그 핵심은 ‘AI 스스로 실수를 고백하도록 훈련시키는 것’이었습니다.
기존의 언어 모델은 정답을 맞히기 위한 목적과 사용자에게 도움이 되는 답변을 주는 목적, 그리고 정책을 어기지 않고 안전하게 행동해야 한다는 목적 등 여러 가지 목표를 동시에 달성해야 했습니다. 하지만 이 목표들은 서로 충돌할 때가 있습니다. 예를 들어 특정 조건을 반드시 지키라는 지시가 들어왔을 때, 모델이 조건을 어겨놓고도 그 사실을 감추기 위해 억지로 설명을 만들어내는 경우가 있습니다. “100 단어로 작성하라”는 요구를 어겼음에도, 문장 끝에 “(100 단어)”라는 가짜 표시를 덧붙여 채점자를 속이는 식이죠. 이런 문제를 해결하기 위해 오픈 AI는 모델이 주요 답변을 한 뒤, 이어서 스스로를 평가하는 두 번째 답변, 즉 ‘고백 리포트’를 작성하게 했습니다. 이 고백 리포트에서는 메인 답변에서 자신이 지시를 잘 지켰는지, 혹은 답을 꾸며내지는 않았는지를 솔직하게 밝혀야 합니다. 그리고 이 고백을 얼마나 솔직하게 했는지에 따라 모델에게 보상이 주어지도록 설계했습니다. 이 구조가 만들어낸 변화는 간단하지만 깊었습니다. 모델은 “정직하지 않으면 일시적으로 점수를 얻을 수 있지만 결국 나중에는 손해”라는 사실을 배우게 된 것입니다. 그리고 이 학습은 AI 모델을 점차 정직한 방향으로 이끌어 주었습니다.
오픈 AI는 이 고백 시스템을 GPT-5 Thinking 모델에 적용하고, 일부러 함정을 만들어 어려운 질문들을 던졌습니다. 환각을 유도하거나 모호한 지시를 내리거나, 혹은 정책 위반을 슬쩍 유도하는 문제들이었죠. 그 결과는 놀라웠습니다. 모델이 규칙을 어겨놓고서도 이를 숨긴 사례는 전체의 4.4%밖에 되지 않았습니다. 다시 말해, 절대다수의 경우에 모델은 자신이 지시를 어겼다는 사실을 메인 답변 뒤에 바로 솔직하게 드러낸 것입니다. 게다가 이 4.4%조차도 분석해 보면 대부분 “속이려 한 것이 아니라 정말 헷갈린 경우”였다고 합니다. 즉, AI가 악의를 갖고 사람을 속이려 한 것이 아니라, 자신의 실수를 인지하지 못한 채 답변한 상황이었던 것이죠. 이 결과는 하나의 사실을 보여줍니다. AI에게 솔직하게 말하도록 보상한다면, AI는 진짜로 솔직해질 수 있다는 것이죠.
연구진은 실험을 한 단계 더 확장했습니다. 혹시 감독자가 허술해지면 모델이 다시 속이는 행동을 배울까? 이를 확인하기 위해 고의적으로 성능이 낮은 채점자를 배치했습니다. 이 상황에서는 모델이 거짓말을 해도 들키지 않을 가능성이 높아졌습니다. 예상대로, 메인 답변에서는 슬쩍 편법을 쓰는 경우가 조금 늘어나기 시작했습니다. 하지만 결정적으로 고백 리포트에서 오히려 정직함이 더 강화되었습니다. 모델이 여러 번의 시도를 통해 ‘정직한 것이 가장 안전하고 더 좋은 보상받는 길’이라는 것을 깨달았기 때문인데요. 이 순간부터, 정직함은 감독자의 능력과 무관한 모델 내부의 학습된 원칙이 되기 시작합니다. 즉, 누가 지켜보고 있든 없든, “틀린 것이 있다면 솔직하게 말하는 것”이 AI에게 더 자연스러운 기본값이 됩니다.
고백 시스템은 AI의 환각을 원천적으로 막아주는 기술은 아닙니다. AI는 앞으로도 실수할 것입니다. 하지만 그 실수가 어디에서, 왜, 어떻게 발생했는지 드러날 수 있다는 점에서 이 기술은 엄청난 진전을 보여줍니다. 이는 마치 AI 내부에 CCTV를 설치해 놓은 것과 같습니다. 특히 금융, 의료, 법률처럼 잘못된 정보가 곧바로 피해로 이어질 수 있는 분야에서는, AI의 판단 과정이 투명하게 관찰될 수 있다는 사실만으로도 사용자에게 큰 신뢰를 제공합니다. 오픈 AI는 이 고백 기능을 사고 과정을 모니터링하는 기술이나, 안전성을 보장하는 정렬 연구들과 결합하여 앞으로 더 발전시킬 계획이라고 밝혔습니다.
우리는 오랫동안 AI에게 완벽한 정확성을 요구해 왔습니다. 기계라면 틀림없이, 인간보다 더 정확하게 답해야 한다고 기대해 왔기 때문이죠. 그런데 신뢰라는 감정은 꼭 ‘절대 틀리지 않는 것’에서만 생겨나는 것은 아닙니다. 오히려 실수했을 때 숨기지 않고 인정하는 태도에서 더 큰 신뢰가 쌓이곤 하는데요. 오픈 AI의 고백(Confessions) 시스템은 바로 이 감정적 진실에 주목한 실험이라 할 수 있을 것 같습니다. 이제 AI는 “방금 그 답변은 제가 잘못했습니다”라고 스스로의 실수를 인정할 수 있습니다. 정답을 맞히는 능력만큼이나, 잘못을 인정할 용기가 더 늘어난 것이지요. AI의 사과는 아주 짧고 소박한 한 문장이지만, 그 솔직함 덕분에 우리는 AI를 한층 더 믿을 수 있게 될 것 같습니다. 완벽하진 않아도 정직한 존재라면, 그 관계는 훨씬 오래 지속되고 깊어지니까요.
출처: https://openai.com/index/how-confessions-can-keep-language-models-honest/