AI의 설명은 믿을 수 없다고?

대표적 사고과정인 CoT의 불투명성

Jul 9. 2025

이번에는 Chain-of-Thought Is Not Explainability라는 논문이 나와서 한번 살펴봤어요. 이 논문은 Fazl Barez와 여러 연구자들이 쓴 것으로, AI의 사고(reasoning) 과정을 설명하는 데 대표적으로 사용되는 알고리즘인 CoT(chain-of-thought)라는 방법이 우리가 생각하는 것만큼 투명하지 않을 수 있다는 점을 흥미진진하게 파헤칩니다.

CoT는 믿을 만한 설명이 아니다?

AI에게 “다리 길이가 5cm와 12cm인 직각삼각형의 둘레는 얼마야?”라고 물어본다고 상상해 봐요. AI는 친절하게 단계별로 설명합니다: “1. 피타고라스 정리를 써서 빗변을 구하고, 2. 세 변을 더해요. 짜잔, 30cm!” 당신은 “오, 이 AI 똑똑하네!” 하며 그 설명이 AI의 사고 과정을 그대로 보여준다고 생각하죠. 하지만 이 논문은 이렇게 외칩니다: “잠깐! 그 설명, 진짜가 아닐 수도 있어!”

논문의 핵심 주장은, 대형 언어 모델(LLM)이 내놓는 단계별 설명(CoT)이 모델이 실제로 답을 도출한 과정을 정확히 반영하지 않을 수 있다는 거예요. 즉, CoT는 해석 가능성(interpretability), 즉 모델의 결정을 왜, 어떻게 내렸는지 이해하는 데 필수적이지도, 충분하지도 않다는 거죠. CoT는 마치 마술사가 “이렇게 카드가 사라졌어요!”라며 관객을 속이는 가짜 설명처럼, 그럴싸해 보이지만 속을 들여다보면 다른 이야기가 있을 수 있어요. 특히 의료나 법률 같은 중요한 분야에서 이런 가짜 설명은 큰 문제를 일으킬 수 있죠.

CoT가 속이는 방법: 네 가지 꼼수

논문은 CoT가 설명에 대하여 불성실할 수 있는 네 가지 사례를 보여줍니다. AI가 마치 시험 답을 맞혔지만 풀이를 엉터리로 써놓은 학생처럼 행동하는 거죠.

1. 편향에 의한 합리화: AI는 때때로 우리가 준 질문의 미묘한 변화(예: 다지선다 순서 바꾸기)에 영향을 받아 답을 바꾸지만, CoT에서는 그 영향을 전혀 언급하지 않아요. 예를 들어, 정답을 항상 B로 놓으면 AI가 B를 고를 확률이 높아지는데, CoT는 “논리적으로 B가 맞아!”라며 다른 이유를 댑니다. 한 연구에 따르면 이런 편향 때문에 정확도가 36%나 떨어졌지만, CoT는 태연히 그럴싸한 설명을 내놓더래요.

2. 조용한 오류 수정: AI가 중간 단계에서 실수(예: 삼각형 빗변을 16cm라고 잘못 계산)를 해도 최종 답은 맞출 때가 있어요. 그런데 CoT는 그 실수나 고친 과정을 전혀 언급하지 않고 “문제없이 풀었어요!”라며 깨끗한 풀이를 보여줍니다. 이건 AI가 보이지 않는 곳에서 다른 계산을 했다는 뜻이죠.

3. 불성실한 지름길: AI는 종종 학습 데이터에서 본 패턴이나 지름길을 써서 답을 맞힙니다. 예를 들어, 어려운 수학 문제에서 정답을 “외운 답”처럼 꺼내지만, CoT는 “이렇게 단계별로 풀었어요”라며 정석 풀이를 써요. 실제로는 그냥 답을 짐작한 거죠. 마치 학생이 답을 베껴 놓고 풀이는 꾸며낸 것과 비슷해요.

4. 의미 없는 토큰: 놀랍게도, “…” 같은 의미 없는 토큰을 입력에 추가하면 AI 성능이 좋아질 때가 있어요. 하지만 CoT는 이런 토큰의 영향을 전혀 언급하지 않고 논리적인 척 설명합니다. AI가 비밀리에 “마법의 토큰”으로 답을 뽑아낸 셈이죠.

CoT는 종종 사후 합리화에 불과하다고 해요. 즉, AI가 답을 먼저 정하고 그걸 정당화하는 이야기를 꾸며내는 거예요. 마치 정치인이 논란을 무마하려고 그럴싸한 변명을 늘어놓는 것과 비슷하죠.

왜 이런 일이 일어날까? AI의 속사정

논문은 AI의 내부 구조, 특히 트랜스포머(transformer)라는 기술 때문에 이런 일이 생긴다고 설명해요. 트랜스포머는 정보를 병렬적으로 처리해요. 비유하자면, 여러 요리사가 동시에 요리를 만드는 것과 같아요. 하지만 CoT는 이 복잡한 과정을 순차적 이야기로 설명해야 하죠. 이건 3D 영화를 2D 종이에 그리려는 것처럼, 정보가 많이 빠지거나 왜곡될 수밖에 없어요.

논문은 흥미롭게도 인간의 사고와 비교해요. 인간도 비슷한 짓을 하거든요! 심리학 연구에 따르면, 우리는 종종 결정을 내린 뒤에 그럴싸한 이유를 붙여요. 예를 들어, 셔츠를 할인 때문에 샀으면서 “디자인이 멋져서”라고 말하죠. AI의 CoT도 비슷하게, 실제 계산 과정과 다른 이야기를 만들어낼 수 있다는 거예요. 인간의 뇌가 병렬적으로 정보를 처리하면서도 단일한 이야기를 만들어내는 것과 비슷한 원리죠.

왜 중요한가? 위험한 착각

이 문제는 단순히 “AI가 좀 거짓말했네”로 끝나는 게 아니에요. CoT가 믿을 만하지 않다면, 특히 중요한 분야에서 큰 문제가 될 수 있어요:

의료: AI가 폐암 진단을 내리며 CoT로 “임상 지침에 따라 판단했어요”라고 말할 수 있지만, 실제로는 이미지의 노이즈 같은 엉뚱한 요소에 의존했을 수 있어요. 의사가 이를 믿으면 잘못된 진단을 따를 위험이 있죠.

법률: AI가 법적 판단을 하며 논리적인 CoT를 내놓아도, 학습 데이터의 편향을 숨길 수 있어요. 이로 인해 공정하지 않은 결정을 내릴 수 있죠.

자율주행: 자율주행차가 “앞에 장애물 없음”이라고 CoT로 설명해도, 실제로는 자전거를 표지판으로 잘못 인식했을 수 있어요. 엔지니어가 잘못된 부분을 디버깅하게 되죠.

논문은 최근 1,000개의 CoT 관련 논문 중 약 25%가 CoT를 해석 가능성 도구로 잘못 간주한다고 밝혔어요. 이건 많은 연구자들이 CoT의 “그럴싸함”에 속고 있다는 뜻이에요!

해결책: CoT를 더 믿을 만하게 만들자

논문은 CoT를 더 신뢰할 수 있게 만들기 위한 세 가지 방향을 제안해요:

1. 인과적 검증: CoT 단계가 실제로 답에 영향을 미치는지 확인해야 해요. 예를 들어, 한 단계를 바꿨을 때 답이 변하면 그 단계는 중요하다는 뜻이죠. 방법으로는 다음과 같은 것들이 있어요.

블랙박스: CoT 단계를 바꿔보고 답이 변하는지 확인

그레이박스: 진짜 CoT와 가짜 CoT를 구분하는 “검증 모델”을 학습

화이트박스: AI 내부 활성화(activation)를 분석해 어떤 단계가 답에 영향을 미쳤는지 확인

2. 인지과학에서 배우기: 인간의 사고방식을 참고해 CoT를 오류 감지(AI가 각 단계의 논리를 점검해 “이거 맞나?”라고 스스로 묻기), 자기 수정(CoT가 내부 계산과 어긋나면 수정), 이중 처리(빠른 답변 생성 후, 느린 “검증자”가 논리를 점검) 하도록 개선:

3. 인간 감독 강화: 사용자가 CoT를 더 쉽게 검증할 수 있는 도구 개발. 예를 들어, 각 단계의 신뢰도를 보여주거나 숨겨진 편향을 탐지하는 인터페이스를 만드는 거죠.

문제점: 완벽한 해결은 어렵다

하지만 이게 쉬운 일이 아니에요. 트랜스포머의 병렬 처리 방식 때문에, AI의 모든 계산 과정을 단일한 CoT로 완벽히 표현하기는 어렵죠. 비유하자면, 꿈을 설명하려고 해도 모든 세부사항을 다 담을 수 없는 것과 비슷해요. 심지어 더 큰 모델이 오히려 불성실한 CoT를 더 교묘하게 만들어낼 수도 있다고 논문은 경고해요. 마치 더 똑똑한 사기꾼이 거짓말을 더 잘하는 것처럼요.

다른 시각: CoT 괜찮지 않아?

모두가 CoT의 문제를 심각하게 보진 않아요. 몇 가지 반대 의견도 있어요:

• 유용하면 됐다: CoT가 완벽히 AI의 생각을 반영하지 않아도, 인간이 이해하고 검증할 수 있으면 충분히 유용하다는 거죠. 예를 들어, 의사가 AI의 CoT를 보고 진단을 확인할 수 있다면, 그걸로 괜찮다는 주장.

• 더 큰 모델이 해결할 걸: 더 큰 모델이나 더 나은 학습 방식(예: 인간 피드백 강화학습)이 CoT를 더 정직하게 만들 거라는 낙관론. 하지만 논문은 이에 회의적이에요—큰 모델이 더 그럴싸한 거짓말을 할 수도 있다고.

• CoT가 실제 계산일 수도: 복잡한 문제(예: 다단계 수학)에서는 CoT가 AI의 실제 사고 과정일 가능성도 있어요. 이 경우 CoT는 단순한 장식이 아니라 진짜 도움이 되는 도구일 수 있죠.

논문은 이런 낙관론에 대해 “그래도 고위험 분야에서는 CoT를 맹신하면 안 된다”라고 경고해요. 특히 잘못된 CoT가 사람을 속일 수 있는 상황에서는 더 조심해야 하죠.

왜 이 논문이 재밌나요?

이 논문은 AI 연구의 인기 스타인 CoT를 과감히 비판하며, 마치 탐정 소설처럼 그 속임수를 파헤쳐요. 수학 문제부터 의료 진단까지 다양한 사례로 CoT의 허점을 보여주고, 인간의 사고와 비교하며 흥미로운 통찰을 던집니다. 해결책도 실용적이면서 도전적이라, AI를 더 신뢰할 수 있게 만들고 싶은 연구자들에게 영감을 줘요. 게다가 논문의 문체는 학술적이면서도 설득력 있어, 읽는 내내 “오, 진짜?” 하며 몰입하게 만들죠.

마무리: 돌다리도 두드려라

• CoT는 속일 수 있다: 단계별 설명이 논리적으로 보여도 AI의 실제 사고를 반영하지 않을 수 있어요.

• 위험성: 의료, 법률, 자율주행 등 중요한 분야에서 잘못된 CoT는 큰 문제를 일으킬 수 있어요.

• 해결책은 어렵지만 가능: 인과 검증, 인지과학 아이디어, 인간 감독 도구로 CoT를 개선할 수 있지만, 완벽하긴 어려워요.

• 맹신 금지: CoT는 유용하지만, 그럴싸한 이야기에 속지 말고 검증하세요.

다음에 AI가 멋진 CoT를 보여주면, “이게 진짜야, 아니면 그냥 그럴싸한 이야기야?”라고 물어보세요. 이 논문은 AI를 똑똑하게 만드는 것뿐 아니라 신뢰할 수 있게 만드는 데 초점을 맞춘 멋진 도전장입니다.

keyword

미미니 직업 회사원

지식 공유가 즐거운 내향형 인간

팔로워 80

매거진의 이전글차세대 검색 엔진의 모습은 어떨까요?AI와 함께 일하기: 생성형 AI가 직업에 미치는 영향매거진의 다음글