AI도 함정 문제에 빠질까요? 실험해봤습니다

직관적 사고와 추론적 사고를 모사하는 AI

May 19. 2025

먼저 정말 간단한 문제를 하나 내보겠습니다. 3초안에 정답을 이야기해보세요.

“어떤 연못에 연잎이 1개가 떠있습니다. 이 연잎은 매일마다 2배씩 늘어납니다. 이 연못이 연잎으로 가득 차는데 20일이 걸린다고 하는데요, 그럼 여기서 문제. 연못의 절반만 연잎으로 가득 차는데 걸리는 시간은 총 몇일일까요?”

정답은 10일이 아닌 19일 입니다. 연잎이 2배씩 늘어나니까 가득차기 바로 전날인 19일째에 연못의 절반만 가득 차 있는 것이겠죠.

위 문제에서 당당히 19일 이라고 맞추신 분들! 대단하십니다. 저는 처음에 틀렸거든요. 이 문제를 당당히 맞추신 분들을 위해 바로 오늘의 본 문제를 보여드리도록 하겠습니다.

당신은 TV 퀴즈쇼에 참가했습니다. 눈앞에는 3개의 문이 있습니다.

한 문 뒤에는 자동차가,

나머지 두 문 뒤에는 염소가 있습니다.

당신은 먼저 문 하나를 선택합니다. (예를 들어 1번 문)

그 후, 사회자는 당신이 고르지 않은 두 문 중에서 염소가 있는 문 하나를 열어 보여줍니다.

(예: 사회자가 3번 문을 열고 염소를 보여줌)

이제 사회자가 묻습니다.

“처음 선택한 문을 그대로 유지하시겠습니까, 아니면 남은 다른 문으로 바꾸시겠습니까?”

1. 바꾼다

2. 그대로 유지한다

3. 바꾸나 안 바꾸나 똑같다

여러분은 몇번을 선택하실 건가요? 제가 이 문제를 한번 풀이해 보겠습니다.

1. 우선 저는 하나의 문을 선택했습니다. 이 문 뒤에는 차가 있을 수도 있고 염소가 있을 수도 있습니다. (1/3 확률)

2. 갑자기 사회자가 염소가 있었던 문 하나를 열어서 보여줍니다.

3. 상황이 변했습니다. 이제 제가 선택할 수 있는 문은 2개가 되었습니다.

4. 2개의 문 중에서 하나는 자동차, 하나는 염소가 있습니다.

5. 따라서 자동차를 선택할 확률이 1/2 이므로 저는 바꾸나 안바꾸나 똑같은 50% 확률이므로 정답은 3번이라고 선택하겠습니다.

라고 풀이하시면 완벽한 오답입니다. 정답은 1. 바꾼다 입니다. 바꾸는 게 당첨 확률을 2배나 높입니다. 사회자가 문 하나 열었을 뿐인데 문을 바꾸는 것이 어떻게 확률을 2배나 올리는 걸까요? 어떻게 이것이 가능한가를 보기 위해서는 경우의 수를 살펴보겠습니다. (우선 이해를 돕기 위해 자동차의 위치를 알려드리겠습니다. 자동차는 문 A 뒤에 있습니다. B,C 에는 염소가 있겠죠)

내가 자동차가 있는 문 A 를 선택한 경우

문을 바꾼다 → 염소

안바꾼다 → 자동차

내가 염소가 있는 문 B 을 선택한 경우

문을 바꾼다 → 자동차

안바꾼다 → 염소

내가 염소가 있는 문 C 을 선택한 경우

문을 바꾼다 → 자동차

안바꾼다 → 염소

보시면 문을 바꿀 경우 2/3 확률로 자동차에 당첨이 되고 바꾸지 않으면 1/3 확률로 자동차에 당첨이 됩니다. 2배 차이죠. 따라서 여러분은 문을 바꾼다고 이야기해야 합니다. (확률이 2배!)

직관적으로는 이해가 안되는 상황입니다. 염소 문 하나 열었을 뿐인데 바꾸는게 확률을 2배나 올린다는 것이 말이죠. 이는 인간은 직관을 통해 사고하는것이 자연스러운 반면 통계적 확률적 사고를 하지 못한다는 것을 보여줍니다. 직관은 빠르게 계산하고 빠르게 판단하지만 종종 이런 실수를 만들기도 합니다. 이런 인간 뇌의 특징을 잘 나타낸 문제가 바로 위에서 본 몬티홀 문제입니다.

그렇다면 AI는 어떨까요? 최근 의사면허시험까지 통과한 똑똑한 chatGPT는 이 문제를 정확히 풀이했을까요?

chatGPT는 똑똑했습니다. 한번에 문제를 “이해하고” 풀이와 정답을 맞췄습니다. 근데 여기서 궁금한 부분은 정말로 이해하고 풀이를 했을까 입니다.

chatGPT는 방대한 데이터를 학습하고 이를 바탕으로 우리에게 필요한 답변을 조합해줍니다. 따라서 매우 높은 가능성으로 chatGPT는 이미 “몬티홀 문제”를 학습했을 것입니다. 학습한 문제는 당연히 풀 수 있죠. 이 글을 읽는 여러분께 다시 몬티홀 문제를 낸다면 이전과는 다른 답변을 내겠죠.

저는 chatGPT가 정말 문제를 이해했는지 알아보고자 똑같은 문제를 조금 꼬아서 내보았습니다.

먼저 여러분들께 정답을 알려드리면 2. 안바꾸는게 유리하다 입니다. 이 문제는 몬티홀 문제를 거꾸로 적용한 버전입니다. 바꾸지 않는것이 2/3. 바꾸는 것이 1/3 확률로 바꾸지 않는 것이 더 유리합니다. 이번에도 chatGPT는 정답을 이야기했을까요?

틀렸네요. 왜 바꾸는게 유리한것인지 연속해서 질문했는데요, 이상한 대답을 내기 시작했습니다. 말하자면 우기기 시작한거죠.

아무래도 ChatGPT도 답을 외우고 풀이를 하는게 아닐까 하는 생각이 들었습니다. 그렇다면 어떻게 chatGPT에게 질문을 해야 옳은 대답을 들을 수 있을까요? 이런 경우에는 추론적 사고가 필요합니다. 차근차근 생각해서 답을 도출하는 것이죠. 저는 동일한 질문 아래에 'step by step' 이라는 문구를 추가했고 chatGPT는 아래의 답변을 냈습니다.

'step by step' 이라는 문구 하나로 충분히 추론하는 방향으로 대답할 수 있도록 만들었네요.

그런데 프롬프트를 어떻게 써야할 지 고민하지 않고도 옳은 답을 얻을 수 있는 방법이 있는데요, 바로 추론모델인 o3, o4를 사용하는 것입니다. 추론모델은 질문에 곧장 대답하지 않고 질문을 어느정도 분석하는 시간을 가지는데요, 말하자면 생각하는 시간을 갖는 것입니다. 질문에 대한 분석 후 대답을 구성하기에 꽤 추론이 진행된 답변을 얻을 수 있습니다. 이 추론모델은 수학적, 프로그래밍적 질문에 특히 강하다고 합니다.

keyword

작가의 이전글"죽은 사람들"이라는 말, AI는 눈치챌까?AI와 개발자 그리고 구글 트렌드작가의 다음글