LLM 논문으로 본 근본 원인과 '메타질문'의 힘
저는 지난 글에서 'AI 대화용 메타질문 카드'를 만들어 소개하며 우리가 AI와의 대화에서 중심을 잃는 이유에 대해 이야기 나눈 바 있습니다.
최근, 이러한 현상에 대한 흥미로운 학문적 분석을 담은 논문을 발견했습니다. 바로 마이크로소프트 리서치와 세일즈포스 리서치 공동 연구팀의 'LLMs Get Lost In Multi-Turn Conversation' (대규모 언어 모델은 다중 턴 대화에서 길을 잃는다)입니다. 이 논문은 우리가 어렴풋이 느끼던 AI 대화의 어려움을 구체적인 실험과 데이터로 뒷받침하며, 교육자로서 우리가 무엇을 고민해야 할지 깊은 시사점을 던져줍니다.
우리는 보통 AI와 여러 번 말을 주고받으며 원하는 정보를 얻거나 문제를 해결하려 합니다. 논문에서는 이러한 상황을 '다중 턴 불완전 명시' 대화라고 부르는데, 놀랍게도 LLM은 이렇게 여러 턴에 걸쳐 정보가 주어질 때, 한 번에 모든 정보가 명확히 주어지는 단일 턴 대화에 비해 평균적으로 약 39%나 낮은 성능을 보인다고 합니다. LLM이 '길을 잃는다'는 것은, 항상 최종 목적지(정답)에서 완전히 벗어나 엉뚱한 곳으로 간다는 의미라기보다는, 목적지로 가는 과정이 매우 비효율적이거나(답변 비대화), 중간에 다른 길로 샜다가 겨우 돌아오거나(불필요한 가정과 수정 반복), 결국 목적지에 도달하더라도 원래 가려던 최단 경로가 아닌 우회로를 택한 결과물을 내놓을 수 있다는 의미를 포함합니다. 때로는 정말 논점에서 완전히 벗어난 답을 내놓기도 하고요.
현재 학생들을 위한 AI 튜터들이 겉보기에는 질문에 답도 잘하고, 대화도 곧잘 이어나가는 것처럼 보일 수 있습니다. 하지만 이 논문의 연구 결과에 비추어 보면, 특히 여러 번 대화를 주고받는 과정에서 우리가 쉽게 인지하지 못하는 성능 저하, 특히 '일관성'이나 '정확성'의 저하가 숨어있을 수 있다는 점을 시사합니다.
예를 들어, 학생이 AI 튜터와 다중 턴으로 대화하며 어떤 개념을 배우거나 문제를 해결한다고 가정해 봅시다.
AI 튜터는 때로는 학생의 질문 의도를 정확히 파악하고 훌륭한 설명을 제공할 수 있습니다. (높은 점수)
하지만 다른 때는 학생이 이전에 했던 말을 잊어버리거나, 학생의 현재 이해 수준과 맞지 않는 설명을 하거나, 핵심에서 벗어난 이야기를 길게 늘어놓을 수도 있습니다. (낮은 점수)
결과적으로 학생은 AI 튜터로부터 도움을 받을 때도 있지만, 때로는 혼란을 느끼거나 잘못된 정보를 얻을 수도 있는 '불안정한 학습 경험'을 할 가능성이 있는 것입니다. 최종적으로 틀린 지식을 배우는 것은 아니더라도, 학습 과정 자체가 비효율적이거나 혼란스러울 수 있는 거죠.
이러한 모습들은 LLM이 진정으로 효과적인 교육 도구가 되기 위해서는, 단순히 지식을 많이 아는 것을 넘어, 학생과의 다중 턴 대화 속에서 신뢰할 수 있는 상호작용을 유지하는 능력이 매우 중요하다는 것을 보여줍니다.
논문에서는 LLM이 다중 턴 대화에서 길을 잃는 주된 원인으로 '성급한 가정', '이전의 틀린 시도에 대한 과도한 의존', '중간 대화 내용 망각', '지나치게 장황한 답변' 등을 지적합니다.
간단한 '주말여행 계획 짜기' 예시를 통해 살펴볼까요?
(턴 1) 사용자: "주말여행 계획 좀 짜줘."
LLM (성급한 가정): "네! 요즘 인기 많은 제주도 2박 3일 코스는 어떠세요?"
(아직 다른 조건은 듣지도 않고 제주도를 가정)
(턴 2) 사용자: "바닷가로 가고 싶어."
LLM (기존 가정에 끼워 맞추기): "아, 바닷가요! 제주도에도 아름다운 해변이 많죠.
제주도 협재 해수욕장 중심으로 짜볼게요!" (여전히 제주도라는 틀에 갇힘)
(턴 3) 사용자: "예산은 20만 원 이내로."
LLM (모순된 정보 처리의 어려움): "20만 원으로 제주도 바닷가요... 항공권을 최저가로 하고 숙소는
저렴한 곳으로 하면 1박 2일 빠듯하게 가능할 수도 있겠네요."
(초기 가정을 유지하려다 보니 계획이 비현실적이 되거나 축소됨)
(턴 4) 사용자: "조용하고 한적한 곳이면 좋겠어."
LLM (정보 누락 또는 혼란 가중): "조용하고 한적한 제주도 바닷가요... 음...
그런 곳은 교통이 불편하거나... 20만 원 예산으로는 더욱 찾기 어렵겠네요."
(여러 제약 조건에 혼란스러워하며 최적의 답을 찾지 못함)
만약 처음부터 "주말에 1박 2일로, 예산 20만 원 이내로, 조용하고 한적한 바닷가로 여행 가고 싶어요."라고 한 번에 명확히 말했다면 어땠을까요? LLM은 아마 제주도가 아닌, 모든 조건에 더 적합한 다른 장소를 처음부터 제안했을 가능성이 큽니다. 이처럼 정보가 나뉘어 제공될 때 LLM은 맥락을 놓치기 쉽습니다.
결국, 데이터 기반의 편향이 성급한 가정을 유도하고, 이 성급한 가정이 다중 턴 대화의 맥락 속에서 수정되지 않고 고착화되면서 LLM이 '길을 잃게' 만드는 중요한 원인 중 하나가 될 수 있는 것입니다.
그렇다면 우리는, 그리고 우리 학생들은 이러한 AI의 한계를 어떻게 극복하고 AI를 효과적으로 활용할 수 있을까요? 바로 여기서 제가 지난번에 제안했던 'AI 대화용 메타질문 카드'의 중요성이 다시 한번 부각됩니다. 이 논문을 접하고 좀 더 질문을 심화시켜 보았습니다.
➡️ 이 대화를 통해 내가 진정으로 이해하려는 것은 무엇인가? (What am I truly trying to understand through this conversation?)
단순히 정보를 얻는 것을 넘어, 대화의 근본적인 목표와 내가 도달하고자 하는 이해의 수준을 명확히 합니다. 이는 LLM이 '중간 턴 정보를 망각'하거나 사용자가 '목적을 흐리는' 상황을 방지하는 데 도움을 줍니다.
➡️ 이 질문이 내 사고를 확장시키고 있는가, 아니면 단순히 대화만 길어지게 하는가? (Is this question expanding my thinking, or just prolonging the chat?)
대화의 생산성을 점검하며, LLM의 '장황함'이나 '응답 확장' 경향에 휩쓸리지 않고 의미 있는 탐구를 이어가도록 합니다.
➡️ 이 답변 뒤에 숨겨진 가정을 내가 반박하거나 확인해 보았는가? (Have I challenged or checked the assumptions behind this answer?)
AI 답변의 이면을 비판적으로 검토하며, LLM의 '성급한 가정'이나 '높은 비신뢰성'에 대응하는 데 있어 중요합니다. 특히 이 가정을 통해 편향성을 파악하거나, 정보의 근거가 빈약한 경우 이를 식별하고 대안을 모색할 수 있는 중요한 출발점이 됩니다.
➡️ 내가 이 답변을 다른 사람에게 명확하게 설명할 수 있을까? (Could I explain this answer clearly to someone else?)
AI로부터 얻은 정보를 단순 소비하는 것을 넘어, 자신의 언어로 소화하고 내재화했는지 확인하며 진정한 이해를 촉진합니다.
➡️ 나는 수동적으로 답변을 소비하고 있는가, 아니면 적극적으로 대화의 방향을 만들어가고 있는가? (Am I passively consuming responses or actively shaping the direction?)
AI와의 대화에서 사용자의 주도성을 강조하며, LLM에게 끌려다니는 것이 아니라 대화의 목적과 방향을 주체적으로 설정하고 이끌어 나가도록 합니다.
프롬프트 엔지니어링은 학생들이 대화를 시작할 때 명확한 목표나 중요한 배경 정보를 제공하는 것만으로도 LLM이 '길을 덜 잃도록' 돕는 효과적인 전략이 될 수 있습니다. 따라서 아직은 프롬프트 엔지니어링에 대해 배우는 것이 유의미하며, "LLM과 더 잘 대화하고, LLM을 더 잘 활용하기 위한 다양한 전략을 익히자"는 관점으로 접근해야 한다고 생각합니다. 자연스러운 대화로 시작하되, LLM이 혼란스러워하거나 만족스럽지 못한 답변을 내놓을 때, 어떻게 하면 더 명확하게 정보를 전달하고 대화의 방향을 바로잡을 수 있는지 아는 것은 중요합니다. 논문에서도 LLM과의 대화가 꼬였을 때, "새 대화창에서 다시 시도"하거나, 기존 대화의 "요구사항을 통합하여" 전달하는 사용자 팁을 제안하는데, 이 또한 교육적 상황에 맞게 활용할 수 있습니다.
AI가 아무리 발전하더라도, 그것을 어떻게 활용하고 그 과정과 결과를 되돌아보는 '성찰'은 결국 사람의 몫입니다. 특히 교육 현장에서 AI를 활용할 때는 교사와 학생 모두 AI의 현재 능력과 한계를 명확히 인지하고, 비판적으로 사용하는 지혜가 필요합니다.
이 논문은 LLM 평가 방식이 다중 턴 대화의 현실을 더 잘 반영하도록 개선될 필요가 있다고 주장합니다. 아직은 프롬프트 엔지니어링이 유의미하지만, 미래에는 이러한 성능 저하 없이 더욱 사용자 친화적인 결과물을 낼 수 있도록 LLM이 개선되어 있을 것 같습니다.