brunch

분위기 파악 못하는 AI

AI 쓰는데 왜 성과는 제자리일까?(2)

이전 회차에서 수많은 기업들이 AI를 도입하며 혁신을 부르짖지만, 정작 필드에선 실망스러운 결과와 더불어 'AI를 쓰는데 왜 성과는 제자리일까?'라는 질문을 던지고 있다는 말씀을 드렸습니다. AI의 수직적 활용을 간과하는 조직과 문화를 짚었죠. 여기 짚어야 할 부분이 하나 더 있습니다. 생성형 AI의 기술적인 미성숙도 역시 생산성 향상을 가로막는 요인 중에 하나거든요.


기술적 미성숙은 크게 세 가지 형태로 발현됩니다. 첫 번째는 AI의 작동 원리에서 비롯된 '그럴듯함' 입니다. 인지하는 것이 아니라 확률로 계산하고 배치하죠. 지능을 가진 존재처럼 보이지만, 그렇게 보이도록 설계된 정교한 모방 시스템 입니다. 둘째는 '아무렇지 않은 거짓말'입니다. 우리 눈엔 오류로 보이지만 AI에겐 자연스러운 증상이죠. 사실과 다른 정보를 생성할 위험을 항상 내포하고 있습니다. 마지막은 데이터와 지혜 사이의 간극, 즉 '어리숙함'입니다. 빠르게 처리할 수는 있지만, 인간의 통찰력이나 전문가가 갖는 소위 '엣지'는 구현하기 어렵습니다.

AI도 따라하기 힘든 순수한 피지컬


쟤 우리말 못 알아들어요

인지가 아닌 확률의 시스템

우리가 생성형 AI를 사용할 때 가장 흔하게 저지르는 오류는 AI를 사람처럼 여기는 것입니다. AI가 우리의 말을 이해하고, 생각해서 대답한다고 믿는 거죠. 하지만 그건 우리의 착각입니다. 대규모 언어 모델(LLM)은 의식이나 이해력을 갖춘 존재가 아니라, 고도로 정교화된 예측 기계입니다.


LLM의 핵심 작동 원리는 '확률적 텍스트 생성' 입니다. 주어진 문맥을 바탕으로, 다음에 이어질 단어가 무엇 일지를 확률적으로 예측하는 과정을 반복합니다. 예를 들어, '나는 오늘 학교에'라는 문장이 주어지면, 모델은 학습한 방대한 텍스트 데이터를 기반으로 '간다', '갔다', '도착했다' 등 다음에 올 가능성이 가장 높은 단어들의 확률 분포를 계산합니다. 이는 우리가 스마트폰에서 사용하는 자동완성 기능이 극도로 발전된 형태라고 보시면 됩니다.

인간의 결과물을 제대로 모방하는 게 목표


여기서 기억할 사실은 LLM의 목표가 '사실'을 전달하는 것이 아니라 '그럴듯함'을 극대화하는 데 있다는 것입니다. 언어모델은 수십억, 수천억 개의 매개변수를 이용해 인간이 생성한 방대한 텍스트 데이터에서 문법, 스타일, 단어 간의 통계적 연관성 패턴을 학습합니다. 모델 입장에서 '성공적인' 결과물이란, 학습 데이터의 통계적 속성을 모방한 자연스러운 문장입니다. 인간이 작성한 텍스트 데이터를 기를 쓰고 모방했으니 인간이 쓴 것처럼 보이는 게 당연하겠죠.


LLM은 외부의 객관적 사실을 검증하도록 설계된 시스템이 아닙니다. 통계적으로 가장 개연성 있는 단어 순서를 만들어내도록 설계되었죠. 모델이 문맥에 맞는 유창한 답변을 내놓을 때, 우리는 얘가 의미를 이해했다고 느끼지만, 실제로는 방대한 데이터 속에서 가장 확률 높은 패턴을 찾아 제시했을 뿐입니다. 여기가 바로 우리가 반드시 인지해야 할 첫 번째이자 가장 중요한 기술적 한계이며, AI의 유용함과 위험성이 바로 이 지점에서 파생됩니다.


유려한 문장, 논리적인 구조, 심지어 창의적으로 보이는 아이디어까지. 마치 지성을 가진 존재처럼 보입니다만 이러한 AI 능력의 이면엔 철저히 수학적이고 통계적인 원리가 숨어 있습니다.


대체 왜 거짓말을 하는 거야?

무슨 답이든 해야 하는 존재

생성형 AI가 보여주는 능력의 이면에는 '환각' 이라는 꼬리표도 있습니다. 사실에 근거하지 않은 정보를 마치 진실인 것 처럼 자신감 있게 뽑아내죠. 어쩌다 나오는 실수나 오류가 아닙니다. 이는 앞에서 살펴본 확률적 선택 모델이라는 구조적 특성에서 비롯된 필연적 결과입니다.


AI가 제공하는 정보의 신뢰성에 대해 얼마나 경계해야 하는지를 알려주는 사례 하나를 소개합니다. 2025년 3월, 컬럼비아 저널리즘 리뷰(Columbia Journalism Review)는 토우 디지털 저널리즘 센터(Tow Center for Digital Journalism)가 수행한 8개의 생성형 AI 검색 도구에 대한 인용 정확도 연구 결과를 발표했습니다.

거짓말을 잘하는 줄은 알았지만 이정돈 줄은


결과는 충격적이었습니다. AI들은 전체 질의의 60% 이상에 대해 부정확한 답변을 제공했습니다. 10개 중에 4개 정도만 정확했다는 얘기죠. 그나마 일반 모델에 비해 프리미엄 모델이 조금 나은 수준이었지만 절대 만족스러운 수준은 아니었습니다. 터무니없이 높은 부정확한 답변율 만큼이나 우려스러운 지점은 AI가 '아주 강력한 자신감'을 가지고 잘못된 정보를 제시했다는 사실입니다. 이 당당한 거짓말쟁이들은 정보의 불확실성을 알리지도, 답변을 거부하지도 않았습니다.


출처 표기 문제는 더욱 심각했습니다. Gemini와 Grok-3는 응답 중 절반 이상은 존재하지 않거나 사라진 URL을 출처로 제시했습니다. Grok-3의 경우, 200개의 프롬프트 중 무려 154개의 인용이 오류 페이지로 연결(Deepseek도 115개 인데!) 되었죠. 뉴스 발행사와 맺은 콘텐츠 라이선스 계약도 정확성을 보장하지 않았습니다. 이는 신뢰할 수 있는 정보를 제공받더라도 AI가 제대로 해석하지 못하거나 자의적으로 판단할 가능성을 의미합니다.


이상하게 써먹는 경우도 종종 발생한다


요약하면 현재의 생성형 AI는 신뢰할 수 있는 정보 검색 도구로서 심각한 결함을 가지고 있으며, 그럴듯함에 숨겨진 부정확성 역시 간과할 수 없는 위험입니다. 개발사에선 신뢰할 수 있는 외부 지식 베이스를 추가로 설치하는 방안(RAG)을 제안하기도 합니다. 모델의 구조와 텍스트 생성 방식 자체는 건드리지 않기에 근본적인 해결책 보단 우회로에 가까운 보완책입니다. 무엇보다 이런 복잡한 '패치'가 필요하다는 사실 자체가 뭐랄까요, 현재 AI의 미성숙함을 고스란히 드러내는 단면이란 생각이 듭니다.


'왜 거짓말을 하는 거야?'라고 물으면 그렇게 답할지도 모르겠습니다. '전 어떻게든 답해야 하니까요'


너... 분위기 파악 못하지?

네, 그건 어려워요

생성형 AI의 본질적인 한계는 데이터 이면에 숨겨진 미묘한 맥락, 뉘앙스, 그리고 인간의 의도를 파악하는 능력이 매우 약하다는 데 있습니다. 단순히 잘못된 정보를 제공하고 문제를 틀리는 것과는 결이 다른 부분이죠. 방대한 정량적 데이터를 아주 빠른 속도로 처리할 수 있지만, 인간의 판단과 지혜를 구성하는 정성적 영역에서는 아직 걸음마 단계라고 보시면 됩니다. 이를 뒷받침해주는 연구가 있습니다.

가장 뛰어난 모델도 정답률이 36.9%에 그쳤다


최근 베이징 대학 연구진은 과연 인공지능이 세상을 얼마나 잘 이해하고 있는지 답하기 위해 PHYBench라는 특별한 실험(https://www.phybench.cn/en/doc)을 설계했습니다. '얼마나 말귀를 잘 알아듣고 깊이 생각할 줄 아는가'를 세밀하게 평가한 거죠. 제시한 문제에 대해 인간 대학생들은 평균 61.9%의 정답률을 기록한 반면 GPT-4o, Gemini 2.5 Pro와 같은 최첨단 LLM들은 37%를 넘기지 못했습니다. 아무래도 현상의 구조를 이해하는 능력, 즉 보이지 않는 요소를 직관적으로 인식하고 체계적으로 추론하는 부분에서는 미숙하다는 것이 확인됩니다.


다른 예시도 들어볼까요. 여러분이 팀장에게 경영진에게 보고할 문서 초안을 작성하라는 지시를 받았다 가정해봅시다. AI에게 "2/4 분기 실적 데이터를 분석하고, 마케팅 전략에 대한 보고서를 작성해 줘"라고 프롬프트를 입력하면, AI는 주어진 데이터를 기반으로 구조화된 보고서를 순식간에 생성해 줄 겁니다. 이 보고서 초안을 그대로 들고 가면 '오케이' 사인을 받을 수 있을까요? 아마 실패할 겁니다.


실패하는 이유는 간단합니다. 소위 '쓸만한 보고서' 작성에 필요한 핵심 데이터가 조직이라는 복잡한 사회적, 정치적 관계망 속에만 존재하는 질적 정보이기 때문입니다. 인간 언어와 행동의 복잡성, 개인의 정서와 대인 관계 역학(아래 정리)은 프롬프트에 담을 수 없는 정보죠. 설사 담는다 해도 제대로 구현될지는 미지수입니다.


의도와 정치적 맥락 : 이 보고서의 진짜 목적을 파악해야 합니다. '실적과 대응전략을 보고하는 것인가' 혹은 '마케팅 예산을 확보하기 위한 포석인가'에 따라 구성이 달라지죠. 우리 부서의 성과를 부각하거나 다른 부서의 귀책을 암시해야 할 수도 있습니다.

청중과 어조: 누가 듣는지도 중요한 고려사항입니다. 나의 팀장은 간결하고 보고를 선호하는가, 아니면 상세한 데이터를 중시하는가를 감안해야 하죠. 경영진은 시각적 자료와 텍스트 중심의 논리 전개 중 무엇을 선호하는지도 고려대상이 됩니다. 글꼴이나 색상 같은 미묘한 취향까지도 보고서의 수용도에 영향을 미칠 수 있으니까요.

정성적 통찰력 : '매출이 10% 감소했다'는 사실만 보고해선 곤란합니다. 그 숫자의 배경까지 설명해야 합니다. 시장 트렌드 변화, 경쟁사의 신제품 출시, 내부 팀의 사기 저하 등 다양한 정성적 요인을 종합하여 설득력 있는 스토리까지 준비해야 합니다.

이런 고급 데이터는 프롬프트에 담기지 않는다


AI는 '무엇을' 말해야 하는지는 알 수 있어도, '어떻게' 말해야 하는지에 대해선 잘 모릅니다. 판단, 추론, 적응, 창의성과 같은 인간 고유의 지능과는 다른 종류의 지능이기 때문이죠. AI의 지능이 '빠름'이라면 인간의 지능은 '깊음'이랄까요. 물론 '어리버리함'도 기술이 발전함에 따라 개선될 수 있겠지만, 단기간에 데이터와 지혜 사이의 본질적인 간극을 메꾸긴 어렵습니다.


진짜 생산성은 나에게서 나온다

내 분야에서 효과적이고 밀도 있게 사용해야

AI 도입에도 불구하고 생산성이 제자리인 이유는 명확합니다. 우리는 아직 기술적으로 미성숙하고 불완전한 도구를 다루고 있거든요. 그럴듯해 보이지만 사실만 말하도록 설계되지 않았고, 빠른 처리능력을 가졌지만 깊이 있는 지혜는 없습니다. 물론 그마저도 제대로 사용할 준비가 부족합니다.

현재 기술 수준에서 AI가 인간을 완벽하게 대체할 것이라는 기대는 비현실적입니다. AI의 속도와 규모를 활용하되, 최종적인 품질, 맥락, 윤리적 판단의 책임은 사용자의 지성에 맡기는 게 가장 현실적이고 강력한 접근법입니다. 물론 AI를 '대체'가 아닌 '보강'의 도구로 바라보는 관점이 필수겠죠.


진정한 경쟁 우위와 생산성 향상은 AI 그 자체에서 나오는 것이 아니라, 그 도구를 능숙하게 다루는 우리의 지성에서 비롯됩니다. '내 분야에서 효과적이고 밀도 있게 활용하는 능력'에 집중해야 합니다. 아울러 불완전하지만 강력한 이 기술을 현명하게 활용할 수 있는 더 똑똑하고, 더 분별력 있는 조직이 뒷받침되면 더할 나위가 없겠죠. 정체되어 있는 성과를 봉인해제 열쇠는 AI로 강력해질 우리에게 있습니다.


다음 회차에 뵙죠.

keyword
작가의 이전글우리 회사는 언제까지 내 눈물로 크려나