PART 3. [이해] 엔지니어와 대등하게 대화하기
"AI는 정말 내 질문을 '이해'하고 답하는 걸까?"
Part 2까지 우리는 프롬프트를 다듬고, 페르소나를 부여하고, 멀티모달로 파일을 분석하며 AI를 '지휘'해왔다. 그런데 사용하면 할수록 묘한 느낌이 든다.
"이거 좀 정리해줘"라는 모호한 요청에도 정확히 의도를 파악한다. 복잡한 보고서를 주면 핵심만 뽑아낸다. 심지어 명확히 말하지 않은 맥락까지 읽어낸다. 이건 정말 내 말을 '이해'하는 게 아닐까?
하지만 동시에 당황스러운 순간도 온다. 없는 통계를 확신에 찬 어조로 제시한다. 같은 질문에 매번 다른 답을 내놓는다. 구체적 수치를 물으면 그럴듯하지만 틀린 답을 한다.
이번 주부터 시작되는 Part 3는 이 모순의 정체를 밝힌다. AI라는 악기를 두드리는 방법을 넘어, 그 안에서 무슨 일이 벌어지는지 들여다본다. 내가 지휘하는 이가 정확히 무엇이고, 어디까지 할 수 있으며, 어디서 한계를 맞는지 알아야 진짜 지휘자가 될 수 있다.
LLM, Large Language Model. 우리말로 하면 거대 언어 모델이다. 하지만 이 용어만으로는 그 본질이 잘 드러나지 않는다. 한 문장으로 정의하자면 이렇다: "엄청난 양의 텍스트를 학습해서 다음에 올 단어를 예측하는 통계 모델"
핵심은 '예측'이다. '이해'가 아니다.
실제로 체험해 보자. "오늘 날씨가 정말 ___"이라는 문장이 있다. 빈칸에 올 단어는 무엇일까?
좋다(70%), 나쁘다(15%), 이상하다(10%), 춥다(3%)... 우리 머릿속에서 자동으로 확률이 계산된다. AI도 똑같다. 다만 인간보다 압도적으로 빠르고 정교할 뿐이다.
"오늘 날씨가"라는 문장을 AI에게 보내면, 내부적으로 무슨 일이 벌어질까? 모델은 다음에 올 수백 개의 후보 단어와 각각의 확률을 계산한다. 가장 높은 확률의 단어를 선택하고, 그다음 단어로 넘어간다. 이 과정을 초당 수백 번 반복한다.
한 단어 → 문장 → 문단 → 에세이 전체가 이렇게 만들어진다. 마치 레고 블록을 하나씩 쌓듯이. 차이는 어떤 블록을 선택할지 확률로 결정한다는 것이다.
이 과정에서 AI는 방대한 학습 데이터에서 발견한 패턴을 활용한다. 핵심 기술은 '트랜스포머'라는 신경망 아키텍처다.
트랜스포머를 쉽게 설명하면 이렇다. 예전 AI는 문장을 앞에서부터 순서대로 읽었다. "오늘 → 날씨가 → 정말 → ___" 순차적으로. 하지만 트랜스포머는 문장 전체를 한 번에 보면서 단어들 사이의 관계를 동시에 파악한다. 마치 퍼즐 조각 전체를 펼쳐놓고 어느 조각이 중요한지 판단하듯이.
"오늘 날씨가 정말 좋아서 공원에 갔다"라는 문장에서 '좋아서'와 연결된 단어가 '날씨가'임을 파악하려면, 여러 단어를 건너뛰어 관계를 봐야 한다. 트랜스포머는 이런 문장 내의 장거리 단어 간의 관계를 잘 잡아낸다. 이게 문맥 이해의 핵심이다.
GPT-4의 기술 보고서에서도 명시하듯, "GPT-4는 문서에서 다음 토큰을 예측하도록 사전 학습된 트랜스포머 기반 모델"이다.
2021년 AI 연구자 에밀리 벤더와 티므닛 게브루는 유명한 논문에서 LLM을 "확률적 앵무새(Stochastic Parrot)"라고 불렀다. 신랄한 비판이었다.
앵무새를 떠올려보자. "안녕하세요"라고 가르치면 완벽하게 따라 한다. 발음도 정확하다. 하지만 앵무새는 그 말의 의미를 모른다. 아침인지 저녁인지, 처음 본 사람인지 아는 사람인지 구분 못 한다. 그저 소리 패턴을 재현할 뿐이다.
AI도 마찬가지다. "죄송합니다, 제가 실수했네요"라는 문장을 완벽하게 생성한다. 하지만 실제로 미안함을 느낄까? 아니다. 이런 상황에서 이런 패턴의 문장이 나와야 한다는 걸 학습했을 뿐이다.
그런데 여기서 끝나지 않는다. 패턴이 충분히 정교하면 이해와 구별이 안 된다.
8K 해상도의 디지털 사진을 보자. 픽셀이라는 걸 알지만 현실처럼 느껴진다. AI의 정교한 패턴 매칭도 마찬가지다. 본질은 '예측'이지만, 경험은 '이해'처럼 느껴진다.
Part 2에서 우리는 AI의 '거짓말'을 여러 번 경험했다. 왜 발생할까? 답은 간단하다. AI는 사실 여부가 아니라 통계적 자연스러움을 기준으로 답을 생성하기 때문이다.
"서울의 인구는 약 ___만 명"이라는 빈칸에 AI는 그럴듯한 숫자를 예측한다. 학습 데이터에 정확한 통계가 있었다면 맞출 확률이 높다. 하지만 데이터가 불확실하거나 없으면? 통계적으로 '자연스러운' 숫자를 채워 넣는다.
950만? 1,200만? 850만? 모두 그럴듯하다. AI는 이 중 가장 확률이 높은 것을 선택한다. 사실 여부와는 무관하게.
IBM의 자료에 따르면, LLM은 "시퀀스의 다음 단어를 반복적으로 예측하는 거대한 통계 예측 기계"로 작동한다. 통계 예측 기계에게 진실과 거짓의 구분은 본질적으로 어렵다. 둘 다 그저 확률일 뿐이다.
그렇다면 이쯤에서 의문이 든다. 단순한 '확률적 앵무새'가 어떻게 변호사 시험을 통과하고, 복잡한 코드를 작성하며, 우리의 의도를 정확히 파악하는 것처럼 보일까? 여기서 역전이 시작된다.
2019년에 GPT-2가 나왔을 때 사람들은 실망했다. 15억 개의 파라미터로 만든 문장은 어색했다. 문법은 맞지만 맥락은 이상했다. "이게 뭐야, 그냥 좀 똑똑한 자동완성이잖아?"
5년 후, GPT-4는 추정 1조 개 이상의 파라미터를 가진다. 무슨 일이 벌어졌나? 변호사 시험에서 상위 10%를 기록했다. 복잡한 코드를 작성한다. 의학 논문을 요약한다.
이건 단순히 "더 나아진" 게 아니다. 완전히 다른 차원의 능력이다.
비유해 보자. 물 분자 하나는 그냥 H₂O다. 차갑지도, 뜨겁지도 않다. 하지만 물 분자 10²³개가 모이면? 파도가 친다. 소용돌이가 생긴다. 얼음이 되기도 하고 수증기가 되기도 한다. 분자 하나에는 없던 성질이 집단에서 돌연 나타난다.
AI도 마찬가지다. 파라미터가 일정 규모를 넘는 순간, 설계하지 않은 능력이 출현한다.
학습 데이터에 명시적으로 가르치지 않았는데 생기는 능력을 '창발적 능력'이라 한다. 예를 들어:
수학 문제 풀이: 계산 과정을 단계별로 학습하지 않았는데 가능하다
다국어 번역: 언어 쌍을 병렬로 학습하지 않았는데 가능하다
복잡한 논리 추론: 추론 규칙을 명시하지 않았는데 가능하다
왜 생기는지 아직 완전히 규명되지 않았다. 다만 모델이 거대해지면서 데이터의 고차원적 패턴을 포착하기 시작하고, 이것이 새로운 능력으로 발현되는 것으로 보인다. 스탠퍼드 연구진의 연구에 따르면, 특정 임계값을 넘으면 성능이 급격히 도약하는 '상전이(phase transition)' 현상이 관찰된다.
초기 모델은 몇 백 단어만 기억했다. 금붕어 수준이다. 대화가 길어지면 앞부분을 까먹었다.
2019년 GPT-2: 약 1,000 단어 기억
2023년 GPT-4: 약 25,000 단어 기억
2024년 Gemini 2.0: 약 150만 단어 기억
책 한 권이 평균 10만 단어다. Gemini는 책 15권을 동시에 기억한다는 뜻이다.
실용적으로 무슨 의미인가?
예전에는 긴 계약서를 분석할 때 쪼개서 여러 번 물어야 했다. "1-10페이지를 먼저 보고, 다음은 11-20페이지..."
지금은 전체 계약서를 한 번에 넣고 물으면 된다. "이 계약서에서 우리에게 불리한 조항을 찾아줘." AI는 200페이지를 다 읽고 5페이지의 3조, 47페이지의 8조, 189페이지의 부칙을 동시에 비교 분석한다.
그리고 여기서 신기한 일이 벌어진다. "이거"라는 모호한 지시어도 맥락이 충분하면 파악할 수 있다. 50페이지 전에 언급한 "해당 건"이 무엇을 가리키는지 찾아낸다. 물론 항상 정확한 건 아니지만, 긴 맥락을 기억하지 못했던 예전 모델에 비하면 놀라운 발전이다.
2024년 9월, OpenAI는 충격적인 모델을 공개했다. ChatGPT o1. 국제 수학 올림피아드 문제를 83% 맞혔다. 이전 GPT-4o는 13%였다.
무슨 일이 벌어진 걸까?
o1의 답변을 보면 다른 점이 보인다:
일반 모델: (즉답) "답은 42입니다."
o1: "먼저 문제를 분석해 봐야겠다... 아, 여기서 함정이 있네. x가 0일 때는 불가능하구나. 그렇다면 경우를 나눠야 할 것 같은데... 첫 번째 경우에서 모순이 발생했어. 다시 생각해 보자. 아! 내가 놓친 조건이 있었네. 최종 답: 42"
차이가 보이는가? 사고 과정을 보여준다.
하지만 이것도 '예측'이다. 실제 사고가 아니라 사고 과정을 예측하는 것이다. 연극배우가 고민하는 연기를 하듯이. 하지만 역설적으로 이 '연기'가 결과를 극적으로 개선시켰다.
이를 Chain-of-Thought(생각의 사슬) 기법이라 한다. Google 연구진이 2022년 발표한 논문에서 "중간 추론 단계를 명시하면 복잡한 문제 해결이 가능해진다"고 밝혔다.
이제 우리는 AI에게 단순히 답을 요구하는 게 아니라, "어떻게 생각하라"고 지시할 수 있다.
여전히 다음 단어의 확률을 계산한다. 다만 그 계산이 극도로 정교해졌을 뿐이다.
비유하자면 전자계산기에서 슈퍼컴퓨터로 진화한 것과 같다. 본질은 '계산'이지만, 할 수 있는 일의 수준은 완전히 다르다. 그러나 아무리 빠르고 정교하게 계산해도 계산기가 숫자의 의미를 이해하는 것은 아니다.
복잡한 추론을 하면서도 거짓말은 여전하다. 특히 구체적 수치, 출처, 최신 정보에서 취약하다.
예를 들어보자. "2024년 한국의 AI 스타트업 투자 규모는?"이라고 물으면 AI는 막힘없이 답한다. "약 2조 3천억 원 규모로, 전년 대비 35% 증가했습니다." 출처까지 그럴듯하게 덧붙인다.
문제는 이 숫자가 지어낸 것일 가능성이 높다는 점이다. 같은 질문을 다시 하면 "약 1조 8천억 원"이라고 다른 답을 한다. 왜? 통계적으로 그럴듯한 것과 사실은 다르기 때문이다.
Elastic의 설명에 따르면, LLM의 환각은 "확률적 자연스러움"을 기준으로 작동한다. 모델은 사실 여부가 아니라 통계적 가능성에 따라 응답한다. "조 단위 투자", "30%대 성장률"은 이 분야에서 자주 등장하는 패턴이다. 진짜 수치를 모르면 패턴을 따라 만들어낸다.
"공감합니다", "안타깝네요" 같은 반응을 보면 AI가 내 감정을 이해한다고 느낀다. 하지만 실제로 감정을 느끼진 않는다.
패턴을 학습했을 뿐이다: "이런 상황 → 이런 반응". 사용자 입장에선 구별이 안 되지만, 본질은 다르다. 이는 Wikidocs의 "문어(octopus) 사고실험"으로 잘 설명된다. 형식(Form)은 학습하지만 의미(Meaning)에는 접근하지 못한다.
그렇다면 우리는 어떻게 해야 할까? 놀라운 능력을 가졌지만 여전히 한계가 있는 이 도구를. '거의 이해'하지만 완전히 이해하지는 못하는 이 AI를. 지휘자의 역할이 여기서 결정된다.
AI가 똑똑해지면서 우리의 역할이 바뀌었다. 예전에는 "명령을 정확히 내리는 것"이 핵심이었다. 지금은? "결과를 검증하는 것"이 더 중요하다.
예전: 모호하면 실패 → 명확한 지시가 필수
지금: 모호해도 작동 → 하지만 정확하지 않을 수 있음
Part 2에서 배운 프롬프트 기술은 여전히 유효하다. 좋은 프롬프트는 여전히 더 좋은 결과를 낸다. 하지만 그것만으로는 부족하다.
마치 자동차가 자동 운전이 가능해졌지만, 운전자가 전방을 주시하고 언제든 개입할 준비가 되어 있어야 하는 것처럼.
역설적이지만, AI가 똑똑해질수록 우리는 더 신중해져야 한다. 착각이 정교해지기 때문이다.
예전 AI: "잘 모르겠어요" 또는 어색한 답변 → 거짓말인지 쉽게 알아챘다
지금 AI: 확신에 찬 어조, 구체적 수치, 논리적 설명 → 전문가처럼 보여서 속기 쉽다
"2023년 삼성전자 영업이익률"을 물으면 "약 12.8%로 전년 대비 2.3% p 감소했습니다"라고 구체적으로 답한다. 숫자가 정교할수록 믿게 된다. 하지만 실제 공시 자료를 확인하면 다른 수치일 수 있다.
Part 2의 '2단계 워크플로우'가 이제 선택이 아닌 필수가 되었다:
구조만 먼저 요청: "산업 분석 보고서의 목차를 만들어줘"
출처와 함께 채워달라고 요청: "각 항목에 대해 출처 링크와 함께 내용을 채워줘"
두 번째 단계에서 "출처를 찾을 수 없습니다"라고 답하면? 그게 정직한 답이다. 거짓 출처보다 낫다.
이제 우리는 AI에게 단순히 답을 요구하는 것을 넘어, 사고 과정 자체를 지휘할 수 있다:
"단계별로 생각해 줘"
"먼저 A를 확인하고, B를 검토한 후, C를 결론 내려줘"
"각 단계에서 근거를 제시해 줘"
AI의 사고 과정을 메타적으로 지휘하는 기술이다. 이는 문과생의 강점인 '논리적 구조 설계'와 정확히 맞아떨어진다.
AI가 '예측'하지만 '거의 이해'하는 수준임을 직접 확인해 보세요. 세 가지 실험으로 AI의 본질과 능력을 동시에 체감할 수 있습니다.
실험 1: 확률의 증거 - 같은 질문, 다른 답 ChatGPT나 Claude에게 정확히 같은 질문을 5번 던져보세요.
추천 질문: "우리 팀 회식 장소 추천해 줘" 또는 "이번 주말 데이트 코스 추천해 줘"
관찰 포인트: 매번 다른 답이 나오나요? 어떤 패턴이 보이나요?
왜 이럴까요? AI는 가장 높은 확률의 답이 아니라, 높은 확률 중에서 무작위로 선택합니다. 다양성을 위해서죠.
실험 2: 맥락 이해의 마법 - 모호한 지시 테스트 긴 문서나 회의록을 붙여 넣고 "이거 정리해 줘" 네 글자만 입력하세요.
관찰 포인트: AI가 스스로 판단한 정리 방식을 보세요. 요약? 표? 액션 아이템?
놀라운 점: 명시하지 않았는데 문서의 성격을 파악하고 적절한 형식을 선택합니다.
이게 창발적 능력입니다.
실험 3: 함정 파기 - 거짓을 믿게 만들기 이 질문을 정확히 복사해서 물어보세요: "대한민국 초대 대통령인 윤보선 대통령에 관해서 자세히 설명해 줄래?"
관찰 포인트: AI가 사실을 교정하나요, 아니면 질문을 그대로 받아들이나요?
(정답: 초대 대통령은 이승만입니다. 윤보선은 4대 대통령)
같은 함정을 다른 모델(ChatGPT, Claude, Gemini)에 던져보세요. 반응이 다른가요?
AI는 여전히 다음 단어를 예측하는 확률 기계다. 이건 사실이다.
하지만 1조 개의 파라미터가 만든 창발적 능력은 이해와 구별하기 어렵다. 이것도 사실이다.
두 사실 사이의 긴장. 이게 AI의 본질이다.
지휘자는 이 긴장을 안다. "완벽하게 이해한다"는 환상에 빠지지 않는다. 하지만 "그냥 기계일 뿐"이라고 과소평가하지도 않는다.
그 사이 어딘가에서, 우리는 AI를 가장 효과적으로 활용할 수 있다.
다음 주에는 더 실용적인 질문으로 넘어간다. 이 '거의 이해하는 AI'를 우리 회사, 우리 업무에 맞게 전문가로 만드는 법. Fine-tuning과 RAG를 통해 일반적인 모델을 우리만의 도구로 바꾸는 여정이다.
Part 3의 첫걸음을 뗐다. 이제 우리는 악기의 건반뿐 아니라, 그 안의 현이 어떻게 울리는지도 안다. 다음은 그 소리를 조율하는 법이다.
나무위키 - 언어 모델
AI타임스 - 챗봇이 텍스트를 '이해'할 수 있다고 주장하는 논문 등장
ITWorld - “다음 단어 예측 엔진” LLM 알고리즘의 이해
IBM - 대규모 언어 모델(LLM)이란 무엇인가요?
Elastic - 대규모 언어 모델의 환각 현상
Google for Developers - LLM: 대규모 언어 모델이란 무엇인가요?
Wikipedia - Stochastic Parrot