brunch

You can make anything
by writing

C.S.Lewis

by 조우성 변호사 Oct 16. 2024

LLM이 다음 단어를 확률적으로 계산해서 제시


[AI 입문 강의안 중] LLM이 다음 단어를 확률적으로 계산해서 제시한다는 의미


오늘은 현대 인공지능의 핵심 기술 중 하나인 대규모 언어 모델(LLM)에 대해 이야기해보려고 합니다. 여러분은 ChatGPT나 구글의 자동 완성 기능을 사용해본 적이 있나요?


이런 기술들은 놀랍도록 인간다운 텍스트를 생성하지만, 동시에 이들이 진정으로 언어를 '이해'하고 있는지에 대한 의문도 제기됩니다. 오늘은 "LLM은 다음에 나올 단어를 확률적으로 제시할 뿐, 전체 맥락을 이해하지는 못한다"는 주장의 의미를 자세히 살펴보겠습니다.


1. LLM의 기본 원리: 확률적 단어 예측


LLM의 핵심 원리는 '다음 단어 예측'입니다. 이것이 무엇을 의미하는지 간단한 예로 설명해보겠습니다.


"나는 학교에 ___"이라는 문장이 있다고 가정해봅시다. 여러분이라면 어떤 단어로 이 문장을 완성하겠나요? 아마도 '간다', '다닌다', '도착했다' 등이 떠올랐을 겁니다. LLM도 이와 유사한 방식으로 작동합니다.


LLM은 방대한 양의 텍스트 데이터를 학습하며, 특정 단어 뒤에 어떤 단어가 나올 확률이 높은지를 계산합니다. 예를 들어, '학교에' 다음에 '간다'가 나올 확률은 30%, '다닌다'가 나올 확률은 20%, '도착했다'가 나올 확률은 15% 식으로 말이죠.


이 과정에서 LLM은 단순히 단어 수준의 확률뿐만 아니라, 더 넓은 맥락도 고려합니다. 예를 들어 "나는 초등학교에 ___"와 "나는 대학교에 ___"는 다른 확률 분포를 가질 것입니다.


2. 토큰화와 임베딩: 언어의 수치화


LLM이 텍스트를 처리하는 과정을 좀 더 자세히 들여다보겠습니다.


먼저 'tokenization'이라는 과정을 거칩니다. 이는 텍스트를 작은 단위(토큰)로 나누는 것입니다. 예를 들어, "나는 학교에 간다"라는 문장은 "나는", "학교에", "간다"로 나눌 수 있습니다.


그 다음, 각 토큰은 '임베딩' 과정을 거칩니다. 이는 각 단어를 고차원의 벡터 공간에 표현하는 것입니다. 이 과정에서 비슷한 의미나 용법을 가진 단어들은 이 공간에서 서로 가깝게 위치하게 됩니다.


LLM은 이렇게 수치화된 언어를 바탕으로 패턴을 학습하고 다음 단어를 예측합니다.


3. 맥락과 이해의 차이: 통계와 의미


여기서 중요한 점은, LLM이 단어 간의 통계적 관계를 학습하는 것이지, 우리가 생각하는 방식의 '이해'를 하는 것은 아니라는 겁니다.


이를 설명하기 위해 철학자 존 설의 '중국어 방' 사고 실험을 변형해 보겠습니다. 여러분이 중국어를 전혀 모르는 상태에서, 중국어 문장과 그에 대한 적절한 응답이 적힌 매우 두꺼운 책을 받았다고 가정해봅시다. 누군가 문을 통해 중국어 질문을 건네면, 여러분은 그 책을 뒤져 가장 비슷한 문장을 찾아 그에 해당하는 응답을 베껴 내놓습니다.


외부에서 보면 여러분이 유창하게 중국어로 대화하는 것처럼 보일 겁니다. 하지만 실제로 여러분은 중국어를 전혀 이해하지 못하고 있죠. LLM의 작동 방식도 이와 유사합니다. 엄청나게 많은 텍스트 데이터를 바탕으로 적절한 응답을 찾아내지만, 그 내용을 진정으로 '이해'하고 있지는 않습니다.


4. LLM의 한계 사례


이러한 LLM의 특성은 여러 한계로 나타납니다. 


첫째, 논리적 추론에 약점을 보입니다. 예를 들어, "모든 사람은 머리가 있다. 소크라테스는 사람이다. 그러므로 소크라테스는 머리가 있다."와 같은 간단한 삼단논법도 LLM은 때때로 실수를 합니다.


둘째, 긴 대화에서 일관성을 유지하기 어려워합니다. 초반에 언급한 정보를 나중에 갑자기 바꾸는 경우가 있죠.


셋째, '환각(hallucination)' 현상이 나타납니다. 이는 실제로 존재하지 않는 정보를 있는 것처럼 말하는 현상입니다. 예를 들어, 존재하지 않는 책이나 영화에 대해 상세히 설명하기도 합니다.


이러한 한계들은 LLM이 진정한 의미에서의 '이해'가 아닌, 통계적 패턴 매칭에 기반하고 있다는 점을 보여줍니다.


5. 인간의 언어 이해와 LLM의 차이


인간의 언어 이해는 단순한 패턴 인식을 넘어섭니다. 우리는 언어를 통해 전달되는 의미를 실제 세계의 경험과 연결 짓고, 추상적 개념을 형성하며, 새로운 상황에 유연하게 적용합니다.


예를 들어, "그녀는 얼음장 같은 표정으로 말했다"라는 문장을 이해할 때, 우리는 단순히 단어의 조합을 넘어 실제 감정과 상황을 상상할 수 있습니다. 반면 LLM은 이런 문장을 '차가운', '감정 없는' 등의 관련 단어들과의 통계적 연관성으로만 처리합니다.


또한 인간은 새로운 개념을 빠르게 학습하고 적용할 수 있습니다. 반면 LLM은 학습 데이터에 없는 새로운 개념을 이해하거나 적용하는 데 한계가 있습니다.


결론적으로, LLM은 인상적인 언어 생성 능력을 보여주지만, 이는 '다음에 올 가능성이 높은 단어'를 확률적으로 선택하는 과정의 결과입니다. 이는 인간이 언어를 통해 의미를 이해하고, 추론하며, 새로운 아이디어를 생성하는 방식과는 근본적으로 다릅니다.


그렇다면 우리는 어떤 질문을 던져야 할까요? "어떻게 하면 AI가 단순한 패턴 매칭을 넘어 진정한 이해에 도달할 수 있을까?", "만약 AI가 인간처럼 언어를 이해하게 된다면, 그것은 의식을 가진 것으로 볼 수 있을까?" 이러한 질문들은 AI 기술의 발전뿐만 아니라 인간의 지능과 의식에 대한 우리의 이해에도 깊은 통찰을 줄 것입니다.


우리는 지금 인공지능과 인간 지능의 경계를 탐구하는 흥미진진한 시대를 살고 있습니다. LLM의 능력과 한계를 이해하는 것은 단순히 기술적 문제를 넘어, 인간의 언어, 지능, 그리고 의식의 본질에 대한 깊은 철학적 질문으로 이어집니다.



매거진의 이전글 LLM이 할루시네이션을 발생시키는 이유
브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari