LLM은 어떻게 최신 웹 검색 결과를 이해할까?

Aug 2. 2025

LLM, 웹 검색 결과를 이해하는 마법

ChatGPT와 대화하다 보면 가끔 이런 생각 해보셨나요? "이 AI는 분명 과거의 데이터로 학습했을 텐데, 어떻게 지금 막 벌어진 최신 뉴스나 웹 검색 결과까지 찾고 이렇게 자연스럽게 답변해 주지?" 정말 신기합니다. 마치 어제 방영된 드라마 내용을 오늘 바로 친구에게 설명해 줍니다.

모델이 학습된 시점 이후의 정보, 즉 '학습되지 않은 최신 데이터'를 웹에서 실시간으로 검색해서 가져오고, 그걸 또 내 질문과 연결해서 기가 막히게 정리하거나 추론해서 알려주는 것을 보면 감탄을 금할 수 없습니다.

도대체 AI는 이 최신 정보를 어떻게 자기 머릿속으로 가져와서 응답을 만들어내는 걸까요? 단순히 검색된 텍스트를 그대로 보여주는 걸까요? 아니면, 그렇게 가져온 최신 데이터가 나중에 모델의 학습에 자동으로 포함되어서 더 똑똑해지는 걸까요?

이 모든 궁금증의 해답 중 하나가 바로 오늘 이야기할 '크로스 어텐션(Cross-Attention)'에 숨겨져 있습니다. AI가 '자기 생각'을 정리하는 방식인 셀프 어텐션을 넘어, '외부 정보'와 '내 질문'을 연결하고 융합하는 마법 같은 메커니즘을 이해한다면, LLM이 웹 검색 결과를 어떻게 '진짜' 이해하고 활용하는지 그 비밀을 파헤칠 수 있습니다.

어텐션, 그거 하나면 다 되는 거 아니었어?

AI 기술에 관심이 있는 분은 '어텐션(Attention)'이라는 단어를 많이 들어보셨을 거라 생각합니다. "AI가 중요한 부분에 집중한다"는 설명은 이제 꽤 익숙합니다. 하지만 이 '집중'에도 사실은 '셀프 어텐션(Self-Attention)'과 '크로스 어텐션(Cross-Attention)'이라는 두 가지 종류가 있다는 사실, 알고 계셨나요?

여기서 많은 분들이 혼란을 느낍니다. "어텐션 하나면 다 되는 거 아닌가?", "셀프 어텐션은 자기 자신에게 집중한다는데, 그럼 크로스 어텐션은 대체 뭐에 집중한다는 거지?" 이런 질문들이 자연스럽게 떠오릅니다. 심지어 BERT나 GPT 같은 유명 모델은 주로 셀프 어텐션만 쓴다고 알려져 있는데, 그렇다면 크로스 어텐션은 도대체 언제, 왜 필요한 걸까요? 그리고 이것이 우리가 궁금해하는 '웹 검색 결과 활용'과 무슨 관계가 있는 걸까요?

"내부 집중"과 "외부 집중", 도대체 뭐가 다른 거죠?

가장 기본적인 차이점은 이름에서 힌트를 얻을 수 있습니다.

셀프 어텐션 (Self-Attention)

'자기 자신에게 집중'하는 방식입니다. AI가 하나의 텍스트 덩어리(예: 내 질문 문장 전체, 혹은 검색된 웹 문서 내용 전체)를 처리할 때 사용됩니다. 이 텍스트 안의 단어들끼리 서로 얼마나 관련이 있는지, 어떤 단어가 다른 단어에 더 중요한 영향을 미치는지 파악하는 데 집중합니다. 마치 팀원들이 각자 맡은 부분을 이해하고 서로 의논하며 프로젝트를 진행하는 모습과 비슷하죠. AI는 이 '내부 집중'을 통해 내 질문의 의도를 깊이 이해하거나, 검색된 웹 문서의 내용을 정확히 파악하게 됩니다.

크로스 어텐션 (Cross-Attention)

'외부 정보와 자신의 입력(질문)을 연결'할 때 사용됩니다. 즉, 서로 다른 두 가지 정보 흐름 사이에서 중요도를 파악하고 집중하는 메커니즘입니다. 쉽게 말해, "내가 AI에게 한 질문"과 "AI가 웹에서 찾아온 검색 결과"처럼 서로 다른 출처의 정보가 있을 때, 크로스 어텐션은 이 둘을 엮어서 "검색 결과 중에서 내 질문과 가장 관련된 부분은 어디지?"를 찾아내는 역할을 합니다. 마치 통역사가 두 나라 사람의 대화를 연결해 주는 것과 같다고 할 수 있습니다.

두 어텐션 개념의 이해

셀프 어텐션과 크로스 어텐션은 조금 이해하기 어려울 수 있습니다. '어텐션'이라는 큰 우산 아래 두 가지 기능: '자동차'라는 큰 범주 안에 '승용차'와 '트럭'이 있듯이, 어텐션이라는 강력한 메커니즘이 크게 두 가지 역할로 나뉘기 때문입니다. 이름만으로는 그 기능의 핵심적인 차이를 직관적으로 파악하기 어렵습니다.

Transformer 모델이 인코더와 디코더로 나뉘고, 각각의 블록에서 다른 어텐션이 사용된다는 설명이 이어지면, 초보자 입장에서는 더 혼란스러울 수 있습니다. 또한 '집중'이라는 단어는 직관적이지만, AI가 실제로 어떻게 '집중'하고 정보를 '융합'하는지 명확한 비유나 실제 사용 사례 없이는 완전히 이해하기 어렵습니다.

"그냥 어텐션 하나면 되는 거 아닌가요?", "셀프 어텐션은 자기 자신에게 집중한다는데, 그럼 크로스 어텐션은 뭐에 집중한다는 거지?" 이런 질문들이 자연스레 떠오릅니다. 심지어 BERT나 GPT 같은 유명 모델은 셀프 어텐션만 쓴다고도 하는데, 그럼 크로스 어텐션은 대체 언제, 왜 필요한 걸까요?

이제 이 두 어텐션이 LLM이 문장을 이해하고 나아가 '학습되지 않은 최신 웹 검색 결과'까지 활용하여 답변을 생성하는 데 얼마나 핵심적인 역할을 하는지 다음 섹션에서 Transformer의 설계도를 통해 더 깊이 파고들어 보겠습니다.

Cross-Attention은 언제 필요할까?

정확히 말하면, 우리가 흔히 접하는 BERT나 GPT-3 같은 초기 모델들은 주로 셀프 어텐션 블록만으로 구성된 '인코더(Encoder)' 또는 '디코더(Decoder)' 구조를 가집니다.

BERT (인코더 중심)

BERT는 문장을 이해하고 표현하는 데 특화되어 있습니다. 그래서 입력된 문장 내부의 모든 단어 관계를 파악하는 셀프 어텐션만으로도 충분히 강력한 성능을 발휘하죠. 마치 책을 깊이 읽고 내용을 완전히 파악하는 독서가와 같습니다.

GPT (디코더 중심)

GPT는 새로운 텍스트를 생성하는 데 특화되어 있습니다. 물론 GPT 내부에도 강력한 셀프 어텐션이 있어서 '지금까지 생성된 텍스트'의 맥락을 이해하고 다음 단어를 예측합니다. 하지만 GPT-3.5 이후의 많은 LLM, 특히 웹 검색 기능을 통합한 모델들은 '외부 정보'를 활용할 때 크로스 어텐션이 필수적으로 사용됩니다.

Transformer의 설계도: 인코더와 디코더, 그리고 어텐션의 역할 분담

이제 우리는 셀프 어텐션과 크로스 어텐션이라는 두 가지 '집중' 방식이 있다는 것을 알게 되었습니다. 이제는 이 두 어텐션이 Transformer라는 AI 모델의 '설계도' 안에서 어떻게 각자의 역할을 분담하는지, 그리고 왜 특정 어텐션만 쓰이는 구조가 있고, 다른 어텐션까지 같이 쓰이는 구조가 있는지 그 비밀을 파헤쳐 볼 시간입니다.

Transformer는 크게 두 부분으로 나뉘는 경우가 많습니다. 바로 인코더(Encoder)와 디코더(Decoder)입니다. 마치 복잡한 기계가 '입력 처리부'와 '출력 생성부'로 나뉘어 작동하는 것과 같습니다.

문장 이해 전문가, '인코더'의 Self-Attention

인코더는 주어진 문장이나 텍스트를 '이해'하고 '표현'하는 역할을 합니다. 비유하자면, 도서관에서 어떤 책의 내용을 완벽하게 파악하고 핵심을 정리하는 '이해 전문가'라고 할 수 있습니다.

인코더의 목표는 입력된 텍스트("오늘 날씨가 정말 좋다")를 AI가 이해할 수 있는 의미 있는 내부 표현(벡터)으로 바꾸는 것입니다. 이 과정에서 중요한 것은 '오늘', '날씨', '정말', '좋다' 이 단어들이 서로 어떤 관계를 맺고 있는지 정확하게 파악하는 것입니다.

인코더는 이 목표를 달성하기 위해 셀프 어텐션만을 사용합니다. 왜냐하면 입력 문장 '내부'의 단어들 간의 모든 관계를 파악하는 것이 가장 중요하기 때문입니다. '날씨'가 '좋다'와 어떻게 연결되는지, '오늘'이 '날씨'에 어떤 영향을 미치는지 등, 문장 안의 모든 단어들이 서로에게 어떻게 집중하고 영향을 주는지 계산하죠.

인코더는 단순히 입력 텍스트 자체를 깊이 이해하는 것이 목적이므로, 외부에서 다른 정보를 가져와 결합할 필요가 없습니다. 그래서 셀프 어텐션만으로 충분한 것입니다. BERT와 같은 모델들이 인코더 중심 구조를 갖는 이유가 바로 여기에 있습니다.

답변 생성 마법사, '디코더'는 Self와 Cross를 모두 쓴다

반면 디코더는 '새로운 텍스트를 생성'하는 역할을 합니다. 마치 잘 이해한 내용을 바탕으로 새로운 글을 써내려가는 '생성 마법사'와 같습니다. 그리고 이 디코더는 셀프 어텐션과 크로스 어텐션, 두 가지를 모두 사용합니다.

디코더의 목표는 인코더가 이해한 내용(또는 이전 대화의 맥락)을 바탕으로, 다음 단어를 예측하고 문장을 생성하는 것입니다. 이 과정은 단순히 단어를 나열하는 것이 아니라, 자연스럽고 의미 있는 흐름을 만들어야 합니다.

디코더는 먼저 셀프 어텐션을 사용하여 '지금까지 자신이 생성한 부분'의 맥락을 이해합니다. 예를 들어 "오늘 날씨가 좋아서 산책"까지 생성했다면, 다음 단어가 '하기'일지 '갈까'일지 등을 예측하기 위해 '산책'이 '오늘 날씨'와 어떻게 연결되는지 등, 이미 생성된 단어들 간의 관계를 파악합니다.

디코더는 텍스트를 생성할 때, 인코더가 이해한 '원본 입력 정보' (또는 웹 검색 결과 같은 '외부 정보')에 집중해야 합니다. 비유하자면, 작가가 글을 쓸 때 '지금까지 쓴 자기 원고(셀프 어텐션)'도 참고하지만, '참고 자료(크로스 어텐션)'를 보면서 새로운 내용을 추가하고 아이디어를 얻는 것과 같습니다.

크로스 어텐션은 디코더가 생성 중인 내용과 원본 입력/외부 정보 사이에서 가장 관련성 높은 부분을 찾아 연결할 수 있도록 돕습니다. 이를 통해 AI는 질문의 의도를 정확히 반영하고, 외부 데이터의 사실을 기반으로 답변을 생성할 수 있게 됩니다. GPT와 같이 대화나 글을 생성하는 모델들이 크로스 어텐션의 잠재력을 적극 활용할 수 있는 이유입니다.

이 두 어텐션이 Transformer의 '능력'을 결정짓는 방식

Transformer는 이처럼 두 어텐션 메커니즘을 적재적소에 활용하여 놀라운 언어 처리 능력을 발휘합니다.

인코더 (Self-Attention): '깊은 독해력'을 담당합니다. 주어진 텍스트를 완벽하게 이해하고 핵심을 파악하는 능력입니다.

디코더 (Self-Attention + Cross-Attention): '창의적인 작문력'과 '참고 자료 활용 능력'을 담당합니다. 이해한 내용을 바탕으로 새로운 텍스트를 유창하게 생성하고, 필요할 때는 외부 정보를 정확하게 참고하여 더욱 풍부하고 정확한 답변을 만들어냅니다.

이 두 어텐션이 각자의 역할을 충실히 수행하기 때문에, Transformer는 단순히 단어를 나열하는 것을 넘어, 문맥을 완벽히 이해하고, 새로운 내용을 생성하며, 심지어 외부의 최신 정보까지 활용하여 우리와 소통할 수 있는 진정한 '언어 전문가'가 될 수 있는 것입니다.

LLM이 외부 정보를 끌어안는 방식

'크로스 어텐션'은 디코더에서 사용되며 외부 정보를 가져와 연결하는 역할을 한다고 했습니다. 그렇다면 이제 가장 중요한 질문에 답할 차례입니다. LLM이 학습되지 않은 최신 웹 검색 결과나 다양한 외부 정보를 어떻게 '진짜' 이해하고 활용해서 우리에게 답변해 줄까요? 그 마법 같은 연결 고리가 바로 크로스 어텐션의 숨겨진 능력입니다.

"내 질문"과 "웹 검색 결과", AI는 어떻게 이 둘을 연결할까?

ChatGPT에 "2024년 파리 올림픽 축구 우승국은 어디야?"라고 물었습니다. ChatGPT는 2024년 파리 올림픽에 대한 학습 데이터가 없거나, 너무 오래된 정보만 가지고 있을 수 있습니다. 이때 AI는 어떻게 이 질문에 답할까요? 바로 '웹 검색' 기능을 활용합니다.

Step 1. 웹 검색

AI는 먼저 여러분의 질문을 바탕으로 웹 검색 엔진에 쿼리를 날립니다. (예: "2024 파리 올림픽 축구 우승국")

Step 2. 검색 결과 수집

웹 검색 엔진은 관련된 문서, 뉴스 기사 등을 찾아 AI에게 전달합니다. 이 문서들에는 '2024 파리 올림픽 남자 축구는 스페인 우승, 여자 축구는 미국 우승' 같은 최신 정보가 포함되어 있겠죠.

Step 3.Cross-Attention의 활약

이제 핵심입니다. AI는 여러분의 '원래 질문(Query)'과 '새롭게 얻은 웹 검색 결과(Context)'라는 두 가지 독립적인 정보 덩어리를 갖게 됩니다. 이때 크로스 어텐션이 등장합니다. 크로스 어텐션은 웹 검색 결과 문서들을 꼼꼼히 훑어보면서, "내 질문(파리 올림픽 축구 우승국)"과 가장 관련성이 높은 부분(스페인, 미국 우승)이 어디인지를 찾아냅니다.

마치 두 개의 다른 언어로 된 책을 동시에 보면서, 한쪽 책의 특정 문장이 다른 쪽 책의 어떤 문장과 가장 밀접하게 관련되어 있는지 찾아내는 통역사와 같은 역할을 하게 됩니다. 이렇게 크로스 어텐션을 통해 AI는 방대한 검색 결과 속에서 내 질문에 꼭 필요한 '핵심 정보'만 쏙쏙 뽑아내고, 그 정보를 질문과 연결 지어 이해할 수 있게 됩니다. 이것이 LLM이 학습되지 않은 최신 웹 데이터까지 마치 자기 지식처럼 활용하는 비결인 셈입니다.

RAG (검색 증강 생성)와 멀티모달 AI

크로스 어텐션은 단지 웹 검색 결과 연결에만 사용되는 것이 아닙니다. LLM의 능력을 비약적으로 확장시키는 다양한 AI 기술에서 핵심적인 역할을 수행합니다.

RAG (Retrieval-Augmented Generation, 검색 증강 생성)

바로 위에서 설명한 웹 검색 활용 방식이 R로 시작하는 RAG의 대표적인 예시입니다. AI 모델이 답변을 생성하기 전에, 외부 데이터베이스나 웹에서 관련 정보를 검색(Retrieval)해 와서 이를 참조하여 답변을 생성(Generation)하는 방식입니다.

크로스 어텐션은 이 검색된 정보를 AI의 생성 과정에 자연스럽게 '주입'하는 역할을 담당합니다. 이를 통해 LLM은 최신 정보에 기반한 답변을 제공하고, 환각(Hallucination) 현상을 줄이며, 답변의 출처까지 제시할 수 있게 됩니다.

멀티모달 AI

텍스트뿐만 아니라 이미지, 음성, 영상 등 여러 가지 형태의 정보(Modality)를 동시에 이해하고 처리하는 AI를 멀티모달 AI라고 합니다. 예를 들어, 이미지를 보고 그 내용을 설명해 주거나, 특정 이미지에 대해 질문하면 답변해 주는 AI가 대표적입니다.

여기서도 크로스 어텐션이 활약합니다. AI는 '이미지' 정보(시각적 특징)와 '내 질문' (텍스트 정보)이라는 서로 다른 형태의 입력을 받아, 크로스 어텐션을 통해 이 둘 사이의 관련성을 찾아냅니다. "이 이미지에서 강아지는 어디 있지?"라는 질문에 AI가 강아지 영역에 집중하여 답변을 생성할 수 있는 것입니다.

AI가 외부 문서를 읽고, 이미지를 보고 이해하는 핵심 원리

결국 크로스 어텐션은 LLM이 자신이 학습한 데이터의 한계를 넘어, 실시간으로 변화하는 외부 세계의 정보를 능동적으로 '흡수'하고 '연결'하는 핵심 통로입니다. AI가 긴 학술 논문이나 보고서를 요약할 때, 크로스 어텐션을 통해 '어떤 정보'가 질문과 연관되어 있는지 파악하며 중요한 부분을 발췌합니다. 또 AI가 사진 속 사물을 인식하고 설명할 때, 크로스 어텐션은 이미지의 시각적 특징과 해당 객체에 대한 텍스트 설명을 연결합니다.

이처럼 크로스 어텐션은 AI가 단순히 과거 학습 데이터를 앵무새처럼 반복하는 것을 넘어, 외부의 '새로운 지식'을 능동적으로 탐색하고, 내 질문과 연결하여 더욱 풍부하고 정확하며 최신 정보를 담은 답변을 생성할 수 있게 하는 진정한 마법 같은 능력입니다.

Self-Attention vs. Cross-Attention

우리가 웹 검색 결과를 활용하는 LLM의 마법을 이해하기 위해, 이제 Self-Attention과 Cross-Attention이라는 두 가지 핵심 어텐션 메커니즘을 명확하게 비교해 보겠습니다. 이 둘은 이름은 비슷하지만, AI 내부에서 수행하는 역할과 작동 방식에는 결정적인 차이가 있습니다. 마치 회사의 '내부 회의'와 '외부 협력'처럼 말이죠.

Self-Attention

Self-Attention은 AI가 하나의 입력 시퀀스(문장, 문서 등) 내에서 단어들 간의 관계에만 집중하는 방식입니다. 쉽게 말해, AI가 자기 자신과 대화하며 내부적으로 정보를 심층 분석하는 '내부 회의'라고 생각할 수 있습니다.

Self-Attention은 문장 내의 모든 단어가 다른 모든 단어와 어떤 연관성이 있는지 파악합니다. "사과는 [맛있고], [건강에] 좋다"라는 문장에서 '사과'가 '맛있고'와 '건강에' 모두 깊은 관련이 있음을 이해합니다. 같은 단어라도 문맥에 따라 의미가 달라질 수 있습니다. 이런 의미적 모호성을 Self-Attention은 주변 단어들을 통해 정확한 의미를 찾아냅니다. (예: '배'가 '먹는 배'인지 '타는 배'인지)

BERT처럼 문장 이해나 표현에 특화된 모델은 Self-Attention만으로도 뛰어난 성능을 발휘합니다. Self-Attention은 회사에서 같은 팀원들끼리 프로젝트 회의를 하는 것과 같습니다. 각 팀원(단어)은 자기 의견을 내고(Query), 다른 팀원들의 의견을 듣고(Key), 그 의견의 가치를 판단하여(Value) 최종적으로 모두가 합의된 아이디어(더 나은 단어 표현)를 도출합니다. 모든 정보가 '팀 내부'에서 순환하며 깊은 이해를 만듭니다.

Cross-Attention

반면 Cross-Attention은 서로 다른 두 개의 입력 시퀀스 사이의 관계에 집중하는 방식입니다. 이는 마치 회사에서 '우리 팀'과 '외부 파트너'가 만나 협력하는 '외부 협력' 과정과 같습니다.

Cross-Attention은 사용자의 질문과 검색된 웹 문서(외부 정보)처럼 전혀 다른 두 정보 소스 간의 관련성을 찾아냅니다. 외부에서 가져온 방대한 정보 중에서 내 질문과 가장 밀접하게 관련된 부분만 골라내는 '선택적 집중'을 가능하게 합니다.

Cross-Attention의 목적은 AI가 답변을 생성할 때, 자기 내부 지식뿐만 아니라 외부에서 얻은 최신 정보나 특정 문맥을 참조하여 더욱 정확하고 풍부한 답변을 만들 수 있게 합니다. RAG(검색 증강 생성) 시스템의 핵심입니다.

Cross-Attention은 통역사가 있는 국제 회의와 같습니다. 한쪽 팀(내 질문)이 궁금한 점을 던지고(Query), 다른 쪽 팀(웹 검색 결과)이 가진 자료(Key)와 실제 답변(Value)을 제시합니다. 통역사(Cross-Attention)는 이 두 그룹 사이에서 핵심을 연결하고, 질문에 가장 잘 맞는 자료를 찾아 전달하여 양측의 소통과 협력을 돕습니다. 모든 정보가 '외부 소스'에서 들어와 '내 질문'에 맞춰 재구성됩니다.

코드로 보는 두 어텐션: self_attn과 cross_attn의 의미

실제로 HuggingFace와 같은 라이브러리에서 Transformer 모델의 코드를 열어보면, 모델 구조에 따라 self_attn과 cross_attn이라는 용어를 자주 발견할 수 있습니다.

self_attn: 이 모듈은 해당 레이어의 입력이 오직 자기 자신으로부터만 오는 경우에 사용됩니다. 즉, Query, Key, Value 모두가 동일한 입력 시퀀스에서 파생됩니다. 인코더 블록에서 입력 문장 자체를 분석하거나, 디코더 블록에서 이전에 생성된 토큰들을 분석할 때 사용됩니다.

cross_attn: 이 모듈은 Query가 한 소스(예: 디코더의 현재 생성 중인 토큰)에서 오고, Key와 Value는 다른 소스(예: 인코더의 출력, 또는 검색된 웹 문서의 임베딩)에서 올 때 사용됩니다. 즉, 정보를 '교차'하여 집중한다는 의미입니다. 이것이 바로 LLM이 질문과 외부 검색 결과를 연결하는 핵심 코드 블록이라고 할 수 있습니다.

이처럼 Self-Attention과 Cross-Attention은 Transformer 아키텍처의 두 기둥이며, 각각 '내부 심층 이해'와 '외부 정보와의 효율적 연결'이라는 명확한 역할을 수행합니다.

LLM이 세상을 이해하는 '두 개의 눈', Self와 Cross

우리는 지금까지 LLM이 어떻게 복잡한 언어를 이해하고, 나아가 웹 검색 결과와 같은 '학습되지 않은 최신 정보'까지 활용하여 답변을 생성하는지 그 비밀을 파헤쳐 봤습니다. 그 중심에는 바로 Self-Attention과 Cross-Attention이라는 두 가지 핵심 메커니즘이 있습니다.

결국, LLM은 이 두 가지 어텐션 메커니즘을 '두 개의 눈'처럼 활용하여 세상을 이해합니다. 하나의 눈으로는 자신의 내면을 깊이 들여다보고, 다른 하나의 눈으로는 외부 세계의 정보를 탐색하고 연결하는 것이죠. 이 두 눈이 함께 작동하며 시너지를 낼 때, LLM은 단순한 언어 처리기를 넘어 우리의 삶을 혁신하는 강력한 AI 동반자로 거듭날 수 있는 것입니다.

이제 여러분은 ChatGPT가 어떻게 그렇게 똑똑하게 답변하는지, 특히 학습되지 않은 최신 정보까지 활용하는지 그 근본 원리를 이해하게 되었습니다.

Q&A Section

Q. 사용자가 올린 파일등의 정보나 웹 검색의 결과도 모델의 학습에 반영이 되나요?

일이나 웹 검색 결과가 직접적으로 모델의 학습에 반영되는 경우는 일반적이지 않습니다.

LLM(거대 언어 모델)의 '학습'은 보통 두 가지 큰 단계로 이루어집니다.

사전 학습 (Pre-training): 모델이 방대한 양의 텍스트 데이터(인터넷, 책 등)를 미리 학습하여 언어의 패턴, 문법, 일반적인 지식 등을 습득하는 단계입니다. 이 단계는 수개월에서 수년이 걸리며 엄청난 컴퓨팅 자원을 필요로 합니다.

미세 조정 (Fine-tuning): 사전 학습된 모델을 특정 작업이나 최신 데이터에 맞춰 성능을 개선하는 단계입니다. 하지만 이 역시 모델 구조 자체를 크게 바꾸는 학습은 아닙니다.

사용자가 파일을 업로드하거나 웹 검색을 통해 얻은 정보는 이 학습 과정에 실시간으로 반영되지 않습니다. 대신, 모델은 이러한 정보를 '활용'합니다. 즉, 모델이 답변을 생성하기 위해 '활용하는 현재 맥락 정보'입니다.

따라서 다른 사용자나 이후 새로운 맥락의 채팅에서는 이전에 활용했던 정보(사용자가 올린 파일 내용이나 특정 웹 검색 결과)를 모델이 직접 활용할 수 없습니다.

Q. 미세 조정은 최신 데이터에 맞춰 성능을 개선하는 단계인데, 이렇게 학습되는 것이 아닌가요?

특정 모델의 '미세 조정(Fine-tuning)'에 직접적으로 활용되지 않습니다. 여기에는 몇 가지 이유가 있습니다.

개인 정보 보호 및 보안 문제

가장 중요한 이유 중 하나는 개인 정보 보호와 보안입니다. 사용자가 대화 중에 제공하는 정보(업로드한 파일, 특정 웹 검색 쿼리 및 결과 등)는 민감한 개인 정보나 기업 기밀을 포함할 수 있습니다. LLM 제공사는 이러한 데이터를 무단으로 모델 학습에 사용하여 다른 사용자에게 노출되거나 오용될 위험을 감수하지 않습니다. 대부분의 LLM 서비스는 사용자 데이터의 개인 정보 보호 정책을 엄격하게 운영하며, 명시적인 동의 없이는 이러한 데이터를 모델 학습에 사용하지 않습니다.

미세 조정 데이터의 특성

미세 조정은 특정 목적을 위해 잘 정제되고 분류된 대량의 데이터셋을 사용합니다. 예를 들어, 특정 분야의 전문 지식을 강화하거나, 특정 답변 스타일을 학습시키거나, 유해 콘텐츠를 필터링하는 등의 목적을 가집니다. 사용자 한두 명이 입력한 단발적인 파일 내용이나 웹 검색 결과는 이러한 대규모의 체계적인 미세 조정 데이터셋에 포함되기 어렵습니다. 설령 유용한 정보가 있더라도, 이를 학습 데이터로 변환하고 모델에 반영하는 과정은 자동화되기 어렵고 비용이 많이 듭니다.

'활용'과 '학습'의 차이

앞서 설명했듯이, LLM은 사용자가 제공한 정보를 '활용'하는 것이지 '학습'하는 것이 아닙니다.

활용 (Inference Time): 사용자가 대화하는 동안, LLM은 컨텍스트 윈도우 내에서 제공된 파일 내용이나 검색 결과를 읽고 이해하여 답변을 생성합니다. 이 정보는 대화 세션이 끝나면 사라지거나, 최소한 모델의 영구적인 지식 기반에 추가되지 않습니다.

학습 (Training Time): 모델이 새로운 지식을 흡수하고 능력을 강화하는 과정으로, 대규모 데이터셋을 기반으로 합니다. 이 과정은 오랜 시간과 막대한 컴퓨팅 자원을 필요로 합니다.

예외 및 오해의 소지

'학습 데이터 개선'에 간접적으로 기여?: 일부 LLM 개발사는 익명화되고 집계된 형태의 사용자 상호작용 데이터(프롬프트와 AI 응답 쌍)를 모델의 성능 평가나 향후 모델 버전의 전반적인 학습 데이터셋 개선에 활용할 수 있다고 명시하기도 합니다. 하지만 이는 특정 사용자가 올린 '파일 내용'이나 '웹 검색 결과'와 같은 원본 데이터가 직접적으로 학습되는 것이 아니라, AI가 해당 데이터와 상호작용한 '방식'이나 '피드백' 등이 더 일반적인 차원에서 분석될 수 있다는 의미입니다. 이 또한 사용자 동의를 기반으로 합니다.

커스텀 미세 조정 모델: 사용자가 직접 자신의 데이터(기업 내부 문서 등)를 가지고 특정 LLM 모델을 직접 미세 조정하는 경우는 있습니다. 하지만 이 역시 LLM 서비스 제공사가 일반 모델을 업데이트하는 것과는 별개의 과정이며, 사용자가 직접 비용을 지불하고 명시적으로 진행하는 작업입니다.

Q. LLM이 정보를 기억하는 맥락이라는 것의 프로세스가 궁금합니다.

LLM은 기본적으로 '세션(Session)' 또는 '대화 맥락(Context)' 단위로 정보를 처리합니다.

현재 대화 세션 내에서만 유효: 파일을 업로드했거나 특정 웹 검색을 통해 얻은 정보는 해당 대화 세션 안에서만 모델이 '임시적으로' 접근하고 활용할 수 있는 자료가 됩니다. 이는 마치 특정 문제를 풀기 위해 참고 자료를 꺼내서 사용하는 것과 같습니다. 문제를 다 풀고 참고 자료를 덮으면, 다음에 다른 문제를 풀 때 자동으로 그 참고 자료가 펼쳐져 있지는 않습니다.

새로운 채팅은 새로운 맥락: 새로운 채팅을 시작하거나, 기존 채팅이라도 이전 대화 맥락이 너무 길어져 컨텍스트 윈도우를 벗어나면, 모델은 해당 정보를 잊어버립니다. 다음에 또 같은 정보가 필요하다면, 다시 파일을 업로드하거나 웹 검색을 요청해야 합니다.

모델 학습에 반영되지 않음: 이러한 정보가 모델의 영구적인 지식으로 '학습'되어 다른 모든 사용자나 미래의 대화에 자동으로 반영되는 것은 아닙니다. LLM의 학습 과정은 매우 방대하고 비용이 많이 들기 때문에, 실시간으로 사용자 개개인의 입력 데이터를 반영하여 모델 자체를 업데이트하는 방식은 아닙니다.

keyword

Brunch Book 수, 토 연재

연재 쉽게 이해하는 ChatGPT

전체 목차 보기

멘토사피엔스 소속 스타트업 직업 개발자

오늘 또 하나 더 배우려고 노력합니다. 스타트업에서 주로 일해왔고 책을 좋아합니다. 메타인지, 성장, 선한 영향력을 추구합니다.

팔로워 24

이전 12화GPT는 문장을 어떻게 이해할까?ChatGPT의 응답속도가 빠른 이유다음 14화