UX 디자이너를 위한 LLM 이해와 환각 줄이기

by 유훈식 교수

UX 디자인에 LLM 활용은 이제 기본이 되고 있다. UX 디자인에 LLM을 활용하기 위해 LLM의 텍스트 생성에 대한 기본 원리 이해와 할루시네이션의 발생 원인, 그리고 할루시네이션을 줄이는 방법까지 한 번 정리를 해보았습니다 : )


LLM이란 무엇인가?

대규모 언어 모델(Large Language Model, 이하 LLM)은 현대 인공지능 기술의 정수이자, 방대한 텍스트 데이터를 기반으로 인간의 언어를 이해하고 생성할 수 있도록 설계된 초거대 신경망 구조를 의미한다. 전문 디자이너의 관점에서 비유하자면, LLM은 인류가 지금까지 축적해온 거의 모든 시각적 스타일, 조형 원리, 그리고 설계 도면을 학습하여 사용자의 아주 미세한 스케치 제안에도 즉각적으로 정교한 결과물을 내놓을 수 있는 '범용적 지능 디자인 엔진'과 같다. 이 모델은 수천억 개에 달하는 매개변수(Parameter)를 조정하며 단어와 문장 사이의 미세한 상관관계를 파악하며, 단순한 텍스트 생성을 넘어 감정 분석, 복잡한 코드 작성, 전략적 기획 등 고도의 인지적 작업에 광범위하게 활용된다.

image.png

LLM의 기술적 토대는 2017년 구글이 발표한 트랜스포머(Transformer) 아키텍처에 있으며, 이는 기존의 순차적 데이터 처리 방식인 RNN이나 LSTM의 한계를 극복하고 문장 내 모든 단어를 동시에 분석할 수 있는 병렬 처리 능력을 부여했다. 이러한 구조적 혁신은 모델이 문맥을 파악하는 능력을 비약적으로 향상시켰다. 모델은 웹 크롤링, 전문 학술지, 디지털 도서관 등에서 수집된 방대한 데이터를 바탕으로 특정 단어 뒤에 어떤 단어가 올 확률이 가장 높은지를 계산하며, 이를 통해 마치 인간이 대화하는 것과 같은 자연스러운 문장을 구사한다. 이러한 학습 과정은 디자이너가 수천 개의 레퍼런스를 보며 조형적 감각을 내재화하는 과정과 유사하지만, LLM은 이를 수학적인 고차원 벡터 공간에서 처리한다는 점에서 차이가 있다.

image.png

결국 LLM은 정보를 단순히 저장하는 정적인 백과사전이라기보다는, 입력된 정보에 대해 가장 그럴듯한 반응을 생성하도록 훈련된 정교한 '예측 장치'라고 정의할 수 있다. 사용자가 입력한 질문이나 지시(프롬프트)에 대해 모델은 자신이 학습한 확률 분포에 따라 최적의 답변을 생성하며, 이 과정에서 문맥을 파악하고 창의적인 아이디어를 제안하는 능력을 보여준다. 그러나 이러한 확률 기반의 작동 방식은 모델이 실제 세계를 진정으로 이해하거나 논리적인 인과 관계를 완벽히 파악하지 못한다는 태생적 한계를 동시에 안고 있으며, 이는 후술할 할루시네이션 현상의 근본 원인이 된다.


LLM의 텍스트 생성 5단계


토큰화

텍스트 생성의 첫 번째 관문인 토큰화(Tokenization)는 LLM이 인간의 언어를 인식할 수 있는 최소 단위인 '토큰(Token)'으로 분해하는 과정이다. 디자인 작업에서 하나의 고해상도 이미지를 픽셀 단위로 분해하거나 복잡한 레이아웃을 최소 구성 단위인 그리드로 나누는 것과 흡사하다. 모델은 자연어 문장을 그대로 처리하는 것이 아니라, 이를 단어, 부분 단어(Sub-word), 혹은 개별 철자 단위로 쪼개어 인식한다. 이렇게 추출된 토큰들은 각기 고유한 숫자 ID에 매핑되어 어휘 인덱스로 구축되며, 인코딩 과정을 통해 각 토큰의 의미를 나타내는 수치적 벡터로 변환된다. 이러한 수치화 과정을 거쳐야만 모델 내부의 딥러닝 연산이 가능해진다.

image.png


위치 인코딩

토큰들이 수치화된 이후에는 문장 내에서의 배치 순서를 부여하는 위치 인코딩(Positional Encoding) 단계가 이어진다. 트랜스포머 기반의 LLM은 모든 토큰을 동시에 병렬로 처리하기 때문에, 별도의 위치 정보가 없다면 문장의 선후 관계를 구분하지 못하는 '가방 안의 단어들(Bag of Words)'과 같은 상태가 된다. 위치 인코딩은 각 토큰 벡터에 고유한 위치 값을 더해줌으로써 단어의 배열 순서를 모델이 인지할 수 있도록 돕는다. 특히 정현파 형태의 위치 임베딩이나 상대적 위치 인코딩 기술(AliBi 등)은 모델이 학습 과정에서 보지 못한 긴 문맥에 대해서도 유연하게 대처하고 토큰 간의 거리에 따른 의존성을 파악할 수 있게 한다.

image.png


셀프 어텐션

세 번째 단계인 셀프 어텐션(Self-Attention)은 LLM의 지능을 결정짓는 핵심 메커니즘으로, 문장 내 단어들 사이의 관계 비중을 계산한다. 이는 디자이너가 전체 캔버스 안에서 시각적 위계(Visual Hierarchy)를 설정하여 강조할 요소와 배경 요소를 구분하는 것과 같다. 모델은 입력된 문장의 모든 토큰 사이의 상관관계를 계산하며, 특정 단어가 문맥적으로 어떤 단어와 가장 깊게 연결되어 있는지 파악한다. 예를 들어 '그는 사과를 먹었고, 그것은 맛이 좋았다'라는 문장에서 '그것'이 '사과'를 지칭한다는 사실을 이해하는 것이 어텐션의 역할이다. 다만 이 과정은 시퀀스의 길이에 비례해 연산 비용이 급격히 증가하는 구조적 특성을 지닌다.

image.png “children” is associated with the activity of “playing” as well as place of the activity, “garden”


다음 토큰 예측

문맥 파악이 완료되면 모델은 실제로 텍스트를 구성할 단어를 정하는 다음 토큰 예측(Next Token Prediction)을 수행한다. 모델은 지금까지 입력된 모든 토큰과 어텐션 정보를 종합하여 다음에 올 가능성이 가장 높은 토큰들의 확률 분포를 계산한다. 이는 디자인 시스템이 사용자의 이전 선택을 기반으로 다음에 필요할 것 같은 컴포넌트를 추천하는 과정과 유사하다. 모델은 단순히 문법적으로 맞는 단어를 고르는 것을 넘어, 학습 데이터에서 발견된 방대한 언어 패턴과 지식적 연관성을 적용하여 가장 자연스러운 흐름을 결정한다.

image.png


디코딩

마지막 단계인 디코딩(Decoding)은 모델이 내부적으로 계산한 숫자 벡터와 확률 분포를 다시 사람이 읽을 수 있는 텍스트로 복원하는 작업이다. 이 과정에서는 단순히 가장 확률이 높은 토큰만 선택하는 방식(Greedy Search) 외에도, 답변의 풍부함과 창의성을 위해 확률 분포에서 적절히 샘플링을 수행하는 기법들이 사용된다. 대표적으로 톱-피(Top-p) 샘플링은 누적 확률이 일정 수준을 넘는 상위 후보들 중에서 선택을 제한하여 답변의 일관성을 유지한다. 결과적으로 수치화된 데이터는 토크나이저를 거쳐 다시 자연어 문장으로 조립되어 사용자에게 최종 답변으로 전달된다.

image.png


할루시네이션이란 무엇인가?

할루시네이션(Hallucination), 즉 인공지능 환각 현상은 LLM이 사실이 아니거나 논리적으로 부적절한 내용을 마치 진실인 것처럼 매우 설득력 있게 생성하는 현상을 의미한다. 전문 디자이너의 입장에서 보자면, 클라이언트의 요청사항에 없는 가상의 로고를 그리거나 존재하지 않는 디자인 서적의 구절을 인용하며 그것이 업계의 정설이라고 주장하는 상황과 같다. 이 현상은 인공지능이 인간과 같은 주관적 망상을 겪는 것이 아니라, 모델이 학습한 통계적 확률의 결과값이 현실 세계의 객관적 정보와 불일치할 때 발생하는 구조적 오차의 산물이다.

image.png

할루시네이션이 특히 위험한 이유는 그 답변이 겉보기에 매우 정교하고 문법적으로 완벽하여 비전문가가 보기에는 오류를 잡아내기 어렵다는 점에 있다. 모델은 자신의 내부 지식에 공백이 생겼을 때 이를 솔직하게 인정하기보다, 학습된 데이터의 패턴을 조합하여 그럴듯한 거짓 정보를 만들어내려는 성질을 보인다. 예를 들어 존재하지 않는 역사적 인물의 생애를 서술하거나, 실제로는 발행된 적 없는 가짜 학술 논문의 인용구를 제시하는 등의 행위가 빈번하게 관찰된다.


학계와 산업계 일부에서는 할루시네이션을 단순히 제거해야 할 치명적인 버그로만 보지 않고, LLM의 본질적인 작동 방식에서 비롯된 '창조적 특성'의 이면으로 이해하려는 시각도 존재한다. 모델이 학습 데이터의 범위를 넘어 새로운 아이디어를 제안하거나 문학적인 창작을 할 수 있는 능력은 본질적으로 정보를 재구성하는 과정에서 나오기 때문이다. 따라서 할루시네이션은 모델이 예측을 통해 정보의 간극을 메우는 과정에서 발생하는 필연적인 부산물이며, 이를 얼마나 정교하게 제어하여 사실에 가깝게 유도하느냐가 LLM 활용의 핵심적인 성패를 가른다.


할루시네이션의 유형

image.png

사실적 환각

사실적 환각(Factual Hallucination)은 실존하는 객관적 사실과 정면으로 배치되는 정보를 생성하는 가장 흔한 유형이다. 이는 모델이 인물, 날짜, 지리적 위치, 혹은 과학적 원리에 대해 틀린 데이터를 제시할 때 발생하며, 학습 데이터에 노이즈가 섞여 있거나 특정 정보의 빈도가 낮을 때 심화된다. 대표적인 예로 "만리장성은 달에서도 육안으로 식별 가능하다"는 세간의 잘못된 상식을 사실인 양 서술하거나, 실존 인물의 경력을 섞어서 전혀 새로운 가공의 인물사를 창조하는 사례가 있다. 이러한 오류는 모델이 사실 관계를 '이해'하는 것이 아니라 단순히 높은 확률의 단어 조합을 선택하기 때문에 발생한다.


논리적 환각

논리적 환각(Logical Hallucination)은 문장 간의 인과 관계가 깨지거나 추론 과정에서 심각한 오류가 발생하는 경우를 뜻한다. 모델이 복잡한 산술 계산에서 "2+2=5"와 같은 결과값을 도출하거나, 법률 해석 과정에서 앞서 제시한 전제와 상충하는 결론을 내리는 식이다. 프로그래밍 분야에서는 문법적으로는 완벽해 보이지만 실행 시 치명적인 보안 취약점을 유발하거나 존재하지 않는 라이브러리를 호출하는 코드를 제안하는 형태로 나타나기도 한다. 이는 모델이 논리적 사고 체계를 갖춘 것이 아니라 패턴 인식을 통해 논리적 형식을 흉내 내는 데서 기인하는 한계다.


문맥적 환각

문맥적 환각(Contextual Hallucination)은 사용자가 제공한 입력 데이터, 이전 대화 내용, 혹은 구체적인 지시사항을 이행하지 못하고 엉뚱한 답변을 내놓는 현상을 포함한다. 긴 대화 도중 등장인물의 이름을 혼동하거나, 특정 문서의 요약을 요청했을 때 원문에는 전혀 없는 외부 지식을 끌어들여 요약문을 왜곡하는 행위가 이에 해당한다. 또한 답변 내에서 스스로 한 말을 몇 문장 뒤에 부정하는 자기 모순적 태도를 보이는 것도 전형적인 문맥적 환각의 사례다. 이는 모델의 고정된 기억 범위(Context Window) 내에서 정보의 우선순위를 적절히 배분하지 못할 때 주로 발생한다.


할루시네이션을 줄이는 법


RAG (검색 증강 생성)

RAG(Retrieval-Augmented Generation)는 할루시네이션을 완화하기 위해 실무에서 가장 강력하게 권장되는 기술로, 모델이 내부의 불완전한 기억에만 의존하지 않고 외부의 신뢰할 수 있는 데이터 소스를 실시간으로 검색하여 답변의 근거로 삼게 하는 방식이다. 디자이너가 디자인을 착수하기 전 최신 트렌드 리서치 자료나 폰트 라이선스 규정을 아카이브에서 찾아보고 이를 바탕으로 시안을 구성하는 것과 원리가 같다. 시스템은 사용자의 질문이 들어오면 벡터 데이터베이스(Vector DB)를 통해 관련 문서 조각을 찾아내고, 이를 질문과 함께 프롬프트에 담아 LLM에 전달한다. 모델은 제공된 텍스트를 바탕으로만 답변하도록 유도되므로, 학습 데이터에 없던 최신 정보나 기업 내부 기밀 사항에 대해서도 매우 높은 정확도를 유지하며 '모르는 것을 아는 척하는' 행위를 획기적으로 억제한다.

image.png


Shot 기법

Shot 기법은 프롬프트 설계 시 모델이 참고할 수 있는 입출력 예시(Example)를 포함시켜 답변의 형식과 논리적 범위를 가이드하는 기술이다. 예시를 전혀 주지 않는 제로샷(Zero-shot)과 비교했을 때, 하나(One-shot) 또는 그 이상의 예시(Few-shot)를 제공하는 방식은 모델이 사용자의 의도를 훨씬 더 구체적으로 파악하게 한다. 예를 들어 특정 디자인 스타일의 설명문을 작성할 때, "A는 현대적이다", "B는 고전적이다"와 같은 예시 쌍을 미리 보여주면 모델은 답변의 톤앤매너를 유지하면서 엉뚱한 수식어를 남발하는 환각 현상을 줄일 수 있다. 이는 주니어 디자이너에게 작업 가이드라인과 레퍼런스 시안을 동시에 건네주어 결과물의 일관성을 확보하는 전략과 일맥상통한다.

image.png


CoT 기법

생각의 사슬(Chain of Thought, CoT) 기법은 모델에게 문제 해결 과정을 단계별로 서술하도록 지시하여 논리적 비약을 막는 방법이다. 단순히 최종 결과값만을 묻는 대신, "단계별로 차근차근 생각해보라"는 지시문을 삽입하거나 문제 풀이의 중간 과정이 포함된 예시를 제공함으로써 모델의 내부 추론 경로를 명시적으로 드러내게 한다. 이러한 접근은 수학적 문제나 복잡한 기획안 작성 시 특히 효과적인데, 모델이 스스로 중간 단계의 오류를 인지할 가능성을 높여 최종 결과의 신뢰성을 담보한다. 이는 디자이너가 최종 결과물만 제출하는 것이 아니라 기획의 배경, 아이디어 스케치, 시안 확정의 단계를 거치며 디자인의 논리적 타당성을 쌓아가는 과정과 유사하다.

image.png

제약 기법

제약 기법(Constraint Techniques)은 모델의 답변 생성 범위에 엄격한 가드레일을 설정하여 통제 불가능한 환각을 사전에 차단하는 방식이다. 시스템 프롬프트를 통해 "반드시 제공된 자료 안에서만 대답할 것", "확실하지 않은 정보에 대해서는 모른다고 답변할 것"과 같은 명시적인 제약 조건을 가함으로써 모델이 무리하게 지식을 보간하는 행위를 방지한다. 또한 온도(Temperature) 값을 조절하여 답변의 무작위성을 낮추거나, 특정 출력 형식을 강제하여 구조적인 오류를 줄이는 방식도 포함된다. 최근에는 모델이 스스로 자신의 답변을 비판하고 검증하게 하는 리플렉션(Reflection) 기법이나, 답변의 확신도가 낮을 때 겸손하게 답변을 거부하도록 훈련시키는 방식이 도입되어 AI의 업무적 신뢰도를 높이는 데 기여하고 있다.

image.png

위와 같이 기본적인 LLM의 원리 및 할루시네이션 방지에 대한 방법들을 잘 활용하면 UX 디자인 관련된 프롬프트를 작성하거나 에이전트를 셋팅할 때 매우 유용하게 활용이 가능할 것이다.



AI를 활용하여 UX/UI 디자인을 공부하고 AI디자인 자격증도 취득하고 싶다면?

image.png
image.png


AI를 활용하는 UXUI 디자이너들과 함께 소통하며 성장하고 싶다면?

AI를 활용한 UX/UI 디자인을 책으로 공부하고 싶다면?

AI 시대에 나만의 AI스타트업/비즈니스 시스템을 만들고 싶다면?




keyword
매거진의 이전글피지컬 AI시대, UX 디자인의 가치와 역할