제3장 인공지능(AI)과 현대판 추리 게임(3)

Sherlockian Way of Thinking

by 박승룡

3. 생성형 AI와 프롬프트 엔지니어링

AI는 어떻게 배우는가: 지도학습과 비지도학습

인공지능이 어떤 작업을 잘 해내기 위해서는 반드시 ‘학습’이라는 과정을 거쳐야 한다. 말 그대로 AI가 스스로 일을 처리할 수 있으려면, 먼저 수많은 데이터를 통해 패턴을 익히고, 기준을 세우고, 판단력을 기르는 훈련이 필요하다. 이 학습 방식에는 크게 두 가지가 있다. 바로 지도학습(Supervised Learning)과 비지도학습(Unsupervised Learning)이다.

제3장 3-01.png 왼쪽은 정답을 보고 배우는 지도학습, 오른쪽은 스스로 패턴을 찾아내는 비지도학습. AI는 주어진 정보든, 숨겨진 규칙이든 모두 학습의 재료로 삼는다.

지도학습은 정답이 있는 데이터를 가지고 배우는 방식이다. 예를 들어 고양이 사진을 보여주면서, “이건 고양이야”라고 정답을 함께 알려주는 것이다. AI는 이런 데이터를 반복해서 보면서, 고양이의 특징이 어떤 것인지 점점 더 잘 구분하게 된다. 눈의 위치, 귀의 모양, 털의 질감 같은 시각적 패턴을 스스로 학습하고, 이후에는 정답을 주지 않아도 고양이 사진을 보고 맞출 수 있게 되는 것이다.

반면 비지도학습은 정답 없이 데이터의 구조를 스스로 파악하는 방식이다. 이번에는 아무런 라벨 없이 고양이, 강아지, 호랑이, 여우 같은 동물 사진들을 그냥 보여주는 것이다. AI는 이 데이터를 들여다보며 “이런 사진끼리는 뭔가 비슷하네?”라고 스스로 군집(cluster)을 만들어낸다. 고양이와 호랑이는 눈 모양이나 얼굴 구조가 닮았을 수 있고, 강아지와 여우는 귀 모양이 비슷할 수 있다. 이렇게 AI는 내부의 유사성을 기준으로 분류하거나 특징을 추출하면서, 데이터 속 숨은 구조를 이해하게 된다.

비지도학습은 사례를 관찰해 패턴을 찾는다는 점에서 ‘귀납법’과 구조적으로 닮아 있다. 실제로 많은 논리학자나 인공지능 이론가들이 귀납법을 머신러닝, 특히 비지도학습과 가장 가까운 인간적 사고방식으로 분류하곤 한다. 그러나 이 둘이 완전히 동일하지는 않다. 비지도학습이 통계적 수학 모델을 사용해 유사성 기반 군집이나 차원 축소를 실행하는 반면, 귀납적 추론은 언어적/논리적 추론으로 규칙을 일반화하기 때문이다.

AI 연구 초기에는 대부분의 시스템이 지도학습에 의존했다. 정답이 주어지면 명확한 방향으로 학습을 진행할 수 있었기 때문이다. 하지만 세상은 점점 더 복잡해졌고, 모든 데이터에 정답을 일일이 달아주는 것도 사실상 불가능해졌다. 이때부터 비지도학습의 중요성이 부각되기 시작했다. 특히 대량의 미분류 데이터 속에서 유의미한 정보를 자동으로 찾아내고, 새로운 분류 기준을 만들어내는 능력은 이후 딥러닝, 생성형 AI, 추천 시스템 등 다양한 분야에서 핵심적인 역할을 하게 된다.


AI가 경험으로 배우는 법: 강화학습과 RLHF

인공지능이 세상을 이해하는 방식은 다양하지만, 그중에서도 강화학습(Reinforcement Learning) 은 '행동을 통해 배우는 법'에 가장 가깝다. 이 방식은 특히 게임, 로봇 제어, 대화형 모델 같은 영역에서 중요한 역할을 해왔다. 단순히 데이터를 보고 학습하는 것이 아니라, AI가 직접 환경과 상호작용하면서 시도하고 실패하고, 그 결과로부터 학습한다는 점에서 차별화된다.

제3장 3-02.png AI는 스스로 행동하고 보상을 받으며 배우고, 사람의 피드백을 통해 더 나은 방향으로 발전해 나간다.

강화학습의 기본 구조는 간단하다. AI는 어떤 상태(state)에서 행동(action)을 선택하고, 그 결과로 보상(reward)을 받는다. 잘한 행동에는 보상이 주어지고, 잘못된 행동에는 벌이나 불이익이 따른다. 이렇게 보상 신호를 반복적으로 받으면서 AI는 점점 더 높은 보상을 얻기 위한 전략(policy)을 스스로 찾아간다. 예를 들어, 미로를 탈출해야 하는 로봇은 처음에는 무작위로 움직이다가, 어느 방향으로 갈 때 보상이 더 주어지는지를 점차 학습하게 된다. 결국, 시행착오를 통해 더 똑똑한 움직임을 선택하는 것이다.

이러한 강화학습은 생성형 AI, 특히 언어 모델에서도 응용되고 있다. 여기에 적용되는 기법이 바로 인간 피드백 기반 강화학습(Reinforcement Learning with Human Feedback, RLHF)이다. 이 기술은 AI가 생성한 답변에 대해 사람이 직접 평가하고 피드백을 제공하는 방식이다. 예를 들어, AI가 만든 여러 문장 중에서 어떤 문장이 더 자연스럽고 도움이 되는지를 사람이 판단해 순위를 매긴다. AI는 이 평가 결과를 기반으로, 다음번에는 더 바람직한 답변을 만들 수 있도록 강화학습을 통해 조정된다.

RLHF는 단순히 기술적인 성능을 높이는 데 그치지 않는다. 사람의 판단과 가치를 반영함으로써, AI가 점점 더 사람다운 감각과 표현을 학습하는 방식으로 진화하는 데 기여하고 있다. 이처럼 강화학습과 인간 피드백의 결합은, AI가 정답을 계산하는 기계에서, 대화를 나눌 수 있는 존재로 발전하는 데 중요한 발판이 되고 있다.


프롬프트 엔지니어링: 현대판 추리 게임

생성형 인공지능의 시대가 본격화되면서, 기술의 중심축도 조용히 이동하고 있다. 더 이상 중요한 것은 단순히 모델의 크기나 연산 능력이 아니다. AI의 능력을 실제로 끌어내는 핵심은 바로 ‘프롬프트(Prompt)’, 다시 말해 어떻게 질문하느냐에 달려 있다.

제3장 3-03.png 프롬프트 엔지니어링은 AI와의 대화에서 단서와 퍼즐을 풀어가는 현대판 추리 게임이다. 탐정처럼 질문을 설계하고, AI의 답변 속에서 해답을 찾아낸다.

프롬프트란 AI에게 주는 명령, 질문, 요청의 형태다. 예를 들어 “고양이에 대해 알려줘”라고 요청할 수도 있고, “고양이와 개의 감각기관 차이를 비교해 설명해 줘”처럼 더 구체적이고 복합적인 지시를 줄 수도 있다. 이처럼 어떤 질문을 하느냐, 그리고 그 질문을 어떻게 구성하느냐에 따라 AI의 답변 내용은 크게 달라진다.

같은 AI 모델이라도 프롬프트의 설계 방식에 따라 정보의 깊이, 구조, 표현 방식이 극적으로 달라질 수 있다는 점에서, 단순한 입력이 아니라 전략적 사고가 필요한 작업이다. 이것이 바로 최근 주목받고 있는 개념인 프롬프트 엔지니어링(Prompt Engineering)이다. 단순히 “잘 묻는 법”을 넘어, 문제를 정확히 정의하고, 필요한 조건과 맥락을 설정하며, AI가 바람직한 방향으로 답하도록 유도하는 일련의 설계 과정이다.

프롬프트 엔지니어링의 본질은 마치 추리 소설의 탐정이 사건의 단서들을 조합해 핵심 질문을 찾아가는 과정과도 닮아 있다. 주어진 정보만으로는 충분하지 않기에, 어떤 가정을 세우고, 어떤 틀에서 질문을 구성해야 할지 끊임없이 고민해야 한다.

결국 프롬프트 엔지니어링은 기술이 아니라 사고의 문제다. AI는 단지 질문에 응답할 뿐이다. 진짜 중요한 건 무엇을 어떻게 묻느냐를 설계하는 인간의 역량이다. 지금 이 시대의 가장 창의적인 추리 게임은, 탐정이 아닌 사용자 스스로가 주도하는 질문의 설계에서 시작된다.

keyword
이전 11화제3장 인공지능(AI)과 현대판 추리 게임(2)