[2편] 경계 위의 기술, AI vs ML 엔지니어링

AI Engineering Stack

Jun 10. 2025

이 글은 Pragmatic Engineer 뉴스레터 내 The AI Engineering Stack을 바탕으로 작성되었습니다.
Chip Huyen의 저서 《AI Engineering》 중 일부를 발췌한 내용을 중심으로, AI 엔지니어링과 ML 엔지니어링의 경계에서 우리가 새롭게 익혀야 할 기술, 사라진 경계선, 그리고 평가와 적응이라는 키워드를 실무자의 시선으로 정리합니다.

경계는 흐려지고 있다

AI Engineer와 ML Engineer는 다르다?

Chip Huyen은 이에 대해 '겹치면서도 다르다'고 설명합니다. 실제 현업에서도 ML 엔지니어들이 자연스럽게 AI 엔지니어의 역할을 맡게 되는 경우가 많고, 반대로 전통적인 ML 지식 없이도 뛰어난 AI 제품을 만드는 개발자도 존재합니다.

가장 큰 차이는 '모델을 만드는가, 활용하는가'에 있습니다.

ML 엔지니어는 모델을 직접 설계하고 학습시키는 데 집중합니다.

반면, AI 엔지니어는 이미 훈련된 대형 모델(foundation models)을 ‘어떻게 잘 쓸 것인가’에 집중합니다.

이 변화는 단순한 기술의 차원이 아니라, 사고방식의 전환을 요구합니다.

모델 적응의 두 가지 길: 프롬프트 엔지니어링 vs 파인튜닝

Chip은 모델 적응(Model Adaptation)을 두 가지 방식으로 나눕니다.

프롬프트 기반 기법 (Prompt-based Techniques): 모델의 가중치를 건드리지 않고, 입력만으로 모델을 조정하는 방식입니다. 사용자가 원하는 형식과 문맥을 잘 구성해서 주는 것이 핵심입니다. 진입장벽이 낮고 빠르게 실험할 수 있다는 장점이 있어, 많은 제품들이 이 방식을 통해 초기 프로토타입을 만듭니다.

파인튜닝 (Fine-tuning): 말 그대로 모델 자체를 미세하게 조정합니다. 사전에 훈련된 모델의 가중치를 바꾸는 과정으로, 더 많은 데이터와 계산 자원이 필요하지만, 성능 향상 여지가 크고, 복잡한 문제나 특수 도메인에 적합합니다.

https%3A%2F%2Fsubstack-post-media.s3.amazonaws.com%2Fpublic%2Fimages%2Fe0501d24-9e3c-4bc7-85dd-ec3e0b059fde_1142x408.png?utm_source=substack&utm_medium=email

표 1-6. AI 엔지니어링과 ML 엔지니어링에서 앱 개발 시 각 범주별 중요도

흥미로운 점은, 많은 사람들이 '프롬프트를 여러 번 실험하는 것'도 훈련(traning)이라 착각한다는 점입니다. 하지만 이는 정확히 말해 프롬프트 엔지니어링이지, 학습은 아닙니다. 이는 실무에서도 자주 헷갈리는 지점입니다.

"ChatGPT에게 내 어린 시절 일기를 넣어 나를 학습시켰다"라는 말은, 실제론 모델을 학습시킨 것이 아니라 프롬프트 기반의 문맥 설정을 한 것입니다.

평가가 가장 어려운 기술이 된 이유

AI 엔지니어링에서 가장 강조되는 기술은 '평가(evaluation)'입니다. 전통적인 ML에서는 정답과 오답이 명확한 문제(예: 스팸/비스팸 분류)를 다루는 경우가 많았습니다. 하지만 LLM 기반의 AI는 '열린 문제(open-ended)'를 다루게 됩니다.

예를 들어, 챗봇의 답변이 '정답'인지 아닌지를 어떻게 정의할 수 있을까요? 사람마다 선호도도 다르고, 하나의 질문에 대해 다양한 답이 가능하니 정량적 평가가 어렵습니다. 이 때문에 평가 자체가 실험 설계 수준의 복잡함을 갖게 됩니다.

ADKq_Nb5QtNkXjLR1m0qnjZjW_Vd8mZe_aj5D7D409qPYzB_sLzAHHR4mGDh3-7fCm14qrTvDDX9W4eHYs7p1u72V3oEkJ-N42_nFuA9t05sV3J85YMLGf981Wf-PbRos9ma5Hfdchlp6NcSeH2QIh2GYfz7MVAKeCfcSOpXmxUxZm13geyruoo3nVBTmItft9KwvbTu3fIDAIJs64LoWWxEn8BL9MecYEMzu-LQQOJ5Zzv2bpnmxTHcPvzYJRalWj_FpJrAsF-eKtP1CepQ5HY3ly9nbvLLoYixOluj4l-JYtmibfm1Fe1aIre66A=s0-d-e1-ft

표 1-5. 서로 다른 프롬프트는 모델의 성능에 큰 차이를 일으킬 수 있습니다. — Gemini 기술 보고서 (2023년 12월)에서 발췌

뿐만 아니라, 적응 방식(프롬프트 vs 파인튜닝)에 따라서도 성능이 천차만별로 달라집니다.
예컨대, Google이 Gemini를 출시할 때 MMLU 벤치마크에서 GPT보다 우수하다고 발표했지만, 이건 Gemini에는 32개의 예시(CoT@32)를, GPT에는 5개만 제공한 결과였습니다.

동일한 조건에서 비교하면 결과가 달라졌죠.

이 말인즉, 프롬프트 구성만으로도 모델 성능이 과대평가 혹은 과소평가될 수 있다는 뜻입니다.
그래서 평가 기법은 모델 선택, 제품 배포, 지속적 개선의 모든 과정에 걸쳐 핵심 기술로 자리 잡고 있습니다.

모델을 만들 것인가, 잘 쓸 것인가

이제는 이런 질문을 스스로에게 던져야 할 시점입니다.

나는 직접 모델을 만들고 싶은가?

아니면, 공개된 모델을 활용해 빠르게 제품을 만들고 싶은가?

전자는 여전히 높은 진입장벽과 자원을 요구하지만, 기술적 완성도를 추구하는 길입니다.

후자는 빠른 시장 반응과 반복적 실험을 기반으로 한 실용 중심의 접근입니다.

저는 개인적으로 두 영역 모두 경험해봤지만, 최근엔 후자의 실용성과 생태계의 확장성에 더 주목하게 됩니다. 특히, 프론트엔드나 전체 서비스 흐름에 대한 감각이 있는 개발자라면 AI Engineering은 새로운 기회의 장일 수 있습니다.

3편 예고
"AI 애플리케이션의 핵심: 평가, 프롬프트, 인터페이스"
– 왜 평가가 기획자와 엔지니어 모두의 언어가 되었는가
– 프롬프트가 UX가 되는 시대
– 챗봇, 플러그인, 브라우저 확장... 이제 AI는 어떻게 사용자와 만날 것인가?

keyword

Brunch Book 화, 목, 토 연재

연재 개발자의 시선으로 읽다

전체 목차 보기

이전 26화[1편] AI 엔지니어링이라는 이름의 탄생[3편] 평가, 프롬프트, 인터페이스다음 28화