2025년 AI를 처음한다면 좋은 시발점이 될만한 책입니다
https://product.kyobobook.co.kr/detail/S000217939673
하루밤에 수십종류의 새로운 논문이 나오고, 기존의 지식이 바뀌기가 여러번 하는 AI업계에 당신이 이제 발을 들여놓는다면 어떤 일이 벌어질까요? 우선 뉴스에만 의존하다가 정신못차릴거고 시간만 버릴겁니다. 뭔가 비싼 책을 이것저것 많이 사고 보지도 못하고 버리는 일도 많을 겁니다. 이럴 때일수록 북극성 같은, 혹은 전체를 보여주는 무언가가 필요합니다.
이런데 좋은 책이 있습니다. 바로 LLM을 활용한 실전 AI 애플리케이션 개발입니다. 이 책은 정말 좋은 책입니다. 생성 AI/LLM을 이용한 소프트웨어 개발을 어떻게 해야 하는지를 정말 잘 이야기 해주는 책입니다. 그런데 이에 필적할 만한 책이 나왔습니다. 이번에 소개하는 AI엔지니어링 책이 그러합니다.
저자인 칩 후옌은 AI분야에서 유명한 작가입니다. 스탠퍼드에서 AI를 가르쳤으며, 엔비디아(Nvidia), 넷플릭스(Netflix), 스노클(Snorkel) 등에서 AI 엔지니어로 일했었습니다. 그런 경험을 기반으로 LLM을 기반으로 프로덕션 AI 애플리케이션을 구축하는 방법에 대해 전체를 보여주면서 또 밑바닥에 놓치지 말아야 하는 기초까지 이야기 하고 있습니다. 기술 전문가를 위한 수학적이고 심층적인 내용과 비기술 전문가를 위한 쉬운 접근성을 모두 갖추고 있어 균형이 잘 잡혀 있습니다.
무엇보다 이 책은 LLM과학에서 실용적인 AI엔지니어링의 시대가 되었다는 것을 보여줍니다. 과거 머신러닝 엔지니어링은 모델을 직접 구축해야 했기 때문에 소수의 자원이 풍부한 조직만이 이 분야에 진입할 수 있었습니다. 하지만 현재는 파운데이션 모델(대규모 언어 모델)의 등장으로 접근성이 크게 향상되어 거의 모든 사람이 이러한 모델을 활용해 애플리케이션을 구축할 수 있게 되었습니다. ChatGPT와 같은 성공 사례에서 볼 수 있듯이, 기능의 작은 개선이 훨씬 더 다양한 애플리케이션으로 이어질 수 있음을 증명했습니다.
그러나 이러한 발전은 새로운 과제도 가져왔습니다. 평가의 어려움이 그 중 하나입니다. 과거 스팸 감지와 같이 결과가 명확한 작업과 달리, AI 모델의 요약이나 창의적 콘텐츠와 같은 출력은 품질을 객관적으로 판단하기 매우 어렵습니다. 더욱이 AI가 더 지능적으로 발전할수록 평가는 더욱 복잡해집니다. 초등학교 수학 문제는 정답이 명확하지만, 박사 수준의 수학 문제는 전문가조차 평가하기 어려운 것과 같은 원리입니다. 또한 AI 시스템의 오류는 종종 '무음(silent)'으로 발생하여 발견하기가 더욱 힘들어집니다.
제품 개발 프로세스도 완전히 역전되었습니다. 기존 ML 개발은 데이터 수집부터 시작하여 모델 구축을 거쳐 제품 개발로 이어지는 순서였습니다. 그러나 현재 AI 개발은 제품 아이디어나 데모에서 시작하여, 데모가 성공적인 경우에만 데이터에 투자하고, 비용 문제가 발생할 때 자체 모델 구축을 고려하는 방식으로 변화했습니다. 이러한 변화로 인해 제품, ML, 데이터 담당자 간의 더욱 긴밀한 협력이 필요하거나, 한 사람이 여러 역할을 수행해야 하는 경우가 많아졌습니다. 결과적으로 AI 엔지니어에게는 기술적 역량뿐만 아니라 뛰어난 제품 감각(product sense)이 이전보다 더욱 중요해졌습니다.
저 역시 이러한 AI 엔지니어링 시대의 변화에 엔지니어들이 어떻게 대응해야 할지에 대한 책을 쓰는 중이었기때문에 이러한 내용은 매우 흥미로웠습니다. 제 관점과 너무나 비슷했기 때문입니다.
이 책의 목차는 아래와 같습니다. 목차만으로도 흥미로운 주제가 많습니다.
1장 파운데이션 모델을 활용한 AI 애플리케이션 입문
1.1 AI 엔지니어링의 부상
1.2 파운데이션 모델 활용 사례
1.3 AI 애플리케이션 기획
1.4 AI 엔지니어링 스택
1.5 마치며
2장 파운데이션 모델 이해하기
2.1 학습 데이터
2.2 모델링
2.3 사후 학습
2.4 샘플링
2.5 마치며
3장 평가 방법론
3.1 파운데이션 모델 평가의 어려움
3.2 언어 모델링 지표 이해하기
3.3 정확한 평가
3.4 AI 평가자
3.5 비교 평가로 모델 순위 정하기
3.6 마치며
4장 AI 시스템 평가하기
4.1 평가 기준
4.2 모델 선택
4.3 평가 파이프라인 설계
4.4 마치며
5장 프롬프트 엔지니어링
5.1 프롬프트 소개
5.2 프롬프트 엔지니어링 모범 사례
5.3 방어적 프롬프트 엔지니어링
5.4 마치며
6장 RAG와 에이전트
6.1 RAG
6.2 에이전트
6.3 메모리
6.4 마치며
7장 파인튜닝
7.1 파인튜닝 개요
7.2 파인튜닝이 필요한 경우
7.3 메모리 병목 현상
7.4 파인튜닝 기법
7.5 마치며
8장 데이터셋 엔지니어링
8.1 데이터 큐레이션
8.2 데이터 증강 및 합성
8.3 데이터 처리
8.4 마치며
9장 추론 최적화
9.1 추론 최적화 이해
9.2 추론 최적화
9.3 마치며
10장 AI 엔지니어링 아키텍처와 사용자 피드백
10.1 AI 엔지니어링 아키텍처
10.2 사용자 피드백
10.3 마치며
각 장을 읽어보시면 아시겠지만, 칩 후옌은 정말 최선을 다해서 모든 분야를 ‘찍먹’이라도 해주려고 노력합니다. 이러한 작업을 하려면, 정말 많은 분야를 해보거나 해본 사람들의 이야기를 잘 듣든가 해야 하는 상황인데 이것은 정말 힘든 일입니다. 차라리 무언가 깊이 있게 파고드는 것은 혼자 기보를 복기하면서 두는 바둑이라면 이것은 보이지도 않는 여러 상대와 동시에 두는 바둑과 같습니다. 저자는 그것을 기꺼이 해냅니다. 그리고 그 경험을 공유하고 있습니다.
제가 특히 놀란 것은, 평가에 대해서 방법론만 이야기 하는게 아니라 실제 평가 파이프라인 설계하는 것에 대해서 다루고 있는 것이었습니다. (이건 제가 먼저 쓰고 싶었을 정도입니다.) 저자는 다음 세단계를 거치라 하고 있습니다.
시스템의 모든 구성 요소 평가하기 : 단순히 답이 나오냐 안나오냐가 문제가 아니라, 시스템을 구성하는 모든 요소들이 제대로 동작하는지 검증하고 평가할 수 있는 방법을 갖춰놔야 합니다.
평가 가이드라인 만들기: “오히려 ‘좋다’가 무엇인지를 정해야 한다”라고 저자는 이야기 합니다. 저는 무릎을 쳤습니다! 사람들은 뭐가 좋은지도 기준없이 ‘나쁘다’소리만 합니다. 그런데 그렇게 접근했다가는 세상 모든 것들과 싸워야 하죠. 오히려 ‘뭐가 좋다’라는 것만 잡고 가게 하는 것이 최선입니다. 그리고 이를 가지고 예시를 두고 평가 기준표를 만들라 합니다. 그리고 이 평가 지표를 비즈니스 지표와 연결하라고 합니다. 이 순서를 잊지 마세요!
평가 방법과 데이터 정의하기 : 평가할 방법을 결정하고, 평가 데이터에 주석을 달아야 합니다. 평가 파이프 라인 자체를 재평가 하면서 제대로 하고 있는지 물어봅니다. 그리고 이 파이프라인을 반복적으로 개선해 나가야 합니다.
이런 관점을 이야기 해주는 책들은 귀합니다. 대부분의 책들이나 자료들을 도구를 쓰는 것에만 치중합니다. 이것들이 소중하지 않다는 것은 아닙니다. 하지만 전체를 보지 못하는 도구만의 지식은 무언가를 제대로 만들지 못합니다. ‘부분의 합은 전체가 아니다’라는 사실을 잊어서는 안됩니다. 그리고 그 ‘전체’를 이어주는 방법론으로 ‘평가’는 매우 중요한 부분입니다.
그외에도 프롬프트 엔지니어링 부분에서도 좋은 예제와, 방어적 프롬프트 엔지니어링등에 대해서 균형있게 설명하고 있습니다.
책을 보다보면 번역자인 변성윤님이 신경을 많이 쓴 부분을 알 수 있습니다. 어휘선택이나 문장흐름이 굉장히 잘 다듬어져있습니다. 그래서 읽기가 굉장히 편했습니다. 좋은 번역을 해주신 변성윤님에게 진심으로 감사드립니다.
물론 이 책이 모든것을 다 이야기 하지는 않습니다. 이 책에 문제점이 몇가지 있습니다.
전체적인 모습을 이야기 위해 많은 부분을 이야기 하다보니 다소 깊이는 기대한 만큼 있지 않습니다. (그러나 이는 분량상 어쩔 수 없는 선택으로 보입니다, 저자가 깊이가 적다고는 생각하지 않습니다.) 한 예로 RAG와 에이전트에 대해서도 다루고 있지만 각각 더 깊이 다루고 있는 책들만큼은 나가지 못했습니다.
몇 부분은 업계에서 이제는 안쓰는게 낫다고 결론난 부분도 있는데 들어간 부분들이 있습니다. 다소 변동적이라 직접 책을 보시면서 판단하시길 권합니다.
거대언어모델 자체에 대한 설명은 다소 부족할 수 있습니다. 이 부분에 대해서는 다른 책들을 참고하셔야 합니다.
그럼에도 불구하고 이 책은 훌륭하고 멋진 책입니다.
마침 저자의 인터뷰가 유튜브에 올라와 있었습니다. 이것도 보시면 도움이 될 것입니다.
https://www.youtube.com/watch?v=p7F4f42iZ-c