LLM, 트랜스포머를 만드는 수학 탐험
안녕하세요, 여러분.
이제는 생성 AI가 정말 일상인 해가 될 것 같아요. 주변을 둘러보면 한번도 사용하지 않는 사람은 없는 시대가 되었어요. AI를 엑셀처럼 쓰는 시대가 되었죠.
너도나도 AI 사용법을 열심히 배우는 시대에, 약간 시대에 역행(?)하는 마음으로 저는 새해맞이 한 권의 책을 냈습니다.
이전에 제가 『누워서 보는 AI 수학』 을 쓸 때와는 완전히 다른 마음으로 쓴 책입니다. 그때는 정말 가볍게, 수학을 잊은 분들도 “아, 이런 수학 개념이 AI에 쓰이는구나” 하고 느낌만이라도 오게 하려고 애썼어요.
그런데 ChatGPT, Grok, Gemini, 이런 모델들을 쓰다 보니
“이게 왜 이렇게 생겼지? 원리가 뭐지?
왜 이 구조가 지금의 표준이 된 거지?
어떻게 생성 AI는 변화해 온건가?
확률 분포 하나 바꾸면 왜 갑자기 성능이 확 떨어지지?”
하는 질문들이 계속 떠오르더라고요.
그런데 막상 찾아보니 딱 제가 원하는 책이 없었어요.
• 너무 두껍고 학술적이라서 논문 수준으로 들어가 버리거나
• 코드 예제만 가득한 실용적 실습서라서 “왜?”라는 큰 그림은 안 보이거나
• 아니면 “AI가 신기해요~” 하고 끝나버리는 가벼운 입문서거나…
제가 보고 싶었던 책이 없더라고요. 인터넷을 체계적으로 찾는 것도 어려웠구요.
그래서… 결국 제가 한번 써봤습니다.
이 책은
API 잘 쓰는 법, 프롬프트 최적화, fine-tuning 튜토리얼 같은 사용법, 활용법은 없습니다. (그건 이미 인터넷에 좋은 자료들이 넘쳐나니까요. 서점에도 가득하구요.)
대신 “생성 AI 전체가 왜 이런 모양으로 만들어졌는지”를 수학적·구조적 첫 원리부터 조망하려고 했어요.
정보이론의 엔트로피와 KL divergence가 왜 언어 모델의 손실이 되는지
왜 트랜스포머는 self-attention으로 시작해서 레이어를 쌓아야 하는지
이런 “왜” 와 “어떻게” 를 하나의 연결된 이야기처럼 풀어냈습니다. 별로 두껍지도 않아요. (제가 두꺼운 책 쓸 지식도, 시간도 없었거든요.) 코드는 없고, 수식은 있지만 “이해 안 되면 넘겨도 돼요” 수준으로 썼어요.
천천히 읽으면서 “아… 그래서 요즘 모델들이 이렇게 변해왔구나” 하고 그림이 그려지게 만드는 게 목표였습니다.
특히, 이 책을 쓰면서 제가 가장 신경 쓴 부분은 독자의 지식 확장이에요. 큰 그림을 한 번에 보여주되, 그게 끝이 아니라 시작점이 되도록요.
읽다가 “어, 이 self-attention 메커니즘이 더 궁금하네?” 싶으면, 책에서 힌트 삼아 관련 논문을 바로 검색해 볼 수 있게 유도했어요.
수식이 조금 어려워 보이면 k-mooc나 유튜브를 찾거나, 요즘 AI 도구들(Gemini, Chatgpt나 Claude)에 물어보는데 필요한 키워드를 제공하도록 썼어요.
이 책은 그런 식으로, 독자분들이 스스로 더 깊게 파고들 수 있는 도구처럼, 시작점처럼 쓰이길 바라는 마음으로 만들었어요.
단순히 읽고 끝나는 게 아니라, “이걸 바탕으로 더 탐구해 보자” 하는 스파크를 일으키는 거죠.
• “트랜스포머는 알겠는데, 왜 이게 좋은 건지 아직 감이 안 와요” 하는 분
• 논문의 요약을 매번 검색하다 지친 분
• 논문을 읽었으나 그 논문을 위한 간략지식을 어디서 찾아야할지 모르는 분
• 단순히 도구로 쓰는 데서 그치지 않고, 생성 AI의 설계 원리까지를 이해하고 싶은 개발자·연구자·기획자들을 위해, 『누워서 보는 AI 수학』으로는 이제 부족하다고 느꼈던 그 간극을 메우려고 쓴 책이에요.
만약
“실용적인 건 알겠고, 이젠 원리를 이해하고 싶다”
하는 마음이 조금이라도 들었다면… 이 책이 출발점이 될 수 있을 거예요.
사용자에서 관찰자, 그리고 한 발 더 나아가 설계자의 시선으로 AI를 바라보고 싶은 분들께 가볍게 추천드려 봅니다.