<?xml version="1.0" encoding="UTF-8"?>
<feed xmlns="http://www.w3.org/2005/Atom">
  <title>Dr Jenna</title>
  <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki" />
  <author>
    <name>dr-jenna</name>
  </author>
  <subtitle>AI, LLM 분야 박사로서복잡한 현실 세계 문제를 데이터와 AI로 풀어내는 걸 좋아합니다.또한 웰빙을 추구하여 건강한 음식, 운동, 마인드셋에 관심이 많습니다.</subtitle>
  <id>https://brunch.co.kr/@@i7Ki</id>
  <updated>2025-08-09T04:59:38Z</updated>
  <entry>
    <title>Qwen3-Coder-480B-A35B-Instruct - H100 GPU에서 최적화하여 서빙하기</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/15" />
    <id>https://brunch.co.kr/@@i7Ki/15</id>
    <updated>2025-09-15T10:45:42Z</updated>
    <published>2025-09-14T12:33:31Z</published>
    <summary type="html">최근 Table QA Agent를 구축하기 위해 초대형 MoE 기반 코드 모델인 Qwen3-Coder-480B-A35B-Instruct를 직접 서빙해야 했습니다. 이 모델은 480B 파라미터 규모, 160명의 Expert 중 8명이 활성화되는 MoE 아키텍처, 그리고 native context length 256k를 갖추고 있습니다. Table QA라는 특</summary>
  </entry>
  <entry>
    <title>NL2SQL (Text-to-SQL) Agents 설계 - 엔터프라이즈 환경을 위한 Workflow</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/14" />
    <id>https://brunch.co.kr/@@i7Ki/14</id>
    <updated>2025-09-07T10:32:10Z</updated>
    <published>2025-09-07T10:32:10Z</published>
    <summary type="html">* 지난 글 : LLM System Design: 엔터프라이즈 규모에서 고려해야 할 핵심 요소들 https://brunch.co.kr/@dr-jenna/12   자연어로 입력된 질문을 SQL 쿼리로 변환하는 NL2SQL(Text-to-SQL) 기술은 엔터프라이즈 데이터 활용에서 중요한 역할을 한다. 사용자는 복잡한 데이터베이스 스키마를 몰라도 자연어로 질의</summary>
  </entry>
  <entry>
    <title>Agentic RAG 기반 Chatbot 설계 - Workflow와 평가 전략</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/13" />
    <id>https://brunch.co.kr/@@i7Ki/13</id>
    <updated>2025-09-07T10:34:38Z</updated>
    <published>2025-09-07T10:26:49Z</published>
    <summary type="html">* 지난 글 : LLM System Design: 엔터프라이즈 규모에서 고려해야 할 핵심 요소들 https://brunch.co.kr/@dr-jenna/12   대규모 언어 모델(LLM)을 활용한 챗봇과 어시스턴트는 엔터프라이즈 환경에서 빠르게 확산되고 있다. 그러나 단순히 LLM 하나만 배포하는 것으로는 정확도, 확장성, 응답 지연(latency) 같은</summary>
  </entry>
  <entry>
    <title>LLM System Design은 어떻게 해야할까 - 엔터프라이즈 규모에서&amp;nbsp;고려해야 할 핵심 요소들</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/12" />
    <id>https://brunch.co.kr/@@i7Ki/12</id>
    <updated>2025-09-07T08:51:32Z</updated>
    <published>2025-09-07T08:51:32Z</published>
    <summary type="html">대규모 언어 모델(LLM, Large Language Model)을 엔터프라이즈 환경에서 실제 서비스로 운영하기 위해서는 단순히 모델을 학습시키는 것 이상을 고민해야 한다. 모델이 높은 품질을 유지하면서도 안정적이고 비용 효율적으로 동작할 수 있도록 전체 시스템 아키텍처를 설계하는 것이 핵심이다. 이번 글에서는 LLM 시스템 디자인 시 반드시 고려해야 할</summary>
  </entry>
  <entry>
    <title>LLM 학습에 필요한 GPU 자원과 학습 데이터량 - Dense 모델과 MoE 모델의 요구사항 각각 비교 분석</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/10" />
    <id>https://brunch.co.kr/@@i7Ki/10</id>
    <updated>2025-08-20T05:01:21Z</updated>
    <published>2025-08-20T05:01:21Z</published>
    <summary type="html">이 글은 대형 언어 모델의 Supervised Fine-tuning(SFT)을 고려할 때 Dense 모델과 MoE(Mixture of Experts) 모델 간의 차이점, 그리고 실무적인 설정 및 자원 산정 방법을 체계적으로 설명한다. 대상 모델은 각각 Qwen2.5-Coder-32B-Instruct와 Qwen3-Coder-30B-A3B-Instruct이며,</summary>
  </entry>
  <entry>
    <title>Python 알고리즘 유형 및 대표 문제 총정리 - 업무에 잘 쓰이지는 않지만 SW 전문가라면 필수로 알아야 할 상식</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/9" />
    <id>https://brunch.co.kr/@@i7Ki/9</id>
    <updated>2025-09-18T19:43:03Z</updated>
    <published>2025-08-17T07:12:19Z</published>
    <summary type="html">각 알고리즘 별 설명 1. Two Pointers 정의: 배열의 양 끝이나 시작부터 두 개의 포인터를 움직이며 조건을 만족하는 쌍을 찾는 기법 활용: 정렬된 배열에서 합, 구간, 중복 쌍 등을 찾을 때 구현: left, right 포인터를 두고 조건에 따라 둘 중 하나를 이동시키며 탐색  2. Sliding Window 정의: 배열이나 문자열에서 일정 길이</summary>
  </entry>
  <entry>
    <title>생성형 AI와 Cybersecurity - Gen AI가 사이버 보안에 활용되면 어떤 시너지를 낼 수 있을까?</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/8" />
    <id>https://brunch.co.kr/@@i7Ki/8</id>
    <updated>2025-08-17T06:13:35Z</updated>
    <published>2025-08-17T06:13:35Z</published>
    <summary type="html">사이버보안은 더 이상 선택이 아니다. 클라우드와 API, 컨테이너 기반 마이크로서비스 환경이 일상이 된 지금, 보안은 기업 생존의 필수 조건이다. 우리가 매일 사용하는 웹사이트, 모바일 앱, SaaS 서비스들은 복잡하게 얽힌 네트워크, 애플리케이션, 그리고 수많은 API 위에서 운영된다. 특히 클라우드는 AWS, GCP, Azure 같은 퍼블릭 클라우드들이</summary>
  </entry>
  <entry>
    <title>Long Context에 대응하는 학습 및 추론 전략 - 챗봇과 같은 RAG 시스템에서 Long Context에 대한 니즈</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/7" />
    <id>https://brunch.co.kr/@@i7Ki/7</id>
    <updated>2025-08-14T10:28:54Z</updated>
    <published>2025-08-14T10:28:54Z</published>
    <summary type="html">LLM 활용도가 올라가고 Reasoning이 추가되고  RAG를 기반으로 검색 결과 통합을 하게 되면서 점점 더 긴 토큰 시퀀스가 필요하게 되었다.  이러한 Long Context Task에서 LLM 모델을 Training 및 Inference 할 때 필수로 고려해야 하는 요소들을 정리 해 보았다. 1. 항목: 메모리 사용(특히 KV/Activation)</summary>
  </entry>
  <entry>
    <title>복잡하고 어려운 LLM Serving 핵심 요약 버전 - 실무 시뮬레이션으로 쉽게 이해하기</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/6" />
    <id>https://brunch.co.kr/@@i7Ki/6</id>
    <updated>2025-08-14T08:42:55Z</updated>
    <published>2025-08-14T08:42:55Z</published>
    <summary type="html">Inference를 위한 기본 개념 Prefill: 긴 입력 프롬프트 전체를 한번에 처리해 KV Cache에 쌓는 단계 -&amp;gt; 계산량 O(T^2), 입력 토큰이 길어지면 첫 토큰이 늦어짐Decode: Prefill 이후 토큰을 하나씩 생성 -&amp;gt; 계산량 O(T), Output Token이 길어질 수록 느려짐Prefill Chunk: 실행 스케쥴링</summary>
  </entry>
  <entry>
    <title>LLM Inference 를 위한 A to Z - 효율적이고 안정적인 LLM 서빙</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/5" />
    <id>https://brunch.co.kr/@@i7Ki/5</id>
    <updated>2025-08-14T06:47:16Z</updated>
    <published>2025-08-14T05:46:11Z</published>
    <summary type="html">0. 전체 개요  추론(Inference)의 목표는 이미 학습된 모델을 빠르고, 싸고, 안정적으로 서빙하는 것이다. 추론의 성능과 비용은 대부분 (1) KV 캐시의 메모리/대역폭, (2) Attention 커널과 변형(Flash Attention, GQA/MQA, Windowed/Sliding 등), (3) 정밀도와 양자화(bf16/fp16, INT8/IN</summary>
  </entry>
  <entry>
    <title>LLM 동작원리 (Decoder Achitecture) - LLM 모델의 동작 원리</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/1" />
    <id>https://brunch.co.kr/@@i7Ki/1</id>
    <updated>2025-08-14T00:12:00Z</updated>
    <published>2025-08-14T00:12:00Z</published>
    <summary type="html">우리가 매일 사용하는 ChatGPT, Gemini, Perplexity와 같은 AI Assistant는 대부분 Decoder-only 형태의 LLM(대규모 언어 모델) 구조를 기반으로 한다.  이러한 모델은 어떻게 우리의 질문을 이해하고, 맥락에 맞는 적절한 답변을 생성할 수 있을까?  2023년 초 ChatGPT가 처음 출시되었을 때 전 세계는 큰 충격을</summary>
  </entry>
  <entry>
    <title>Multi-Agent 기반 추천 시스템 설계 - 대량의 요청에도 흔들림 없는 견고한 아키텍처</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/4" />
    <id>https://brunch.co.kr/@@i7Ki/4</id>
    <updated>2025-08-14T00:10:52Z</updated>
    <published>2025-08-14T00:10:52Z</published>
    <summary type="html">0. 들어가기에 앞서 이번 글에서는 실전에서 운영 가능한 멀티에이전트 기반 추천 시스템을 어떻게 설계하고 구현했는지, 그리고 수많은 요청이 동시에 몰려와도 안정적이고 효율적으로 처리할 수 있는 비동기 아키텍처를 어떻게 구성했는지를 소개합니다.예시로 다루는 태스크는 다음과 같습니다:ERP 시스템에서 &amp;lsquo;구매 품명&amp;rsquo;을 입력받으면,그 품명에 대해 대분</summary>
  </entry>
  <entry>
    <title>LLM은 어떻게 학습할까? - Decoder 모델의 학습 최적화 방법</title>
    <link rel="alternate" type="text/html" href="https://brunch.co.kr/@@i7Ki/3" />
    <id>https://brunch.co.kr/@@i7Ki/3</id>
    <updated>2025-08-11T12:09:21Z</updated>
    <published>2025-08-11T12:09:21Z</published>
    <summary type="html">0. 개요 대규모 언어 모델(LLM)을 학습할 때는 단순히 데이터를 준비하고 학습 코드를 실행하는 것 이상의 이해가 필요하다. 모델의 크기, 데이터의 양, GPU 메모리 제약, 그리고 분산 환경 활용 방식이 서로 맞물려 학습 효율과 안정성을 결정한다. 학습을 잘 설계하려면 크게 병렬화 방식, 메모리 사용 구조, 메모리 최적화 방법, 학습 설정, 데이터와 모</summary>
  </entry>
</feed>
