Dr Jenna

Dr Jenna dr-jenna AI, LLM 분야 박사로서복잡한 현실 세계 문제를 데이터와 AI로 풀어내는 걸 좋아합니다.또한 웰빙을 추구하여 건강한 음식, 운동, 마인드셋에 관심이 많습니다. https://brunch.co.kr/@@i7Ki 2025-08-09T04:59:38Z Qwen3-Coder-480B-A35B-Instruct - H100 GPU에서 최적화하여 서빙하기 https://brunch.co.kr/@@i7Ki/15 2025-09-15T10:45:42Z 2025-09-14T12:33:31Z

최근 Table QA Agent를 구축하기 위해 초대형 MoE 기반 코드 모델인 Qwen3-Coder-480B-A35B-Instruct를 직접 서빙해야 했습니다. 이 모델은 480B 파라미터 규모, 160명의 Expert 중 8명이 활성화되는 MoE 아키텍처, 그리고 native context length 256k를 갖추고 있습니다. Table QA라는 특

NL2SQL (Text-to-SQL) Agents 설계 - 엔터프라이즈 환경을 위한 Workflow https://brunch.co.kr/@@i7Ki/14 2025-09-07T10:32:10Z 2025-09-07T10:32:10Z

* 지난 글 : LLM System Design: 엔터프라이즈 규모에서 고려해야 할 핵심 요소들 https://brunch.co.kr/@dr-jenna/12 자연어로 입력된 질문을 SQL 쿼리로 변환하는 NL2SQL(Text-to-SQL) 기술은 엔터프라이즈 데이터 활용에서 중요한 역할을 한다. 사용자는 복잡한 데이터베이스 스키마를 몰라도 자연어로 질의

Agentic RAG 기반 Chatbot 설계 - Workflow와 평가 전략 https://brunch.co.kr/@@i7Ki/13 2025-09-07T10:34:38Z 2025-09-07T10:26:49Z

* 지난 글 : LLM System Design: 엔터프라이즈 규모에서 고려해야 할 핵심 요소들 https://brunch.co.kr/@dr-jenna/12 대규모 언어 모델(LLM)을 활용한 챗봇과 어시스턴트는 엔터프라이즈 환경에서 빠르게 확산되고 있다. 그러나 단순히 LLM 하나만 배포하는 것으로는 정확도, 확장성, 응답 지연(latency) 같은

LLM System Design은 어떻게 해야할까 - 엔터프라이즈 규모에서 고려해야 할 핵심 요소들 https://brunch.co.kr/@@i7Ki/12 2025-09-07T08:51:32Z 2025-09-07T08:51:32Z

대규모 언어 모델(LLM, Large Language Model)을 엔터프라이즈 환경에서 실제 서비스로 운영하기 위해서는 단순히 모델을 학습시키는 것 이상을 고민해야 한다. 모델이 높은 품질을 유지하면서도 안정적이고 비용 효율적으로 동작할 수 있도록 전체 시스템 아키텍처를 설계하는 것이 핵심이다. 이번 글에서는 LLM 시스템 디자인 시 반드시 고려해야 할

LLM 학습에 필요한 GPU 자원과 학습 데이터량 - Dense 모델과 MoE 모델의 요구사항 각각 비교 분석 https://brunch.co.kr/@@i7Ki/10 2025-08-20T05:01:21Z 2025-08-20T05:01:21Z

이 글은 대형 언어 모델의 Supervised Fine-tuning(SFT)을 고려할 때 Dense 모델과 MoE(Mixture of Experts) 모델 간의 차이점, 그리고 실무적인 설정 및 자원 산정 방법을 체계적으로 설명한다. 대상 모델은 각각 Qwen2.5-Coder-32B-Instruct와 Qwen3-Coder-30B-A3B-Instruct이며,

Python 알고리즘 유형 및 대표 문제 총정리 - 업무에 잘 쓰이지는 않지만 SW 전문가라면 필수로 알아야 할 상식 https://brunch.co.kr/@@i7Ki/9 2025-09-18T19:43:03Z 2025-08-17T07:12:19Z

각 알고리즘 별 설명 1. Two Pointers 정의: 배열의 양 끝이나 시작부터 두 개의 포인터를 움직이며 조건을 만족하는 쌍을 찾는 기법 활용: 정렬된 배열에서 합, 구간, 중복 쌍 등을 찾을 때 구현: left, right 포인터를 두고 조건에 따라 둘 중 하나를 이동시키며 탐색 2. Sliding Window 정의: 배열이나 문자열에서 일정 길이

생성형 AI와 Cybersecurity - Gen AI가 사이버 보안에 활용되면 어떤 시너지를 낼 수 있을까? https://brunch.co.kr/@@i7Ki/8 2025-08-17T06:13:35Z 2025-08-17T06:13:35Z

사이버보안은 더 이상 선택이 아니다. 클라우드와 API, 컨테이너 기반 마이크로서비스 환경이 일상이 된 지금, 보안은 기업 생존의 필수 조건이다. 우리가 매일 사용하는 웹사이트, 모바일 앱, SaaS 서비스들은 복잡하게 얽힌 네트워크, 애플리케이션, 그리고 수많은 API 위에서 운영된다. 특히 클라우드는 AWS, GCP, Azure 같은 퍼블릭 클라우드들이

Long Context에 대응하는 학습 및 추론 전략 - 챗봇과 같은 RAG 시스템에서 Long Context에 대한 니즈 https://brunch.co.kr/@@i7Ki/7 2025-08-14T10:28:54Z 2025-08-14T10:28:54Z

LLM 활용도가 올라가고 Reasoning이 추가되고 RAG를 기반으로 검색 결과 통합을 하게 되면서 점점 더 긴 토큰 시퀀스가 필요하게 되었다. 이러한 Long Context Task에서 LLM 모델을 Training 및 Inference 할 때 필수로 고려해야 하는 요소들을 정리 해 보았다. 1. 항목: 메모리 사용(특히 KV/Activation)

복잡하고 어려운 LLM Serving 핵심 요약 버전 - 실무 시뮬레이션으로 쉽게 이해하기 https://brunch.co.kr/@@i7Ki/6 2025-08-14T08:42:55Z 2025-08-14T08:42:55Z

Inference를 위한 기본 개념 Prefill: 긴 입력 프롬프트 전체를 한번에 처리해 KV Cache에 쌓는 단계 -> 계산량 O(T^2), 입력 토큰이 길어지면 첫 토큰이 늦어짐Decode: Prefill 이후 토큰을 하나씩 생성 -> 계산량 O(T), Output Token이 길어질 수록 느려짐Prefill Chunk: 실행 스케쥴링

LLM Inference 를 위한 A to Z - 효율적이고 안정적인 LLM 서빙 https://brunch.co.kr/@@i7Ki/5 2025-08-14T06:47:16Z 2025-08-14T05:46:11Z

0. 전체 개요 추론(Inference)의 목표는 이미 학습된 모델을 빠르고, 싸고, 안정적으로 서빙하는 것이다. 추론의 성능과 비용은 대부분 (1) KV 캐시의 메모리/대역폭, (2) Attention 커널과 변형(Flash Attention, GQA/MQA, Windowed/Sliding 등), (3) 정밀도와 양자화(bf16/fp16, INT8/IN

LLM 동작원리 (Decoder Achitecture) - LLM 모델의 동작 원리 https://brunch.co.kr/@@i7Ki/1 2025-08-14T00:12:00Z 2025-08-14T00:12:00Z

우리가 매일 사용하는 ChatGPT, Gemini, Perplexity와 같은 AI Assistant는 대부분 Decoder-only 형태의 LLM(대규모 언어 모델) 구조를 기반으로 한다. 이러한 모델은 어떻게 우리의 질문을 이해하고, 맥락에 맞는 적절한 답변을 생성할 수 있을까? 2023년 초 ChatGPT가 처음 출시되었을 때 전 세계는 큰 충격을

Multi-Agent 기반 추천 시스템 설계 - 대량의 요청에도 흔들림 없는 견고한 아키텍처 https://brunch.co.kr/@@i7Ki/4 2025-08-14T00:10:52Z 2025-08-14T00:10:52Z

0. 들어가기에 앞서 이번 글에서는 실전에서 운영 가능한 멀티에이전트 기반 추천 시스템을 어떻게 설계하고 구현했는지, 그리고 수많은 요청이 동시에 몰려와도 안정적이고 효율적으로 처리할 수 있는 비동기 아키텍처를 어떻게 구성했는지를 소개합니다.예시로 다루는 태스크는 다음과 같습니다:ERP 시스템에서 ‘구매 품명’을 입력받으면,그 품명에 대해 대분

LLM은 어떻게 학습할까? - Decoder 모델의 학습 최적화 방법 https://brunch.co.kr/@@i7Ki/3 2025-08-11T12:09:21Z 2025-08-11T12:09:21Z

0. 개요 대규모 언어 모델(LLM)을 학습할 때는 단순히 데이터를 준비하고 학습 코드를 실행하는 것 이상의 이해가 필요하다. 모델의 크기, 데이터의 양, GPU 메모리 제약, 그리고 분산 환경 활용 방식이 서로 맞물려 학습 효율과 안정성을 결정한다. 학습을 잘 설계하려면 크게 병렬화 방식, 메모리 사용 구조, 메모리 최적화 방법, 학습 설정, 데이터와 모