brunch

종합 리스트

확산 기반 대형 언어 모델(Diffusion-Based LLM)

by AI러 이채문

사실 요사이는 아니고


계속 오픈소스를 파고 있다보니까


그냥 연구소가 필요해졌다.



자료를 정리할 수 있는, 그래서 시작하게 되었습니다.





1. 최신 상용 모델 (2025년)

LLaDA (Large Language Diffusion with mAsking)

개발기관: 연구팀 (2025년 2월 발표)

특징: 8B 파라미터, 완전한 사전 훈련부터 지도 학습까지 수행

성능: LLaMA3 8B와 경쟁력 있는 성능, GPT-4o를 능가하는 reverse poem completion 작업

아키텍처: 마스킹 기반 확산 모델, 표준 Transformer 사용

논문: arXiv:2502.09992


Mercury 시리즈 (Inception Labs)

개발기관: Inception Labs (2025년 2-3월 출시)

모델 종류: Mercury Coder (코딩 특화) Mercury Mini Mercury Chat (비공개 베타)

성능: 1000+ 토큰/초 (NVIDIA H100), 기존 LLM 대비 5-10배 빠름

특징: 최초의 상용 규모 확산 기반 언어 모델

아키텍처: 전체 응답을 한 번에 생성 후 점진적 개선




2. 연구 모델들 (2022-2024)

SSD-LM (Semi-autoregressive Simplex-based Diffusion Language Model)

개발기관: 스탠포드 대학교 (2022년)

특징: 반자기회귀 방식, 심플렉스 기반

장점: 가변 길이 시퀀스 지원, 모듈형 제어 가능

성능: GPT-2 모델과 동등하거나 우수한 성능

논문: ACL 2023 (arXiv:2210.17432)


Diffusion-LM

개발기관: 스탠포드 대학교 (2022년)

특징: 연속 공간에서의 확산 기반 언어 모델

강점: 복잡한 세밀한 제어 작업에서 우수한 성능

응용: 6가지 도전적인 세밀한 제어 작업에서 성공

논문: NeurIPS 2022 (arXiv:2205.14217)


GENIE (dIffusion language modEl)

개발기관: 연구팀 (2022년)

특징: 대규모 사전 훈련된 확산 언어 모델

아키텍처: 인코더-디코더 구조, 연속 문단 노이즈 제거 목표

성능: XSum, CNN/DailyMail, Gigaword에서 경쟁력 있는 성능

논문: ICML 2023


DiffusionBERT

개발기관: 연구팀 (2023년)

특징: BERT를 백본으로 사용하는 확산 모델

장점: 흡수 상태를 이용한 이산 확산 모델

성능: D3PM, Diffusion-LM 대비 상당한 개선

논문: ACL 2023 (arXiv:2211.15029)


AR-Diffusion (Auto-Regressive Diffusion)

개발기관: 연구팀 (2023년)

특징: 자기회귀와 확산을 결합한 하이브리드 모델

성능: GENIE 대비 600배 빠른 속도, 2단계 디코딩 지원

응용: 텍스트 요약, 기계 번역, 상식 생성

논문: arXiv:2305.09515


BD3-LMs (Block Discrete Denoising Diffusion Language Models)

개발기관: 연구팀 (2024년)

특징: 블록 단위 이산 확산 모델

장점: 자기회귀와 확산 모델 사이의 절충점 제공

지원: 임의 길이 시퀀스 생성

코드: GitHub kuleshov-group/bd3lms




3. 특수 목적 모델들

DiffuSeq

특징: 시퀀스-투-시퀀스 작업에 특화

아키텍처: 인코더-디코더 구조 사용

성능: 6개 확립된 베이스라인과 경쟁력 있는 성능


Masked-Diffuse LM

특징: 언어학적 특성에 영감을 받은 전략적 소프트 마스킹

장점: Diffusion-LM 대비 낮은 훈련 비용과 더 나은 성능


SEDIT (Self-conditioned Embedding Diffusion)

특징: 토큰 임베딩에서 작동하는 연속 확산 메커니즘

지원: 조건부 및 무조건부 텍스트 생성


D3PM (Discrete Denoising Diffusion Probabilistic Models)

특징: 토큰 간 유사성을 활용한 구조화된 범주형 손상 과정

성능: 문자 수준 텍스트 생성에서 강력한 결과


4. 기술적 특징 비교

속도 및 효율성

Mercury 시리즈: 1000+ 토큰/초

AR-Diffusion: GENIE 대비 600배 빠름

LLaDA: 기존 자기회귀 모델과 경쟁력 있는 확장성


제어 가능성

Diffusion-LM: 6가지 세밀한 제어 작업에서 우수

SSD-LM: 모듈형 제어 및 분류기 가이던스 지원

Mercury: 구조화된 생성 및 오류 수정 가능


다양성 및 품질

대부분의 확산 모델: 자기회귀 모델 대비 높은 다양성

LLaDA: 지시 따르기 및 역순 작업에서 우수한 성능

GENIE: 의미적, 구문적 일관성 유지




5. 미래 전망

장점

병렬 처리: 전체 시퀀스 동시 생성으로 속도 향상

제어 가능성: 세밀한 제어 및 수정 가능

다양성: 더 다양한 출력 생성

오류 수정: 반복적 개선을 통한 품질 향상


도전 과제

훈련 복잡성: 더 복잡한 훈련 과정

확장성: 매우 큰 모델에 대한 확장성 검증 필요

해석 가능성: 모델 동작의 이해 및 해석


응용 분야

실시간 애플리케이션: 챗봇, 고객 지원

코드 생성: Mercury Coder와 같은 특화 모델

창작 도구: 다양하고 제어 가능한 텍스트 생성

에이전트 시스템: 빠른 추론이 필요한 AI 에이전트




결론

확산 기반 언어 모델은 2025년 현재 상용화 단계에 진입하면서 전통적인 자기회귀 모델에 대한 실질적인 대안으로 부상하고 있습니다. 특히 속도, 제어 가능성, 다양성 측면에서 뚜렷한 장점을 보이며, Inception Labs의 Mercury 시리즈가 최초의 상용 성공 사례로 주목받고 있습니다.



keyword
작가의 이전글누구나 할 수 있지만 아무나 지속할 수는 없다