확산 기반 대형 언어 모델(Diffusion-Based LLM)
사실 요사이는 아니고
계속 오픈소스를 파고 있다보니까
그냥 연구소가 필요해졌다.
자료를 정리할 수 있는, 그래서 시작하게 되었습니다.
개발기관: 연구팀 (2025년 2월 발표)
특징: 8B 파라미터, 완전한 사전 훈련부터 지도 학습까지 수행
성능: LLaMA3 8B와 경쟁력 있는 성능, GPT-4o를 능가하는 reverse poem completion 작업
아키텍처: 마스킹 기반 확산 모델, 표준 Transformer 사용
논문: arXiv:2502.09992
개발기관: Inception Labs (2025년 2-3월 출시)
모델 종류: Mercury Coder (코딩 특화) Mercury Mini Mercury Chat (비공개 베타)
성능: 1000+ 토큰/초 (NVIDIA H100), 기존 LLM 대비 5-10배 빠름
특징: 최초의 상용 규모 확산 기반 언어 모델
아키텍처: 전체 응답을 한 번에 생성 후 점진적 개선
개발기관: 스탠포드 대학교 (2022년)
특징: 반자기회귀 방식, 심플렉스 기반
장점: 가변 길이 시퀀스 지원, 모듈형 제어 가능
성능: GPT-2 모델과 동등하거나 우수한 성능
논문: ACL 2023 (arXiv:2210.17432)
개발기관: 스탠포드 대학교 (2022년)
특징: 연속 공간에서의 확산 기반 언어 모델
강점: 복잡한 세밀한 제어 작업에서 우수한 성능
응용: 6가지 도전적인 세밀한 제어 작업에서 성공
논문: NeurIPS 2022 (arXiv:2205.14217)
개발기관: 연구팀 (2022년)
특징: 대규모 사전 훈련된 확산 언어 모델
아키텍처: 인코더-디코더 구조, 연속 문단 노이즈 제거 목표
성능: XSum, CNN/DailyMail, Gigaword에서 경쟁력 있는 성능
논문: ICML 2023
개발기관: 연구팀 (2023년)
특징: BERT를 백본으로 사용하는 확산 모델
장점: 흡수 상태를 이용한 이산 확산 모델
성능: D3PM, Diffusion-LM 대비 상당한 개선
논문: ACL 2023 (arXiv:2211.15029)
개발기관: 연구팀 (2023년)
특징: 자기회귀와 확산을 결합한 하이브리드 모델
성능: GENIE 대비 600배 빠른 속도, 2단계 디코딩 지원
응용: 텍스트 요약, 기계 번역, 상식 생성
논문: arXiv:2305.09515
개발기관: 연구팀 (2024년)
특징: 블록 단위 이산 확산 모델
장점: 자기회귀와 확산 모델 사이의 절충점 제공
지원: 임의 길이 시퀀스 생성
코드: GitHub kuleshov-group/bd3lms
특징: 시퀀스-투-시퀀스 작업에 특화
아키텍처: 인코더-디코더 구조 사용
성능: 6개 확립된 베이스라인과 경쟁력 있는 성능
특징: 언어학적 특성에 영감을 받은 전략적 소프트 마스킹
장점: Diffusion-LM 대비 낮은 훈련 비용과 더 나은 성능
특징: 토큰 임베딩에서 작동하는 연속 확산 메커니즘
지원: 조건부 및 무조건부 텍스트 생성
특징: 토큰 간 유사성을 활용한 구조화된 범주형 손상 과정
성능: 문자 수준 텍스트 생성에서 강력한 결과
Mercury 시리즈: 1000+ 토큰/초
AR-Diffusion: GENIE 대비 600배 빠름
LLaDA: 기존 자기회귀 모델과 경쟁력 있는 확장성
Diffusion-LM: 6가지 세밀한 제어 작업에서 우수
SSD-LM: 모듈형 제어 및 분류기 가이던스 지원
Mercury: 구조화된 생성 및 오류 수정 가능
대부분의 확산 모델: 자기회귀 모델 대비 높은 다양성
LLaDA: 지시 따르기 및 역순 작업에서 우수한 성능
GENIE: 의미적, 구문적 일관성 유지
병렬 처리: 전체 시퀀스 동시 생성으로 속도 향상
제어 가능성: 세밀한 제어 및 수정 가능
다양성: 더 다양한 출력 생성
오류 수정: 반복적 개선을 통한 품질 향상
훈련 복잡성: 더 복잡한 훈련 과정
확장성: 매우 큰 모델에 대한 확장성 검증 필요
해석 가능성: 모델 동작의 이해 및 해석
실시간 애플리케이션: 챗봇, 고객 지원
코드 생성: Mercury Coder와 같은 특화 모델
창작 도구: 다양하고 제어 가능한 텍스트 생성
에이전트 시스템: 빠른 추론이 필요한 AI 에이전트
확산 기반 언어 모델은 2025년 현재 상용화 단계에 진입하면서 전통적인 자기회귀 모델에 대한 실질적인 대안으로 부상하고 있습니다. 특히 속도, 제어 가능성, 다양성 측면에서 뚜렷한 장점을 보이며, Inception Labs의 Mercury 시리즈가 최초의 상용 성공 사례로 주목받고 있습니다.