주간 AIGC 2025.06.22 ~ 06.29
업계의 최근 흐름을 살펴보면, 거대 기업들의 행보가 한층 분주해진 모습입니다.
우선 구글은 오픈소스 명령줄 도구 Gemini CLI, 온디바이스 모델 Gemma 2, 그리고 유전체 시퀀싱 모델 AlphaGenome을 잇따라 발표하며 기술 저변을 넓히고 있습니다. 더불어 한동안 중단됐던 Gemini 2.5 Pro 무료 API 서비스도 재개해 개발자들의 관심을 모으고 있습니다. Anthropic은 자사의 Claude에 새롭게 Artifacts 기능을 도입해 사용자 경험을 개선했습니다.
그 외의 동향으로는 메타가 OpenAI 출신 인재들을 공격적으로 영입하고 있다는 점과, 마이크로소프트와 OpenAI 사이에 불거진 계약 분쟁이 업계의 긴장을 높이고 있습니다. 한편, Anthropic은 저작권 소송에서 ‘합리적 사용(Fair Use)’에 해당한다는 유리한 판결을 얻어내며 법적 부담을 덜어냈습니다.
눈에 띄는 새로운 개발 도구로는 한층 진화한 Warp 2.0이 추천되고 있고, AI가 이제 ‘경험의 시대’로 접어들었다는 분석도 나오고 있습니다. 이와 맞물려 AI 브라우저 시장의 경쟁이 본격화되고 있다는 점도 주목할 만한 트렌드입니다.
이처럼 각기 다른 축에서 벌어지는 기술적 진화와 시장 재편의 움직임이, 앞으로의 AI 생태계를 더욱 흥미롭게 만들고 있습니다.
프롬프트 : person entering a circular portal, minimal , gradient --ar 16:9 --style raw --v 7 --stylize 1000 --profile
구글의 출시 속도는 놀랍습니다. 요즘처럼 거의 매주 굵직한 발표가 이어지는 모습은 업계에서도 보기 드문 일이죠.
가장 먼저 눈에 띄는 건 Gemini CLI입니다. 이는 Anthropic의 Claude Code와 유사한 오픈소스 명령줄 프로그래밍 도구로, 코드 구조와 동작 방식에서도 Claude Code를 참고한 흔적이 엿보입니다. 그러나 구글의 Gemini CLI가 가진 가장 큰 장점은 바로 무료라는 점입니다. 하루에 1,000회 이상 호출이 가능하다는 점 또한 개발자들에게 매력적으로 다가옵니다.
또한, 구체적인 설치 방법과 간단한 사용법까지 이미 공개되어 있어, 누구나 쉽게 설치해 바로 써볼 수 있다는 점도 장점입니다. 이러한 접근성 덕분에, 개발자들 사이에서 빠르게 퍼지고 있는 분위기입니다.
Google 검색 실시간 연동을 지원하여 모델에 외부 컨텍스트를 제공하고, MCP와 확장 기능을 지원해 기능 확장이 용이합니다. 프롬프트와 명령어 커스터마이징이 가능해 개인이나 팀 워크플로우에 맞출 수 있으며, 스크립트에서 비대화형 호출이 가능해 자동화와 통합을 구현할 수 있습니다.
우리에게 더욱 반가운 소식은 무료 Gemini 2.5 Pro API 할당량이 다시 복구되었다는 점입니다. 다시 즐겁게 무료로 사용할 수 있게 되었습니다.
온디바이스용 모델인 Gemma 3n도 정식 출시되었습니다. 모바일 우선 아키텍처로 설계되어 텍스트, 이미지, 오디오, 비디오 콘텐츠를 이해할 수 있습니다. 성능은 50억~80억 파라미터 모델 수준이지만, 아키텍처의 혁신으로 런타임 메모리 사용량을 대폭 줄였습니다.
DeepMind는 차세대 AI 유전체 분석 모델도 선보였습니다. DNA 변이가 유전자 조절에 미치는 영향을 고정밀도로 예측할 수 있으며, 이미 API를 통해 과학 연구계에 프리뷰를 제공하고 있습니다.
AlphaGenome은 통합형 DNA 서열 모델로, 인간 DNA 단일 염기 변이가 유전자 조절에 미치는 영향을 더욱 포괄적이고 정확하게 예측할 수 있습니다. 최대 100만 개의 염기쌍으로 이루어진 DNA 서열을 처리할 수 있으며, 고해상도 분자 특성 예측 결과를 출력합니다.
입력 데이터로는 최대 100만 개의 염기쌍으로 구성된 긴 DNA 서열을 받습니다. 이는 마치 100만 글자로 이루어진 유전자 암호 책을 한 번에 읽는 것과 같습니다. 출력으로는 수천 가지 분자 특성을 예측합니다. 여기에는 유전자의 시작점과 종료점, 스플라이싱 부위, RNA 생성량, DNA 접근성, 단백질 결합 부위 등이 포함됩니다.
아키텍처는 마치 현미경에서 망원경으로 시야를 확장하는 것과 같은 구조입니다. 먼저 컨볼루션 레이어가 짧은 서열 패턴을 감지합니다. 이는 책에서 특정 단어나 문구를 찾는 것과 비슷합니다. 이어서 Transformer 레이어가 전역적인 정보 교환을 실현합니다. 마치 책 전체의 맥락을 파악하여 각 문장이 전체 스토리에서 어떤 의미를 갖는지 이해하는 것과 같습니다. 마지막 단계에서는 다양한 조절 특성을 예측하여 결과를 출력합니다.
쉽게 말해, DNA라는 거대한 설계도를 읽어서 "이 부분에서 어떤 단백질이 만들어질지", "언제 유전자가 작동할지" 등을 미리 알려주는 똑똑한 번역기라고 할 수 있습니다.
Claude의 Artifacts에서 꽤 의미 있는 업데이트 두 가지가 발표되었습니다.
먼저 사용자가 제작한 우수한 Artifacts 어플리케이션들을 전시하는 전용 페이지가 생겼습니다. 직접 클릭해서 사용하거나 이를 기반으로 수정할 수 있어, 마치 앱스토어에서 검증된 앱들을 골라 쓰는 것과 같은 경험을 제공합니다.
또 다른 주목할 만한 기능은 Claude로 어플리케이션을 생성할 때 웹페이지에 AI 기능을 직접 호출할 수 있게 되었다는 점입니다. 흥미로운 점은 이때 개발자의 토큰 할당량을 소모하지 않고 실제 사용자의 할당량을 소모한다는 것입니다. 예를 들어 제가 만든 일러스트레이션 프롬프트 생성기를 어플케이션으로 만들어 배포한 경우, 다른 사용자들이 이를 사용할 때 그들의 할당량이 차감됩니다.
Claude 데스크톱 버전에서는 로컬 MCP 서버를 원클릭으로 설치할 수 있게 되었습니다. 게다가 데스크톱 확장 파일(.dxt) 포맷도 새롭게 도입되어, 이전처럼 복잡한 설정 과정을 거치지 않고 클릭 한 번으로 확장 기능을 추가할 수 있습니다.
• 저커버그의 유명한 "헤드헌팅 작전"의 최신 성과가 공개되었습니다. OpenAI 취리히 오피스를 설립했던 Lucas Beyer, Alexander Kolesnikov, Xiaohua Zhai가 Meta의 초지능 팀에 합류했습니다.
• 마이크로소프트와 OpenAI 사이에 인공일반지능(AGI) 관련 계약 조항을 두고 갈등이 발생했습니다. 현재 협약에 따르면 OpenAI가 AGI를 달성하는 순간 마이크로소프트의 해당 기술 접근권이 무효화됩니다. 마이크로소프트는 이 조항의 삭제를 요구했지만 OpenAI가 거부한 상황입니다.
• 미국 연방법원이 Anthropic의 승리로 판결했습니다. 합법적으로 구입한 실물 도서로 AI 모델을 훈련시키는 행위를 '합리적 사용'으로 인정한 것입니다. William Alsup 판사는 종이책을 디지털화해 훈련에 활용하는 것을 "놀라운" 변혁적 행위로 평가하며, 이를 학생들의 글쓰기 실력 향상을 위한 교육과 같다고 비유했습니다. 저작물을 복사하거나 대체하는 것이 아니라는 의미입니다.
• OpenAI가 추론 비용 절감을 위해 구글 클라우드를 구매해 구글의 TPU를 사용하기 시작했습니다. AI 시대에는 역시 컴퓨팅 파워가 진정한 왕도인 듯합니다. 구글의 생태계 구축이 너무 포괄적입니다.
• Runway에서 AI 생성 인터랙티브 게임을 곧 출시합니다. 기본적으로는 비디오와 이미지를 추가한 AI 동반자 에이전트입니다. 혁신적인 부분은 수치 시스템을 도입했다는 점으로, 매 상호작용마다 게임 관련 수치를 획득하거나 잃게 됩니다. 목표가 명확해지면서 플레이어의 장시간 플레이를 효과적으로 유도할 수 있습니다.
• 일론 머스크가 Grok 3.5는 취소되고 Grok 4가 7월 4일 이후 직접 출시된다고 발표했습니다.
• FLUX.1 Kontext [dev]가 완전 오픈소스로 공개되었습니다. 편집 작업에 특화되어 있으며, 반복적 편집을 지원하고 다양한 시나리오와 환경에서 캐릭터 일관성을 유지하는 데 뛰어납니다. 정밀한 부분 및 전체 수정도 가능합니다.
• LLM API 서비스 제공업체 OpenRouter가 a16z와 Menlo 주도로 4천만 달러 투자를 유치했습니다.
• Devin 개발사 Cognition이 새로운 가상머신 스냅샷 포맷인 blockdiff를 개발했습니다. 기존 대비 약 200배 향상된 초 단위 스냅샷을 구현했습니다.
• Sohu는 트랜스포머 아키텍처 전용으로 설계된 ASIC 칩입니다. 트랜스포머 알고리즘을 칩 실리콘에 직접 고정화해, Llama 70B 같은 대형 모델 실행 시 8xSohu 서버 한 대로 초당 50만 토큰의 추론 속도를 달성합니다. 이는 H100 GPU 160개와 맞먹는 성능입니다.
• OpenAI API에 4가지 신기능이 추가되었습니다: 웹 검색과 원격 MCP를 지원하는 연구 기능(인터넷에 공개되지 않은 데이터 대응), o3, o4-mini, o3-pro 모델의 웹 검색 기능(특가로 1천 회 쿼리당 10달러), 응답·배치 처리·파인튜닝 작업·평가 실행에서의 Webhooks 지원, 그리고 응답 API의 Logprobs 기능 지원입니다.
CCSeva는 macOS 메뉴바 전용으로 설계된 플리케이션으로, Claude Code의 사용량을 실시간으로 추적하는 도구입니다. 30초마다 자동으로 업데이트되며, 다양한 구독 플랜을 자동으로 인식합니다. 7일간의 사용량 분석, 모델별 분포 현황, 트렌드 차트, 비용 추정, 그리고 스마트 알림 기능까지 제공합니다.
Claude Code를 자주 사용하는 개발자들에게는 마치 자동차의 연료 게이지와 같은 역할을 하는 셈입니다. 사용량을 한눈에 파악하고 비용을 예측할 수 있어 효율적인 사용 계획을 세울 수 있습니다.
ElevenLabs도 더 이상 모델 개발에만 머물지 않고 있습니다. 음성 어시스턴트 플리케이션인 11 AI를 출시했습니다. 실시간으로 음성을 통해 질문에 답변할 수 있으며, MCP를 활용해 사용자의 개인 정보에 접근할 수 있어 다른 음성 어시스턴트보다 사용자를 더 잘 이해합니다. 예를 들어 Notion에서 문서를 읽어오거나 일정을 확인하는 것이 가능합니다.
기존 음성 어시스턴트들이 범용적인 정보 제공에 그쳤다면, 11 AI는 마치 개인 비서처럼 사용자의 개별 상황과 맥락을 파악하여 맞춤형 서비스를 제공하는 방향으로 진화한 것입니다. 음성 기술력으로 정평이 나 있는 ElevenLabs의 행보가 주목됩니다.
ByteRover는 AI 코딩 어시스턴트를 위해 설계된 자체 개선형 메모리 레이어입니다. Cursor, Windsurf, VS Code, Zed 등 주요 에디터들을 지원하며, 코드 관련 "기억"을 자동으로 저장하고 검색할 수 있습니다. 개발팀이 프로젝트 경험, 코드 패턴, 디버깅 솔루션 등의 지식을 효율적으로 관리할 수 있도록 돕고, 팀 협업과 기억 공유도 지원합니다.
사용자는 필요에 따라 무료, 프로, 팀, 엔터프라이즈 버전 중에서 선택할 수 있으며, 각각 다른 수준의 메모리 검색 횟수와 지원 서비스를 제공합니다. 복잡한 설정 과정 없이 기존 개발 환경에 바로 통합할 수 있습니다.
마치 개발팀의 집단 기억을 저장하는 외장 하드디스크 같은 역할을 한다고 보면 됩니다. AI 어시스턴트가 매번 처음부터 다시 학습하지 않고, 축적된 경험을 바탕으로 더 나은 코드 제안을 할 수 있게 해주는 것입니다.
Warp 2.0에서 첫 번째 "Agentic Development Environment(ADE)"를 출시했습니다. 소프트웨어 개발을 수동 코딩에서 프롬프트 기반의 지능형 에이전트 협업 모델로 전환시키는 혁신적인 접근입니다.
코드 편집, 에이전트 관리, 멀티스레딩, 터미널, 팀 지식 공유 등의 기능을 통합했습니다. 개발자들이 자연어 프롬프트를 통해 코딩부터 디버깅, 배포까지 전체 개발 과정을 효율적으로 완료할 수 있도록 지원합니다.
Warp 2.0은 개발자의 에이전트 제어권, 프라이버시 보호, 다중 에이전트 병렬 처리를 핵심으로 강조하며 생산성을 크게 향상시킵니다. 개발자를 대체하는 것이 아니라 스킬 향상을 돕는 것을 목표로 하고 있습니다.
마치 전통적인 도구를 사용해 일일이 손으로 만들던 수공예에서, 지능형 로봇과 협업하며 더 정교하고 빠르게 작품을 완성하는 하이브리드 제작 방식으로 발전한 것과 같습니다. 개발자는 여전히 창작의 주체이지만, AI 에이전트가 반복적이고 기계적인 작업들을 대신 처리해주는 구조입니다.
AI 에이전트 구축에서 "컨텍스트 엔지니어링"의 중요성을 다루며, 이를 운영체제가 CPU와 RAM을 관리하는 것에 비유했습니다. 세 가지 주요 컨텍스트 관리 전략을 상세히 설명합니다: 압축(요약을 통한 불필요한 정보 제거), 지속화(장기 메모리 저장 및 검색), 격리(구조화 또는 멀티 에이전트를 통한 컨텍스트 분할). 실제 사례를 통해 각 방법의 장단점을 분석했습니다. 합리적인 컨텍스트 관리는 에이전트 성능 향상뿐만 아니라 비용과 지연시간 감소에도 기여한다고 강조했습니다. 모델 발전에 따라 일부 엔지니어링 기법은 도태될 수 있다며, 개발자들에게 데이터 중심 접근, 상태 설계 최적화, 도구 경계에서의 정보 압축, 메모리 메커니즘 단순화, 적절한 상황에서의 멀티 에이전트 협업을 권장했습니다.
Arc 브라우저에서 Dia 브라우저로 전환한 경험과 사고 과정을 다룹니다. Arc가 파워 유저들에게는 강력한 기능을 제공하지만 대중적 수용에는 한계가 있어, The Browser Company가 더 간결하고 AI 중심적인 Dia를 출시했다고 봅니다. Dia의 인터페이스는 Chrome과 유사해 사용자의 학습 비용을 낮췄으며, AI를 브라우징 경험에 깊이 통합했습니다. 브라우저 내에서 AI 어시스턴트로 웹페이지 내용을 요약하거나 탭 간 정보를 조회하는 등의 기능이 가능합니다. Chrome 같은 전통적 브라우저들도 AI 통합을 시도하고 있지만 대부분 "외부 플러그인" 방식이어서 Dia처럼 처음부터 AI용으로 설계된 브라우저만큼 매끄럽지 않다고 지적했습니다. 미래 브라우저 경쟁은 AI를 중심으로 전개될 것이며, OpenAI, Perplexity 등 신흥 기업들도 자체 AI 브라우저를 개발하고 있다고 언급했습니다. Dia는 아직 테스트 단계이지만 AI 브라우저의 엄청난 잠재력을 보여주며, 브라우저 업계에 새로운 "AI 전쟁"의 전조라고 평가했습니다.
AI 바이브코딩은 팀 개발 효율성을 크게 향상시킬 수 있지만, 전제조건은 팀 자체가 탄탄한 소프트웨어 엔지니어링 기반과 양호한 협업 습관을 갖추고 있어야 한다는 것입니다. AI는 능력의 "증폭기" 역할을 하며, 우수한 엔지니어가 AI 도구를 더 잘 활용해 고품질 결과물을 만들어낸다고 설명했습니다. 정교한 프롬프트 설계, 충분한 컨텍스트 제공, 작업 분해, 코드 스타일 표준화 등의 방법으로 AI가 실제 개발에 더 잘 기여할 수 있도록 하는 방법을 상세히 소개했습니다. 동시에 최신 AI 모델 사용을 권장하며, AI를 학습과 스킬 향상의 도구로 활용할 것을 제안했습니다. 전체적인 관점은 고품질 엔지니어링 실무 기반 위에서만 AI가 진정으로 효과를 발휘해 팀이 지속적으로 우수한 제품을 출시할 수 있다는 것입니다.
인공지능이 "인간 데이터 시대"에서 "체험 시대"로의 중대한 전환을 맞고 있습니다. 과거 AI는 주로 대량의 인간 생성 데이터로 훈련되어 인간 능력을 모방했지만, 이 방식은 수학, 과학 등 분야에서 한계에 도달해 인간을 뛰어넘는 지능 구현이 어려워졌습니다. 미래의 AI는 환경과의 지속적인 상호작용과 자체 경험을 통해 학습하며, 더 이상 인간 데이터에만 의존하지 않을 것입니다. 체험 시대의 AI는 장기간의 경험 흐름에서 지속적으로 적응하고 발전할 수 있으며, 더 풍부한 인지와 행동 능력을 갖게 됩니다. 보상 메커니즘도 인간의 주관적 판단이 아닌 실제 환경 피드백을 기반으로 할 것입니다. 이러한 전환은 AI가 과학 발견, 개인 맞춤형 건강관리, 교육 등 분야에서 혁신을 이룰 수 있게 하지만, 안전성, 해석 가능성, 사회적 영향 등 새로운 리스크도 동반합니다. 전체적으로 체험 시대의 도래는 AI가 진정한 자율 학습과 인간을 뛰어넘는 혁신 능력을 실현할 수 있을 것으로 기대됩니다.
Anthropic과 Andon Labs가 협력해 Claude Sonnet 3.7이 회사 사무실에서 자동화 상점을 운영하도록 했습니다. 상품 선정, 가격 책정, 재고 관리, 고객과의 상호작용을 담당했습니다. 실험 결과 Claude는 공급업체 식별, 사용자 니즈 적응, 일정한 "탈옥" 방지 능력을 보였지만, 수익 기회 포착, 손실 판매 방지, 재고 관리, 가격 조정 등에서는 인간 매니저만 못한 성과를 보였고 정체성 혼란 같은 이상 행동도 나타났습니다. 연구진은 많은 실패가 더 완성된 도구와 프롬프트 개선을 통해 해결될 수 있으며, 미래에는 AI가 유사한 관리직을 수행할 가능성이 있다고 봤지만, 예측 불가능성과 잠재적 리스크에도 주의해야 한다고 강조했습니다.
a16z 신규 아티클에서 엔터프라이즈급 AI 스타트업의 5가지 핵심 인사이트를 제시했습니다: 멋진 데모는 쉽게 만들 수 있지만 실제 제품 구현은 어렵다, 성장 속도가 대폭 향상되어 10배 성장이 새로운 기준이 되었다, 어플리케이션 진입 장벽이 낮아져 AI 플리케이션 대폭발이 예상된다, 속도와 선점 우위가 그 어느 때보다 중요하다, 해자는 여전히 중요하므로 지속 가능한 경쟁력을 구축해야 한다.
2025년 엔지니어가 자동화 코딩 에이전트(Devin 등)와 효율적으로 협업하는 방법을 상세히 소개했습니다. 이러한 AI 도구들이 강력하지만 여전히 인간의 감독이 필요하다고 강조했습니다. 에이전트와의 상호작용 실용 팁(명확한 지시, 테스트 환경 제공, 전문 지식 활용)을 다루고, 에이전트를 일상 개발 프로세스에 통합하는 방법을 제시했습니다.
여기에는 신속한 신규 작업 처리, 모바일 협업, 반복 작업 자동화, 다중 솔루션 비교 등이 포함됩니다. 더 복잡한 작업의 경우 단계별 검토, 지식베이스 축적, 테스트 커버리지 향상을 통해 에이전트 성능을 개선할 것을 제안했습니다. 디버깅, 시각적 추론, 지식 시의성 등에서 에이전트의 한계를 인지하고, 보안과 권한 관리 방안도 제시했습니다.
전체적으로 AI가 엔지니어 효율성을 크게 향상시킬 것이지만, 인간의 전문적 판단과 프로젝트 책임감은 여전히 대체 불가능하다는 관점을 제시했습니다.
대규모 언어모델(LLM)의 급속한 발전으로 새로운 유형의 자율 AI 시스템인 심층 연구(DR) 에이전트가 등장했습니다. 이들 에이전트는 동적 추론, 적응형 장기 계획, 다중 홉 정보 검색, 반복적 도구 사용, 구조화된 분석 보고서 생성 등의 기술을 결합해 복잡한 다회차 정보 연구 과업을 해결하는 것을 목표로 합니다.
본 논문은 심층 연구 에이전트를 구성하는 기반 기술과 아키텍처 컴포넌트를 세밀하게 분석했습니다. 먼저 정보 획득 전략을 검토하며, API 기반 검색 방법과 브라우저 기반 탐색 모드를 비교했습니다. 이어서 코드 실행, 다중모달 입력 처리, 확장성과 생태계 발전을 지원하는 모델 컨텍스트 프로토콜(MCP) 통합을 포함한 모듈화된 도구 사용 프레임워크를 탐구했습니다.
기존 방법들을 체계화하기 위해 정적 워크플로우와 동적 워크플로우를 구분하는 분류 체계를 제안하고, 계획 전략과 에이전트 구성(단일 에이전트 및 다중 에이전트 구성 포함)에 따라 아키텍처 유형을 분류했습니다. 또한 기존 벤치마크 테스트를 비판적으로 평가하며, 외부 지식 획득 제한, 순차 실행의 비효율성, 평가 지표와 심층 연구 에이전트의 실제 목표 간 불일치 등 핵심 한계점들을 지적했습니다. 마지막으로 미래 연구의 개방적 과제와 전망 방향을 제시했습니다.
멀티모달 대형 모델의 진화는 기술 역량에 대한 우리의 인식 경계를 지속적으로 돌파하고 있습니다. 초기 QwenVL부터 최신 Qwen2.5 VL에 이르기까지, 모델의 이미지 콘텐츠 이해 능력 향상에서 지속적인 진전을 이루어왔습니다.
그들은 우리는 흥미진진한 새로운 모델 Qwen VLo를 출시합니다. 이는 통합된 멀티모달 이해 및 생성 모델입니다. 이번 업그레이드된 모델은 단순히 세계를 "이해"하는 것을 넘어, 이해를 바탕으로 고품질의 재창작을 생성할 수 있습니다. 마치 인간의 눈과 손이 하나로 연결된 것처럼, 진정한 인식과 창조의 융합을 실현했습니다.
현재는 미리보기 버전이며, Qwen을 통해 체험하실 수 있습니다. "귀여운 고양이 이미지를 생성해줘"와 같은 직접적인 명령으로 이미지를 생성하거나, 고양이 사진을 업로드한 후 "고양이 머리에 모자를 씌워줘"라고 지시하여 이미지를 수정할 수 있습니다.
이는 AI가 단순한 데이터 처리기에서 창작자로 진화하는 중요한 이정표라 할 수 있습니다.
LeVo는 언어 모델 기반 프레임워크로, LeLM과 음악 코덱으로 구성됩니다. LeLM은 두 가지 유형의 토큰을 병렬로 모델링할 수 있습니다. 혼합 토큰(보컬과 반주의 혼합 오디오를 나타내어 음성 조화를 실현)과 듀얼 트랙 토큰(보컬과 반주를 각각 인코딩하여 고품질 음악 생성)입니다. 이 프레임워크는 두 개의 디코더 전용 Transformer 모듈과 모듈화된 확장 훈련 전략을 채택하여 서로 다른 토큰 유형 간의 상호 간섭을 방지합니다.음악성과 명령 수행 능력을 더욱 향상시키기 위해, 직접 선호도 최적화(DPO) 기반의 다중 선호도 정렬 방법을 제안했습니다. 이는 반자동 데이터 구축 프로세스와 DPO 후훈련을 통해 다양한 인간 선호도를 처리합니다. 실험 결과, LeVo는 객관적 지표와 주관적 평가 모두에서 기존 방법보다 지속적으로 우수한 성능을 보였습니다.
Matrix-Game은 제어 가능한 게임 월드 생성을 위한 상호작용 월드 파운데이션 모델입니다. Matrix-Game은 2단계 파이프라인 훈련을 채택합니다. 먼저 대규모 무라벨 사전훈련으로 환경을 이해하고, 이후 동작 라벨이 있는 훈련을 통해 상호작용 비디오 생성을 실현합니다.
이 작업을 지원하기 위해 Matrix-Game-MC라는 포괄적인 마인크래프트 데이터셋을 정리했습니다. 이는 2700시간 이상의 무라벨 게임 비디오 클립과 1000시간 이상의 세밀한 키보드 및 마우스 동작 주석이 있는 고품질 라벨 클립을 포함합니다.
모델은 제어 가능한 이미지-투-월드 생성 패러다임을 채택하여, 참조 이미지, 모션 컨텍스트, 사용자 동작을 기반으로 조건부 생성을 수행합니다. Matrix-Game은 170억 개 이상의 매개변수를 보유하며, 높은 시각적 품질과 시간적 일관성을 유지하면서 캐릭터 동작과 카메라 움직임의 정밀한 제어를 실현했습니다.
성능 평가를 위해 GameWorld Score라는 통합 벤치마크를 개발했습니다. 이는 마인크래프트 월드 생성의 시각적 품질, 시간적 품질, 동작 제어성, 물리 규칙 이해를 측정합니다. 광범위한 실험 결과, Matrix-Game은 모든 지표에서 이전의 오픈소스 마인크래프트 월드 모델들(Oasis, MineWorld 포함)을 지속적으로 능가했습니다.
OmniGen2는 다기능 오픈소스 생성 모델로, 텍스트-투-이미지 생성, 이미지 편집, 컨텍스트 생성 등 다양한 작업에 통합 솔루션을 제공합니다. OmniGen v1과 달리, OmniGen2는 비공유 매개변수와 분리형 이미지 토크나이저를 채택하여 텍스트와 이미지 모달리티를 위한 듀얼 독립 디코딩 경로를 설계했습니다.
이러한 아키텍처를 통해 OmniGen2는 원래의 텍스트 생성 능력을 유지하면서 기존 멀티모달 이해 모델을 직접 확장할 수 있으며, VAE 입력을 다시 적응시킬 필요가 없습니다. 모델 훈련을 지원하기 위해 이미지 편집과 컨텍스트 생성 데이터를 포함한 전체 프로세스 데이터 구축 파이프라인을 개발했습니다.
매개변수 수가 상대적으로 적당함에도 불구하고, OmniGen2는 텍스트-투-이미지 생성, 이미지 편집 등 다양한 작업 벤치마크에서 경쟁력 있는 결과를 달성했습니다. 마치 스위스 아미 나이프처럼 하나의 도구로 여러 작업을 효율적으로 처리할 수 있습니다.
현대의 매개변수 효율적 파인튜닝 방법(LoRA 등)은 대형 언어 모델 커스터마이징 비용을 낮췄지만, 여전히 각 다운스트림 데이터셋마다 별도의 최적화 훈련이 필요합니다.
그들은 드래그 앤 드롭 LLMs(DnD)를 제안합니다. 이는 프롬프트 조건 매개변수 생성기로, 소량의 무라벨 작업 프롬프트를 LoRA 가중치 업데이트로 직접 매핑하여 작업별 훈련을 제거합니다. 경량 텍스트 인코더가 프롬프트 배치를 조건부 임베딩으로 증류하고, 이후 캐스케이드 하이퍼컨볼루션 디코더를 통해 완전한 LoRA 매트릭스 세트로 변환됩니다.
다양한 프롬프트-체크포인트 쌍 데이터셋에서 훈련한 후, DnD는 수 초 내에 작업별 매개변수를 생성할 수 있습니다. 이는 기존의 무거운 훈련 과정을 마치 파일을 복사하듯 간단하게 만드는 혁신적 접근법입니다.