AI 에이전트 웹 시대 개막, 실시간 기술의 전환점

주간AI 2025.06.30 - 07.07

by 이섭

구글의 Veo 3가 전면 공개되었고, Claude가 Hooks 기능을 업데이트했습니다. NVIDIA는 Gemma 3n 등 모델에 대한 가속 지원을 강화했고, bilibili(중국 동영상 플랫폼)이 애니메이션 동영상 모델 AniSora V3를 오픈소스로 공개했습니다. 여러 기업들도 Perplexity Max와 알리바바 Qwen-TTS 등 새로운 제품이나 기능을 발표했습니다. 또한 Apple, Meta, Cursor 등 빅테크 기업들의 AI 인재 확보와 기술 포트폴리오 구축 현황도 언급되었습니다.


미드저니 프롬프트 : a poised young woman, half-lit noir portrait, razor-sharp chiaroscuro beam slicing across face, soft film-grain airbrush texture, mid-century graphic illustration style, muted midnight blues & deep blacks, minimalist negative-space composition, subtle speckled shading, elegant oval earrings, cinematic spotlight contrast, --ar 16:9 --raw --sref 1745311941 --profile u2agqxa --sw 246 --stylize 680 --niji 6



지난주 주요 소식


지난주는 미국 독립기념일 연휴로 인해 대부분의 기업이 휴무로, 특별한 주요 발표는 없었습니다.




기타 동향


✔️Gemini CLI가 오픈소스 기여자들의 업데이트를 빠르게 병합하며 대량의 업데이트를 릴리스했습니다.


✔️Veo 3가 베타 테스트를 종료하고 전 세계 모든 구글 사용자에게 정식 출시되었습니다. 이전에 계정 제한으로 사용할 수 없었던 사용자들도 이제 이용할 수 있습니다.


✔️Claude가 매우 빈번한 업데이트를 진행하고 있으며, 최근 며칠간 Hooks 기능을 추가하고 사용자 정의 슬래시 명령어도 업그레이드했습니다.


✔️NVIDIA의 가속 생성 서비스 TensorRT가 FLUX Kontext를 지원하기 시작했으며, 생성 속도가 2배 향상되었습니다. 동시에 구글의 새로운 Gemma 3n 모델도 가속 지원을 받게 되었습니다.


✔️bilibili(중국 동영상 플랫폼)가 오픈소스로 공개한 애니메이션 동영상 생성 모델 AniSora가 V3로 업데이트되었습니다. 애니메이션 시리즈, 중국 오리지널 애니메이션, 만화 동영상 각색, VTuber 콘텐츠, 애니메이션 PV, MAD 비디오 등 다양한 스타일의 애니메이션 영상을 원클릭으로 생성할 수 있습니다.


✔️Perplexity가 Perplexity Max를 출시했습니다. 무제한 Labs 쿼리 제공, 더 광범위한 최신 모델 스위트 사용, Comet 등 신제품 우선 사용 권한을 제공합니다.


✔️Freepik 플랫폼에서 유료 구독자가 무제한 이미지 생성 가능해졌습니다. Premium+와 Pro 구독 사용자가 해당하며, 이번 기회에 구독을 고려해볼 만합니다.


✔️Cursor가 Claude Code의 핵심 인력 2명을 영입했습니다. 수석 아키텍트 Boris Cherny와 제품 책임자 Cat Wu가 이직했습니다.


✔️Apple이 업데이트된 Siri 구동을 위해 OpenAI와 Anthropic의 AI 모델 사용을 고려하고 있으며, 자체 개발 기술보다는 외부 모델을 선호하는 것으로 보입니다. 또한 Apple의 MLX 팀도 최근 이탈 의사를 보였지만, Apple이 현재 이들을 유지시키고 있는 상황입니다.


✔️저커버그가 오늘 Meta에 자신의 인재 영입 성과를 소개했습니다. 역시 자본의 힘은 대단하며, 매우 화려한 라인업을 구성했습니다.


✔️알리바바 Qwen 팀이 Qwen-TTS 모델을 발표했습니다. 현재 Qwen API를 통해서만 사용할 수 있으며, 매우 자연스러운 음성을 생성합니다. 요즘 TTS 모델들의 자연스러움은 대부분 비슷한 수준에 도달한 것으로 보입니다.




제품 추천



Shortcut: Excel Agent

Shortcut은 Excel 전용 AI 에이전트로, 대부분의 Excel 지식 기반 작업을 자동으로 처리하며 인간보다 훨씬 빠른 속도를 보입니다. 재무 등 스프레드시트를 자주 사용하는 직군에 매우 유용할 것으로 예상됩니다. Excel 세계 챔피언십 케이스에서 10분 내에 80% 이상의 점수를 획득하며, 인간보다 10배 빠른 성능을 보여줍니다. Shortcut은 Excel의 거의 모든 기능을 지원하며, 직접 편집, 파일 가져오기 및 내보내기가 가능합니다.


Cursor Agent 웹 버전 출시

Cursor가 웹 버전 Cursor Agent를 출시했습니다. 사용자는 모든 데스크톱, 태블릿, 모바일 브라우저에서 Cursor Agent에 접근할 수 있으며, iOS나 Android 기기에 PWA로 설치하여 네이티브 앱과 유사한 경험을 얻을 수 있습니다.

Cursor Agent는 버그 수정, 새로운 기능 개발, 복잡한 코드 질문 해결 등의 작업을 자동으로 수행하며, 백그라운드에서 실행되어 사용자가 자리를 비워도 계속 작업할 수 있습니다.


Lazy 2.0: AI 지식 관리 도구

Lazy가 2.0으로 업데이트되었습니다. 초기 버전을 사용해봤을 때 인터페이스가 다소 복잡했던 기억이 있습니다. Lazy는 단축키 하나로 노트 기록, 문서 저장, 트위터 스레드, YouTube 동영상 요점, 이메일, Kindle 하이라이트 등의 콘텐츠를 빠르게 캡처할 수 있는 효율적인 지식 수집 도구입니다. 앱 전환 없이 다중 플랫폼 동기화를 지원하며, 정보 정리와 구조화를 돕고 통합 수신함과 명령 센터를 통해 워크플로우 효율성을 높여 정보 과부하를 줄이고 언제든지 아이디어를 캡처하여 지식 연결을 구축할 수 있습니다.



Doppl: 구글의 가상 피팅 앱 드디어 출시

Doppl은 실험적인 가상 피팅 도구로, 사용자가 소셜 미디어, 블로그, 친구들의 코디 이미지를 업로드하고 카메라 롤에서 이미지를 가져오거나 스크린샷을 찍어 마음에 드는 스타일링을 자신만의 새로운 룩으로 변환할 수 있습니다. 스타일링에 애니메이션 효과를 추가하여 코디의 동적 전시를 확인할 수 있습니다.



Dyad: 로컬 오픈소스 무료 AI 프로그래밍 에이전트

Dyad는 무료, 로컬, 오픈소스 AI 앱 구축 도구로, 프로그래밍 지식 없이도 AI와 채팅하여 빠르게 애플리케이션을 개발할 수 있습니다. Gemini, GPT-4.1, Claude 등 다양한 주요 AI 모델을 지원하며, 로컬 실행을 통해 데이터 프라이버시와 효율적인 경험을 보장합니다. Supabase 통합으로 완전한 풀스택 개발이 가능하며, 사용자가 선호하는 개발 도구로 코드를 편집할 수 있고 모든 소스 코드가 로컬에 보관되어 플랫폼 종속성이 없습니다.




주요 포스트



AI 산업 보고서

2025년 ICONIQ 《AI 산업 보고서》는 300개 소프트웨어 회사 임원들을 대상으로 한 설문조사를 바탕으로 AI 제품의 구축부터 상용화까지의 전체 프로세스를 체계적으로 정리했습니다. 보고서에 따르면 AI 네이티브 회사들이 제품 개발과 시장 확장에서 전반적으로 우위를 보이며, 약 47%의 AI 네이티브 제품이 이미 확장 단계에 진입했습니다. 기업들의 AI 제품 개발에서 가장 일반적인 방식은 에이전트형 워크플로우와 업계/범용 AI 애플리케이션 구축이며, 주류 접근법은 서드파티 AI API에 의존하는 것입니다. 동시에 고성장 기업들은 기초 모델 파인튜닝이나 자체 모델 개발을 더 선호하는 경향을 보입니다. 모델 선택 시 정확성과 커스터마이징 가능성이 가장 중요하게 고려됩니다. 대부분의 회사가 운영 복잡성을 줄이기 위해 클라우드와 API 서비스를 채택하지만, API 호출 비용이 가장 제어하기 어려운 인프라 비용으로 나타났습니다. AI 팀 구성에서는 AI/ML 엔지니어, 데이터 사이언티스트, AI 프로덕트 매니저가 핵심 직무이며, 채용의 주요 난점은 인재 부족입니다. 기업들은 일반적으로 R&D 예산의 10-20%를 AI에 투자하며, 제품이 성숙해질수록 컴퓨팅 파워와 스토리지 등 인프라 지출 비중이 증가합니다. 내부 AI 활용은 주로 R&D, 영업, 콘텐츠 생성 분야에서 이뤄지며, 코딩 어시스턴트 도구가 가장 뚜렷한 생산성 향상을 가져다줍니다. 전체적으로 AI는 이미 기업 혁신과 효율성 향상의 핵심 동력이 되었으며, 선도 기업들은 제품과 내부 프로세스에서 AI의 심층 융합을 가속화하고 있습니다.


개인 AI 팩토리 구축

저자는 Claude Code, O3, Sonnet 4 등 다양한 AI 에이전트를 활용해 협업 시스템을 구축하고, 코드 생성부터 검증, 자가 개선까지 자동화하는 "개인 AI 팩토리"를 만든 경험을 공유합니다.

이 시스템의 핵심 철학은 "아웃풋이 아닌 인풋을 수정하라"는 원칙입니다. 결과물을 수동으로 수정하는 대신, 작업 계획과 프롬프트, 에이전트 조합을 지속적으로 최적화하여 AI가 매 반복마다 더 나은 성능을 발휘하도록 만드는 방식입니다. 마치 공장의 생산 라인을 개선하듯, 프로세스 자체를 정교화하는 접근법이라 할 수 있습니다.

실제 구현에서는 멀티 워크스페이스를 활용한 병렬 개발과 자동화된 스타일 검사, 그리고 소규모 전문 에이전트들의 조합을 통해 워크플로우를 단계적으로 확장하고 최적화했습니다. 이러한 방식으로 고효율성과 자가 개선 능력을 갖춘 개발 생태계를 구현할 수 있었습니다.

결국 단순한 도구 활용을 넘어서, AI들이 스스로 학습하고 발전하는 시스템을 구축함으로써 개발 생산성의 새로운 패러다임을 제시하고 있습니다.


의료 초지능으로의 길

Microsoft AI 팀이 개발한 MAI-DxO 진단 오케스트레이터가 복잡한 의료 진단 분야에서 주목할 만한 성과를 보여주고 있습니다. 이 시스템은 뉴잉글랜드 의학저널(NEJM)의 실제 케이스를 대상으로 85%의 정확도를 달성했으며, 이는 경험이 풍부한 의사들의 정확도(약 20%)를 크게 상회하는 결과입니다.

MAI-DxO의 핵심은 다수의 의료진이 협진하는 과정을 모사한 시스템 설계에 있습니다. 마치 여러 전문의가 머리를 맞대고 환자를 진료하듯, 단계적으로 질문을 던지고 필요한 검사를 선별하는 방식으로 작동합니다. 이러한 접근법은 AI의 임상 추론 능력과 의료 자원 활용 효율성을 동시에 향상시키는 결과를 가져왔습니다.

연구 결과에 따르면, AI 기술이 의료진과 환자 모두에게 더 신속하고 정확하며 경제적인 진단을 제공할 수 있는 가능성을 보여줍니다. 다만 아직 임상 승인을 받지 못한 상태로, 실제 의료 현장에 적용되기 위해서는 추가적인 검증과 규제 당국의 승인 절차가 필요한 상황입니다.


컨텍스트 최적화 방법

이 문서는 대규모 언어모델(LLM) 활용 시 컨텍스트를 효과적으로 관리하고 최적화하는 6가지 전략을 상세히 다룹니다. "컨텍스트 오염", "컨텍스트 간섭", "컨텍스트 혼재", "컨텍스트 충돌" 등 흔히 발생하는 문제들을 해결하는 방법론을 제시합니다.

첫 번째로 RAG(검색 증강 생성) 기법을 활용해 관련성 높은 정보만 선별적으로 추가하는 방법을 설명합니다. 마치 도서관에서 필요한 자료만 골라내는 것처럼, 불필요한 정보의 노이즈를 최소화할 수 있습니다.

두 번째는 "도구 페이로드" 기법으로, 필수적인 도구 설명만 컨텍스트에 포함시키는 방식입니다. 세 번째로 "컨텍스트 격리"를 통해 작업을 독립적인 스레드로 분할하여 처리하는 방법을 다룹니다.

네 번째는 "컨텍스트 가지치기"로 불필요한 내용을 제거하는 기법이며, 다섯 번째는 "컨텍스트 요약"을 통해 기존 정보를 압축하는 방법입니다. 마지막으로 "컨텍스트 오프로딩"을 활용해 일부 정보를 외부 도구에 저장하는 전략을 설명합니다.

컨텍스트 윈도우가 확장될수록 정보 관리의 중요성이 더욱 커지고 있습니다. 이러한 방법론들을 적절히 활용하면 AI 에이전트의 성능과 효율성을 현저히 향상시킬 수 있습니다


AI 시대의 디자인 리더십: 늦기 전에 주도권을 잡아라

AI가 디자인 업계를 급속도로 재편하고 있는 지금, 기존 디자인 업무의 상당 부분이 자동화되거나 비전문가도 수행 가능한 영역으로 전환되고 있습니다. 마치 스마트폰이 기존 카메라 시장을 뒤흔든 것처럼, AI는 디자인 생태계 전반에 근본적인 변화를 가져오고 있습니다.

디자인 리더들에게는 지금이 결정적인 순간입니다. 변화의 파도에 휩쓸리기보다는 능동적으로 변화를 주도해야 하는 시점에 와 있습니다. 이는 단순히 새로운 툴을 도입하는 차원을 넘어서, 팀의 역할과 프로세스를 근본적으로 재정의하는 작업을 의미합니다.

미래의 디자이너는 단순한 실행자에서 벗어나 전략적 사고를 갖춘 시스템 아키텍트로 진화해야 합니다. 픽셀을 다루는 기술자가 아닌, 비즈니스 전략과 기술 구현 사이의 다리 역할을 하는 전문가가 되어야 하는 것입니다. 적응하고 주도하는 자만이 AI 시대에서도 디자인의 본질적 가치를 지켜낼 수 있습니다. 변화를 두려워하기보다는 기회로 받아들이는 리더십이 그 어느 때보다 중요한 시점입니다.



LLM이 성인 산업을 최적화하고 있다

최근 OnlyFans 등 플랫폼의 부상으로 성인 콘텐츠 크리에이터들이 대본 작성, 편집, 마케팅, 팬 상호작용 등 대량의 업무를 독립적으로 처리해야 하는 상황에 직면했습니다. 많은 크리에이터들이 AI 챗봇(ChatGPT와 성인 산업 전용 GPTease 등)을 활용해 자동 응답 생성, 창작 대본, 가격 책정 제안 등의 업무를 최적화하여 일상적인 부담을 줄이고 효율성을 높이기 시작했습니다. 다만 일부 크리에이터들은 AI가 고객과의 진정한 상호작용에 영향을 미칠 수 있다고 우려하며, 심지어 AI가 고객층의 경제적 영향에 미칠 영향을 걱정하기도 합니다.




주요 연구



Chai-2: 제로샷 항체 발견

Chai Discovery가 Chai-2를 출시했습니다. AI에게 물어보니 분자 설계 분야에서 획기적인 기술로, 제로샷 항체 발견을 실현하고 효율성을 대폭 향상시켰다고 합니다. 전통적인 항체 약물 발견과 최적화는 통상 수개월에서 수년이 걸리는 반면, Chai-2는 2주 내에 분자 생성, 합성, 특성화를 완료하여 약물 연구개발 프로세스를 대폭 가속화합니다.

Chai-2는 분자 설계 분야의 중대한 돌파구로, 24웰 플레이트에서 제로샷 항체 발견을 실현하며, 성능이 이전 최고 수준 기술(SOTA)을 100배 이상 초과합니다.

50개 타겟으로 Chai-2를 테스트하고 실험실에서 설계 분자를 테스트한 결과, 히트율이 15%를 초과했습니다.

전체 프로세스는 분자 생성, 합성, 특성화를 포함하여 단 2주만 소요되며, 반복 최적화나 고처리량 실험 스크리닝이 필요하지 않습니다.

Chai-2의 핵심은 멀티모달 생성 아키텍처로, 전체 원자 구조 예측과 생성 모델링을 결합하여 새롭고 특이성이 강한 결합 분자(에피토프 특이적 결합체)를 창조할 수 있습니다.


VINCIE: 비디오 컨텍스트 이미지 편집 해제

ByteDance가 컨텍스트 연속 이미지 편집을 지원하는 모델 VINCIE-3B를 오픈소스로 공개했습니다. 이 모델은 일련의 텍스트 설명과 이전에 생성된 이미지를 바탕으로 이미지를 지능적으로 수정할 수 있습니다.

훈련 방법이 매우 흥미롭습니다:

전통적인 방법은 일반적으로 세분화, 복원 등 전문가 모델을 사용해 훈련 데이터를 생성해야 하는 반면, VINCIE-3B는 비디오에서 직접 학습하여 자동으로 비디오를 멀티모달(텍스트+이미지) 시퀀스로 전환하여 훈련합니다.

단일 이미지 편집 외에도 여러 개념을 조합하고 심지어 스토리가 있는 일련의 이미지를 생성할 수 있습니다.


소형 언어 모델이 지능형 에이전트 AI의 미래다

대규모 언어 모델(LLM)이 광범위한 작업에서 인간과 유사한 성능을 보여주며 찬사를 받고 있으며, 범용 대화 능력으로 인해 중요시되고 있습니다. 그러나 지능형 에이전트 AI 시스템의 부상으로 언어 모델이 소수의 전문 작업을 반복적으로 수행하며 변화가 적은 대량의 애플리케이션이 등장하고 있습니다.

여기서 저자는 소형 언어 모델(SLM)이 많은 지능형 에이전트 시스템의 호출에서 충분한 능력을 갖추고 있으며, 본질적으로 더 적합하고 필연적으로 더 경제적이므로 지능형 에이전트 AI의 미래라는 관점을 제시합니다. 저자의 논증은 SLM의 현재 능력 수준, 지능형 에이전트 시스템의 일반적인 아키텍처, 언어 모델 배포의 경제성에 기반합니다. 저자는 또한 범용 대화 능력이 중요한 상황에서 이질적인 지능형 에이전트 시스템(즉, 여러 다른 모델을 호출하는 에이전트)이 자연스러운 선택이라고 주장합니다. 지능형 에이전트 시스템에서 SLM 채택의 잠재적 장벽에 대해 논의하고 일반적인 LLM에서 SLM 에이전트로의 전환 알고리즘을 개략적으로 제시합니다.


AI4Research: 과학 연구에서의 인공지능 종합 리뷰

최근 인공지능(AI)이 현저한 발전을 이뤘으며, 특히 OpenAI-o1과 DeepSeek-R1 같은 대규모 언어 모델(LLM)이 논리적 추론과 실험 코딩 등 복잡한 영역에서 뛰어난 능력을 보여주고 있습니다. 이러한 진전에 힘입어 수많은 연구가 혁신 프로세스에서 AI의 활용을 탐구하고 있으며, 특히 과학 연구 맥락에서의 활용에 주목하고 있습니다. 이러한 AI 기술은 주로 여러 과학 분야에서 연구 프로세스를 자율적으로 수행할 수 있는 시스템 개발을 목표로 합니다. 상당한 진전에도 불구하고 과학연구용 AI(AI4Research)에 대한 종합적인 리뷰는 여전히 부족한 상황으로, 이는 해당 분야에 대한 이해를 제한하고 추가 발전을 저해하고 있습니다. 이러한 공백을 메우기 위해 저자는 포괄적인 리뷰를 제시하고 AI4Research에 대한 통합된 관점을 제공합니다. 구체적으로 연구의 주요 기여는 다음과 같습니다: (1) 체계적 분류법: 먼저 AI4Research의 5대 주류 작업을 구분하는 체계적 분류법을 도입합니다. (2) 새로운 프론티어: 그 다음 핵심 연구 공백을 식별하고 유망한 미래 방향을 강조하며, 자동화된 실험의 엄밀성과 확장성, 그리고 사회적 영향에 중점을 둡니다. (3) 풍부한 애플리케이션과 리소스: 마지막으로 관련 다학제 애플리케이션, 데이터 코퍼스, 도구를 포함한 대량의 리소스를 종합했습니다. 이 연구가 연구 커뮤니티에 이러한 리소스에 대한 빠른 접근을 제공하고 AI4Research 분야의 혁신적 돌파구를 영감을 주길 바랍니다.


ARAG: 개인화 추천을 위한 에이전트 검색 증강 생성

검색 증강 생성(RAG)이 외부 컨텍스트를 대규모 언어 모델 프롬프트에 융합시켜 추천 시스템을 향상시킬 수 있는 잠재력을 보여주고 있습니다. 그러나 기존 RAG 기반 방법들은 일반적으로 정적 검색 휴리스틱에 의존하여 동적 추천 시나리오에서 미묘한 사용자 선호를 포착하기 어렵습니다. 본 연구에서는 개인화 추천을 위한 지능형 검색 증강 생성 프레임워크인 ARAG를 제안하며, 이는 멀티 에이전트 협업 메커니즘을 RAG 프로세스에 통합합니다. 사용자의 장기적 및 세션 행동을 더 잘 이해하기 위해 ARAG는 4개의 LLM 기반 전용 에이전트를 활용합니다: 장기 및 세션 컨텍스트에서 사용자 선호를 요약하는 사용자 이해 에이전트, RAG 검색 후보와 추론된 의도 간의 의미적 일치성을 평가하는 자연어 추론(NLI) 에이전트, NLI 에이전트의 발견을 요약하는 컨텍스트 요약 에이전트, 컨텍스트 매칭도에 따라 추천 순위 리스트를 생성하는 아이템 순위 에이전트. 저자는 3개 데이터셋에서 ARAG를 평가했습니다. 실험 결과 ARAG가 표준 RAG와 최신성 기반 베이스라인 방법을 크게 능가하며, NDCG@5에서 최대 42.1%, Hit@5에서 35.5% 향상을 보였습니다. 또한 ARAG 서로 다른 구성요소의 영향을 분석하기 위한 절제 연구도 수행했습니다. 저의 연구 결과는 에이전트 추론을 증강 검색 추천에 통합하는 효과를 강조하며, LLM 기반 개인화를 위한 새로운 방향을 제시합니다.


Mirage: 전 세계 최초의 실시간 생성형 AI UGC 게임 엔진

Mirage는 Dynamics Lab이 출시한 전 세계 최초의 실시간 생성형 AI UGC 게임 엔진으로, 플레이어가 자연어, 키보드 또는 게임패드 입력을 통해 게임 세계를 동적으로 생성하고 수정할 수 있으며, 즉시, 지속적, 상호작용적인 게임플레이를 실현합니다. 기존 AI 게임(AI Doom, Genie, AI Minecraft, AI Quake II 등)과 비교하여 Mirage는 언제든지 텍스트로 콘텐츠를 생성할 수 있고, 더 사실적인 화면과 더 긴 플레이 시간을 지원합니다. 플레이어는 게임 플레이 중에 실시간으로 게임 경험을 창조, 확장, 변경할 수 있어 전통적인 사전 설정 레벨과 스크립트의 한계를 깨뜨리고 진정한 "UGC 2.0"을 실현합니다. 즉, 누구나 한 문장으로 독특하고 동적이며 사전 설정되지 않은 게임 세계를 생성할 수 있습니다. 현재 두 개의 플레이 가능한 데모가 출시되었습니다: 어반 카오스(GTA 스타일)와 코스탈 드리프트(Forza Horizon 스타일)입니다.

작가의 이전글구글, AI 생태계의 '황금기를 열다'