오늘은 구글 클라우드 AI 연구팀의 논문 Deep Researcher with Test-Time Diffusion (TTD-DR)을 쉽게 알아볼게요. 이 논문은 AI가 마치 연구실에서 논문을 뒤적이는 연구자처럼, 복잡한 연구 보고서를 똑똑하게 작성하도록 만드는 새로운 프레임워크를 소개합니다. 인간의 연구 과정을 모방해 AI를 한 단계 업그레이드한 TTD-DR의 세계로 함께 가보실까요?
TTD-DR은 LLM을 기반으로 한 Deep Research (DR) 에이전트가 복잡한 연구 보고서를 효율적이고 정확하게 작성하도록 돕는 새로운 프레임워크입니다. 이 AI는 인간이 연구할 때 사용하는 계획 초고 작성 검색 수정의 반복적인 과정을 그대로 따라갑니다.
비유하자면, TTD-DR은 흐릿한 스케치를 점점 선명한 그림으로 만드는 확산 모델(diffusion model)처럼 작동해요. 처음에는 대략적인 초고(‘노이즈’가 낀 상태)를 만들고, 이를 점진적으로 정제해 고품질의 보고서로 완성합니다. 예를 들어, “미래의 전기차 시장 트렌드” 같은 복잡한 질문에 대해, TTD-DR은 최신 데이터와 통찰을 반영한 깊이 있는 보고서를 작성할 수 있습니다.
사람이 연구 보고서를 쓸 때, 처음부터 완벽한 문서를 뚝딱 만들어내는 경우는 드물죠. 보통은 이런 과정을 거칩니다:
• 계획 세우기: 연구 주제와 구조를 큰 그림으로 설계
• 초고 작성: 대략적인 초안을 작성해 뼈대 생성
• 검색과 수정: 추가 정보를 찾아 초안을 다듬고, 잘못된 부분을 고침
TTD-DR은 이 과정을 AI에 적용했어요:
• 초고 작성: 연구의 뼈대가 되는 초안을 먼저 만듭니다. 이 초안은 완벽하지 않고 약간 ‘흐릿한’ 상태로 시작해요.
• 검색과 디노이징(Denoising): 외부 정보를 검색해 초고를 점점 정교하게 만듭니다. 마치 흐린 사진을 선명하게 만드는 과정 같죠.
• 셀프-에볼루션(Self-Evolution): AI가 자신의 작업(계획, 질문, 답변 등)을 스스로 평가하고 개선해요. 이는 연구자가 초안을 읽으며 “여기 좀 더 보강해야겠네!”라고 생각하는 것과 비슷합니다.
“AI가 의료 분야에서 어떻게 활용되는가?”라는 질문을 받으면, TTD-DR은 먼저 대략적인 보고서 초안을 작성한 뒤, 최신 의료 AI 연구나 사례를 검색해 초안을 점점 더 풍부하게 만듭니다.
TTD-DR의 강력함은 두 가지 핵심 메커니즘에서 나옵니다:
(1) 검색과 함께하는 디노이징 (Denoising with Retrieval)
• 초고를 기반으로 AI가 “이 부분은 더 알아봐야겠어!” 하며 검색 질문을 생성합니다.
• 검색 결과를 초고에 바로 반영해 수정하며, 이 과정을 반복해 보고서를 점점 더 정확하고 풍부하게 만듭니다.
• 비유: 논문을 쓰다가 “이 통계는 정확한가?” 하며 구글링해 자료를 추가하는 과정과 비슷해요.
금융 시장 예측 보고서를 작성할 때, TTD-DR은 초고에서 언급된 “2025년 금리 전망”을 확인하고, 최신 경제 보고서를 검색해 데이터를 보강합니다.
(2) 셀프-에볼루션 (Self-Evolution)
• AI는 각 단계(계획, 질문 생성, 답변 생성 등)에서 여러 답변을 만들어보고, 가장 유용한 것을 선택하거나 합칩니다.
• 예를 들어, 검색 질문을 만들 때 여러 버전을 생성한 뒤, 어떤 질문이 더 깊이 있는 정보를 가져올지 평가해요. 이는 친구들과 브레인스토밍하며 아이디어를 다듬는 과정과 같습니다.
“친환경 기술의 최신 동향”을 조사할 때, TTD-DR은 “친환경 에너지”, “탄소 중립 기술” 등 다양한 질문을 만들어 비교한 뒤, 가장 유익한 정보를 선택해 보고서에 반영합니다.
이 두 메커니즘은 TTD-DR이 단순히 정보를 쌓는 데 그치지 않고, 정보를 똑똑하게 정제하고 연결하도록 만듭니다.
기존 연구 에이전트들은 주로 선형적인 방식(계획->검색->작성)을 따랐어요. 하지만 이는 종종 중요한 맥락을 놓치거나, 정보가 뒤섞여 일관성이 떨어졌죠. TTD-DR은 초고 중심(draft-centric) 접근법으로 차별화됩니다:
• 초고 갱신: 검색한 정보를 즉시 초고에 반영해 연구의 일관성을 유지합니다.
• 정보 손실 최소화: 중간에 중요한 정보를 잊거나 놓치는 일을 줄여요.
• 다양한 분야 적용: 금융, 생명공학, 기술, 레크리에이션 등 복잡한 질문에 답할 수 있습니다.
기존 에이전트가 보고서의 각 섹션(예: “시장 전망”, “기술 동향”)을 따로 검색했다면, TTD-DR은 전체 보고서의 흐름을 고려하며 정보를 통합적으로 검색하고 수정합니다. 이는 책을 챕터 단위로 따로 쓰는 대신, 전체적인 스토리를 유지하며 쓰는 것과 같아요.
논문에서는 TTD-DR을 다양한 벤치마크에서 테스트했어요. 논문에 따르면 결과는 정말 인상적입니다.
• LongForm Research & DeepConsult: 복잡한 연구 보고서 작성에서 OpenAI의 Deep Research를 각각 69.1%와 74.5%의 승률로 압도했어요. 이는 TTD-DR의 보고서가 더 도움이 되고 포괄적임을 보여줍니다.
• HLE-Search & GAIA: 여러 단계의 검색과 추론이 필요한 질문에서 OpenAI보다 4.8%~7.7% 앞섰습니다. 예를 들어, “특정 약물의 최신 임상 시험 결과” 같은 질문에 더 정확한 답을 제공했어요.
• 효율성: TTD-DR은 최대 20번의 검색/수정 단계만으로도 경쟁 에이전트보다 더 나은 성과를 냈습니다. 이는 같은 시간에 더 좋은 논문을 쓰는 연구자와 같죠.
TTD-DR은 검색 질문을 더 다양하게 생성해 정보의 깊이를 높이고, 초고를 일찍부터 정제해 최종 보고서에 필요한 정보를 빠르게 반영합니다. 이는 연구 과정에서 “중요한 발견”을 놓치지 않도록 돕습니다.
TTD-DR은 뛰어난 성과를 냈지만, 여느 논문과 다름 없이, 몇 가지 한계도 있어요.
• 검색 도구 의존: 현재는 주로 검색 도구에 의존하며, 웹 브라우징이나 코딩 같은 추가 도구는 포함하지 않았습니다.
• 학습 미적용: 에이전트를 더 똑똑하게 만드는 학습(트레이닝)은 아직 탐구하지 않았습니다.
그래도, 앞으로 더 발전시킬만 한 점도 남아 있어요.
• 다양한 도구 통합: 코딩, 데이터 분석, 심지어 실험 설계까지 지원하는 연구 비서로 발전할 수 있어요.
• 실시간 연구: 최신 데이터를 실시간으로 반영해 더욱 동적인 보고서를 작성할 가능성이 있습니다.
Deep Researcher with Test-Time Diffusion은 AI가 인간처럼 연구하도록 만드는 획기적인 시도입니다. 초고 중심의 반복적 정제와 셀프-에볼루션은 AI 연구 에이전트를 한 단계 끌어올렸어요. 금융, 생명공학, 기술 등 다양한 분야에서 복잡한 질문에 답하며, TTD-DR은 진정한 연구 동반자로 자리 잡고 있습니다.
이 논문을 읽으며 느낀 점은, TTD-DR이 단순한 AI가 아니라 인간의 창의성과 논리를 닮으려는 노력의 결정체라는 거예요. 사실 이런 방식의 모델을 접할 일이 많이 없어서, 실제로 어떻게 동작하는지 보고 싶은 마음이 모락모락 피어오르네요. 여러분도 TTD-DR 같은 AI와 함께 복잡한 연구를 탐험하며 새로운 통찰을 발견하고 싶지 않나요?