brunch

AI로 연구자를 발표지옥에서 구해내기

논문만 있으면 10분 프레젠테이션 영상이 뚝딱!

by 미미니

정말 놀라운 새 세상이 되어가나 봅니다. 논문만 있으면 발표 영상이 자동으로 완성되는 시대가 열렸습니다. 싱가포르국립대학교 Show Lab에서 개발한 Paper2Video​ 프로젝트는 연구자들이 논문을 작성한 후 별도로 발표 영상을 제작하느라 보내는 수많은 시간을 획기적으로 줄여주는 기술입니다.


Paper2Video 벤치마크: 최초의 대규모 평가 기준


이 프로젝트는 총 101편의 실제 논문과 그에 대응하는 저자가 직접 제작한 발표 영상, 슬라이드, 목소리 샘플을 수집하여 세계 최초의 벤치마크를 구축했습니다. NeurIPS, CVPR, ACL 등 주요 학회 논문을 중심으로 구성되었으며, 평균 16장 슬라이드와 6분 15초 분량의 영상이 포함되어 있습니다.

무엇보다 중요한 것은 4가지 새로운 평가 지표를 제안했다는 점입니다:

• Meta Similarity: AI가 만든 슬라이드와 자막이 인간 제작물과 얼마나 유사한가

• PresentArena: AI 영상과 인간 영상 중 어느 쪽이 더 나은가 (쌍대 비교)

• PresentQuiz: 영상을 보고 논문 내용을 얼마나 잘 이해했는가 (퀴즈 정답률)

• IP Memory: 영상 후에 논문 제목과 저자를 얼마나 잘 기억하는가

놀라운 결과로, AI가 생성한 영상이 인간보다 10% 높은 퀴즈 정답률(84.2%)을 기록하며, 더 짧은 시간 안에 더 많은 정보를 전달하는 것으로 나타났습니다.


PaperTalker: 논문에서 영상까지, 단 한 번에


PaperTalker는 논문 PDF, 저자 사진, 10초 분량의 목소리만 있으면 완성도 높은 발표 영상을 자동 생성하는 멀티에이전트 시스템입니다. 주요 구성은 다음과 같습니다.

1. 슬라이드 빌더: LaTeX Beamer 코드를 생성해 학술적이고 깔끔한 슬라이드를 만듭니다. 특히 Tree Search Visual Choice라는 기술로 글자 크기, 이미지 배치 등을 자동 조정해 레이아웃 오류를 원천 제거합니다.

2. 자막 빌더: 슬라이드별로 자연스러운 발표 대본과 문장 단위 커서 위치를 생성합니다.

3. 커서 빌더: 발표 내용에 맞춰 커서가 정확히 움직이도록 시·공간 정렬을 수행합니다. 실험 결과, 커서가 있을 때 시청자의 이해도가 6배 이상 향상되었습니다.

4. 토커 빌더: 저자의 목소리와 얼굴을 기반으로 자연스러운 AI 아바타를 만들어 발표하게 합니다. 슬라이드별 병렬 처리를 통해 제작 시간을 6배 단축했습니다.


Tree Search Visual Choice가 뭔가요?


Tree Search Visual Choice(TSVC)는 PaperTalker의 슬라이드 빌더에서 레이아웃 오류를 자동으로 수정하는 핵심 모듈입니다. 기존 LLM이나 VLM은 숫자 파라미터(글자 크기, 이미지 배율 등)를 조금씩 조정하며 레이아웃을 개선하려 하지만, 시각적 피드백이 없어 미세한 변화에 둔감하고 반복 수정에도 오버플로우(내용이 슬라이드 밖으로 삐져나감)가 해결되지 않는 문제가 있었습니다.

TSVC는 이 한계를 극복하기 위해 후보 생성-이미지 렌더링-VLM 판단이라는 3단계 시각-선택 기반 탐색 방식을 도입했습니다. 먼저, 컴파일 경고를 통해 오버플로우가 발생한 슬라이드를 감지하면, 해당 슬라이드의 유형에 따라 규칙 기반으로 여러 레이아웃 후보를 생성합니다. 텍스트 중심 슬라이드라면 글자 크기를 12pt, 11pt, 10pt, 9pt처럼 단계적으로 줄이고, 이미지 포함 슬라이드라면 이미지 배율을 1.25, 1.0, 0.75, 0.5, 0.25로 변화시킨 뒤 각 배율마다 글자 크기도 추가로 조정해 총 4~5개의 후보를 만듭니다.

이 후보들은 모두 LaTeX Beamer 코드로 작성되어 즉시 PDF 이미지로 렌더링 되며, 이렇게 생성된 이미지들을 2×2 격자 형태로 나란히 배치해 VLM(시각-언어 모델)에게 보여줍니다. VLM은 ‘오버플로우 여부 내용 커버리지(빈 공간 최소화)’ 순으로 평가 기준을 적용해 최적의 레이아웃을 선택합니다. 구체적으로, 내용이 잘리거나 겹치는 후보는 즉시 배제하고, 남은 후보 중 가장 많은 내용을 보여주면서 여백이 적은 것을 최종 선택합니다.

이 방식은 LLM의 텍스트 기반 추론과 VLM의 시각적 판단을 분리해 안정적으로 레이아웃 문제를 해결하며, 실험 결과 오버플로우를 완전히 제거하고 인간 수준의 깔끔한 슬라이드 디자인을 달성했습니다. 무엇보다 Beamer의 선언적 구조 덕분에 파라미터 하나만 바꿔도 전체 레이아웃이 자동 재배치되므로, 후보 생성과 렌더링이 매우 효율적으로 이루어집니다.


왜 커서 그라운딩이 필요한가요?


커서 그라운딩(Cursor Grounding)은 PaperTalker의 커서 빌더(Cursor Builder) 모듈에서 발표 영상 속 커서가 말하는 내용과 정확히 일치하는 위치에, 정확한 타이밍에 나타나도록 만드는 핵심 기술입니다. 이는 단순한 장식이 아니라, 시청자의 시선 유도, 핵심 내용 강조, 이해도 향상을 위한 필수 요소로, 실험에서 커서 유무에 따라 VLM의 내용 이해도가 6배 이상 차이 나는 것으로 입증되었습니다.

인간 발표자는 자연스럽게 레이저 포인터나 마우스 커서를 사용해 “여기 보세요”라고 말하며 슬라이드의 특정 부분을 가리킵니다.

하지만 AI가 영상을 만들 때는 이 공간적·시간적 정렬이 자동으로 이루어지지 않아, 커서가 엉뚱한 곳에 있거나, 말이 끝난 후에야 움직이는 문제가 발생합니다. 커서 그라운딩은 “언제, 어디를 가리켜야 하는가?”를 AI가 정확히 계산하는 기술입니다.

커서 그라운딩은 공간 정렬(이 문장은 슬라이드 어디를 가리켜야 하나?)과 시간 정렬(이 문장은 언제 말해지나?)을 순차적으로 수행합니다.

말하는 순간, 정확한 위치에 커서가 나타나 말(자막/음성) + 시각(슬라이드) + 행동(커서)이 완벽하게 동기화가 되는 거죠! 이 기술 덕분에 PaperTalker는 단순히 “읽어주는” 영상이 아니라, 진짜 발표자처럼 청중을 이끄는 전문적인 학술 프레젠테이션을 생성합니다.


결론: 연구자의 새로운 생산성 도구


Paper2Video와 PaperTalker는 단순한 영상 생성 도구를 넘어, 연구 결과의 효과적인 전달과 학술적 영향력 확대를 돕는 강력한 도구입니다. 논문을 작성하는 데 집중할 수 있게 하고, 발표 영상 제작은 AI에게 맡기는 바로 그런 미래를 현실로 만들었습니다.

고맙게도 오픈소스 공개(https://github.com/showlab/Paper2Video​)해 주었고요.​ 데이터셋, 코드, 데모 영상 모두 무료로 사용 가능합니다!

이 기술은 연구자라면 누구나 한 번쯤 꿈꿔온 “논문만 쓰면 나머지는 자동으로”라는 꿈을 실현하는 첫걸음입니다.

keyword
매거진의 이전글효율적 컨텍스트가 모델에 미치는 영향