2602.22839v1 Feb 26, 2026 cs.AI

DeepPresenter: 환경 기반의 사고를 통한 능동적인 프레젠테이션 생성

DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation

Haolin Zheng
Haolin Zheng
Citations: 24
h-index: 3
Guozhao Mo
Guozhao Mo
Citations: 135
h-index: 6
Xinru Yan
Xinru Yan
Citations: 11
h-index: 2
Qianhao Yuan
Qianhao Yuan
Citations: 66
h-index: 5
Wenkai Zhang
Wenkai Zhang
Citations: 66
h-index: 3
Xuanang Chen
Xuanang Chen
University of Chinese Academy of Sciences
Citations: 400
h-index: 11
Yaojie Lu
Yaojie Lu
Chinese Information Processing Laboratory, Institute of Software, Chinese Academy of Sciences
Citations: 3,067
h-index: 25
Hongyu Lin
Hongyu Lin
Citations: 4,172
h-index: 29
Xianpei Han
Xianpei Han
Citations: 4,428
h-index: 29
Le Sun
Le Sun
Citations: 96
h-index: 4

프레젠테이션 생성은 심층적인 내용 연구, 일관성 있는 시각 디자인, 그리고 관찰에 기반한 반복적인 개선을 필요로 합니다. 그러나 기존의 프레젠테이션 에이전트는 종종 미리 정의된 워크플로우와 고정된 템플릿에 의존합니다. 이러한 문제를 해결하기 위해, 우리는 다양한 사용자 의도에 적응하고, 효과적인 피드백 기반의 개선을 가능하게 하며, 미리 정의된 파이프라인을 넘어서는 일반화가 가능한 에이전트 기반 프레임워크인 DeepPresenter를 제시합니다. 특히, DeepPresenter는 자율적으로 계획하고, 렌더링하고, 중간 슬라이드 아티팩트를 수정하여 환경적 관찰을 통해 장기적인 개선을 지원합니다. 또한, 저희는 내부 신호(예: 추론 기록)에 대한 자기 성찰에 의존하는 대신, 시각적 아티팩트 상태(예: 렌더링된 슬라이드)를 기반으로 환경 기반의 성찰을 수행하여, 시스템이 실행 중에 프레젠테이션 관련 문제를 식별하고 수정할 수 있도록 합니다. 다양한 프레젠테이션 생성 시나리오를 포괄하는 평가 세트에 대한 결과는 DeepPresenter가 최첨단 성능을 달성한다는 것을 보여줍니다. 또한, 미세 조정된 9B 모델은 훨씬 낮은 비용으로도 높은 경쟁력을 유지합니다. 저희 프로젝트는 다음 링크에서 확인하실 수 있습니다: https://github.com/icip-cas/PPTAgent

Original Abstract

Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent

6 Citations
1 Influential
74.5 Altmetric
380.5 Score

AI Analysis

Korean Summary

이 논문은 사용자 의도에 맞춰 프레젠테이션을 자동 생성하는 에이전트 프레임워크인 DEEPPRESENTER를 제안합니다. 이 시스템은 자료 조사 및 초안 작성을 담당하는 '연구자(Researcher)' 에이전트와 시각적 슬라이드 디자인을 담당하는 '발표자(Presenter)' 에이전트가 협력하는 이중 구조로 이루어져 있습니다. 특히, 내부 코드나 텍스트에만 의존하지 않고 실제 렌더링된 슬라이드 이미지를 직접 관찰하여 시각적 오류를 파악하고 수정하는 '환경 기반 성찰(Environment-Grounded Reflection)' 메커니즘을 도입해 기존 자동 생성 시스템의 한계를 극복했습니다. 또한, 외부 비평 모델을 활용해 자기 검증 편향을 줄인 고품질 데이터로 미세 조정된 DeepPresenter-9B 모델을 개발하여, 상대적으로 낮은 비용으로도 상용 시스템을 능가하는 최첨단 성능과 시각적 다양성을 달성했습니다.

Key Innovations

  • 연구자(Researcher)와 발표자(Presenter) 특화 에이전트 간의 역할 분담을 통한 이중 에이전트 협력 구조(Dual-Agent Collaboration)
  • 내부 추론 신호가 아닌 실제 렌더링된 결과물(픽셀 이미지 등)을 관찰하여 요소 겹침이나 대비 부족 등의 시각적 오류를 수정하는 환경 기반 성찰(Environment-Grounded Reflection)
  • 에이전트가 자신의 오류를 합리화하는 '자기 검증 편향(Self-Verification Bias)'을 완화하기 위해, 궤적 생성 과정에서 독립적인 외부 평가를 도입한 외부 검증(Extrinsic Verification) 기법
  • 고품질의 검증 유도 궤적을 통해 미세 조정(Fine-tuning)하여, 오픈소스 기준을 크게 상회하고 강력한 상용 모델과 견줄 수 있는 효율적인 소형화 모델 DeepPresenter-9B 구축

Learning & Inference Impact

학습 과정(Learning)에서는 다중 에이전트의 궤적(Trajectory)을 합성할 때 발생하는 자기 검증 편향을 방지하기 위해 '외부 검증(Extrinsic Verification)'을 도입했습니다. 이를 통해 독립적인 비평 모델이 결함을 찾아내고 수정 지시를 내림으로써, 모델이 스스로 오류를 합리화하지 않고 정확한 반성 및 수정 행동 패턴을 증류(Distillation)하여 학습할 수 있게 되었습니다. 추론 과정(Inference)에서는 두 특화 에이전트가 최대 50K 토큰의 컨텍스트 창 내에서 검색, 파일 조작 등 다단계 도구를 활용해 동적으로 계획을 수립합니다. 특히 'inspect' 도구를 호출해 중간 생성된 HTML을 이미지로 변환하여 시각적 피드백을 받음으로써, 텍스트 상태에서는 알 수 없는 렌더링 이후의 결함(예: 텍스트 잘림, 레이아웃 붕괴)을 실시간으로 인지하고 스스로 교정하는 관찰-성찰-수정(Observe-Reflect-Revise) 루프를 수행하여 결과물의 품질을 대폭 향상시킵니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!