DeepPresenter: 환경 기반의 사고를 통한 능동적인 프레젠테이션 생성
DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation
프레젠테이션 생성은 심층적인 내용 연구, 일관성 있는 시각 디자인, 그리고 관찰에 기반한 반복적인 개선을 필요로 합니다. 그러나 기존의 프레젠테이션 에이전트는 종종 미리 정의된 워크플로우와 고정된 템플릿에 의존합니다. 이러한 문제를 해결하기 위해, 우리는 다양한 사용자 의도에 적응하고, 효과적인 피드백 기반의 개선을 가능하게 하며, 미리 정의된 파이프라인을 넘어서는 일반화가 가능한 에이전트 기반 프레임워크인 DeepPresenter를 제시합니다. 특히, DeepPresenter는 자율적으로 계획하고, 렌더링하고, 중간 슬라이드 아티팩트를 수정하여 환경적 관찰을 통해 장기적인 개선을 지원합니다. 또한, 저희는 내부 신호(예: 추론 기록)에 대한 자기 성찰에 의존하는 대신, 시각적 아티팩트 상태(예: 렌더링된 슬라이드)를 기반으로 환경 기반의 성찰을 수행하여, 시스템이 실행 중에 프레젠테이션 관련 문제를 식별하고 수정할 수 있도록 합니다. 다양한 프레젠테이션 생성 시나리오를 포괄하는 평가 세트에 대한 결과는 DeepPresenter가 최첨단 성능을 달성한다는 것을 보여줍니다. 또한, 미세 조정된 9B 모델은 훨씬 낮은 비용으로도 높은 경쟁력을 유지합니다. 저희 프로젝트는 다음 링크에서 확인하실 수 있습니다: https://github.com/icip-cas/PPTAgent
Presentation generation requires deep content research, coherent visual design, and iterative refinement based on observation. However, existing presentation agents often rely on predefined workflows and fixed templates. To address this, we present DeepPresenter, an agentic framework that adapts to diverse user intents, enables effective feedback-driven refinement, and generalizes beyond a scripted pipeline. Specifically, DeepPresenter autonomously plans, renders, and revises intermediate slide artifacts to support long-horizon refinement with environmental observations. Furthermore, rather than relying on self-reflection over internal signals (e.g., reasoning traces), our environment-grounded reflection conditions the generation process on perceptual artifact states (e.g., rendered slides), enabling the system to identify and correct presentation-specific issues during execution. Results on the evaluation set covering diverse presentation-generation scenarios show that DeepPresenter achieves state-of-the-art performance, and the fine-tuned 9B model remains highly competitive at substantially lower cost. Our project is available at: https://github.com/icip-cas/PPTAgent
AI Analysis
Korean Summary
Key Innovations
- 연구자(Researcher)와 발표자(Presenter) 특화 에이전트 간의 역할 분담을 통한 이중 에이전트 협력 구조(Dual-Agent Collaboration)
- 내부 추론 신호가 아닌 실제 렌더링된 결과물(픽셀 이미지 등)을 관찰하여 요소 겹침이나 대비 부족 등의 시각적 오류를 수정하는 환경 기반 성찰(Environment-Grounded Reflection)
- 에이전트가 자신의 오류를 합리화하는 '자기 검증 편향(Self-Verification Bias)'을 완화하기 위해, 궤적 생성 과정에서 독립적인 외부 평가를 도입한 외부 검증(Extrinsic Verification) 기법
- 고품질의 검증 유도 궤적을 통해 미세 조정(Fine-tuning)하여, 오픈소스 기준을 크게 상회하고 강력한 상용 모델과 견줄 수 있는 효율적인 소형화 모델 DeepPresenter-9B 구축
Learning & Inference Impact
학습 과정(Learning)에서는 다중 에이전트의 궤적(Trajectory)을 합성할 때 발생하는 자기 검증 편향을 방지하기 위해 '외부 검증(Extrinsic Verification)'을 도입했습니다. 이를 통해 독립적인 비평 모델이 결함을 찾아내고 수정 지시를 내림으로써, 모델이 스스로 오류를 합리화하지 않고 정확한 반성 및 수정 행동 패턴을 증류(Distillation)하여 학습할 수 있게 되었습니다. 추론 과정(Inference)에서는 두 특화 에이전트가 최대 50K 토큰의 컨텍스트 창 내에서 검색, 파일 조작 등 다단계 도구를 활용해 동적으로 계획을 수립합니다. 특히 'inspect' 도구를 호출해 중간 생성된 HTML을 이미지로 변환하여 시각적 피드백을 받음으로써, 텍스트 상태에서는 알 수 없는 렌더링 이후의 결함(예: 텍스트 잘림, 레이아웃 붕괴)을 실시간으로 인지하고 스스로 교정하는 관찰-성찰-수정(Observe-Reflect-Revise) 루프를 수행하여 결과물의 품질을 대폭 향상시킵니다.
Technical Difficulty
Estimated implementation complexity based on methodology.