2602.00454v1 Jan 31, 2026 cs.AI

효율적인 다중 에이전트 토론을 위한 교차 모달 메모리 압축

Cross-Modal Memory Compression for Efficient Multi-Agent Debate

Suiyao Chen
Suiyao Chen
Citations: 152
h-index: 4
Inseok Heo
Inseok Heo
Citations: 0
h-index: 0
Alexander Gutfraind
Alexander Gutfraind
Citations: 0
h-index: 0
Jing Wu
Jing Wu
UIUC
Citations: 349
h-index: 10
Yueqing Sun
Yueqing Sun
Citations: 8
h-index: 1
Tianpei Xie
Tianpei Xie
Citations: 60
h-index: 2
Jingyuan Bao
Jingyuan Bao
Citations: 16
h-index: 1
Yao Xu
Yao Xu
Citations: 506
h-index: 7
Gaoyuan Du
Gaoyuan Du
Citations: 1
h-index: 1
X. Wang
X. Wang
Citations: 252
h-index: 8

다중 에이전트 토론은 추론 품질을 향상시키고 할루시네이션을 줄일 수 있지만, 토론 라운드와 에이전트 수가 늘어남에 따라 컨텍스트가 급격히 증가하는 단점이 있습니다. 전체 텍스트 기록을 유지하면 컨텍스트 제한을 초과하는 토큰 사용이 발생할 수 있고, 빈번한 요약 과정에서 오버헤드와 정보 손실이 가중되기도 합니다. 본 논문에서는 긴 텍스트 토론 기록을 압축된 이미지 표현으로 대체하고, 이를 전용 비전 인코더를 통해 처리하여 후속 라운드에 반영하는 교차 모달 압축 프레임워크인 DebateOCR을 제안합니다. 이 설계는 통상 수만에서 수십만 토큰에 이르는 기록을 압축하여 입력 토큰을 92% 이상 절감하며, 다양한 벤치마크에서 연산 비용을 대폭 낮추고 추론 속도를 향상시킵니다. 나아가 에이전트 간의 다양성이 누락된 정보의 복구를 돕는다는 이론적 관점을 제시합니다. 개별 압축 기록이 세부 사항을 소실할지라도, 여러 에이전트의 압축된 뷰를 통합하면 집합적 표현이 지수적으로 높은 확률로 정보 병목(information bottleneck)에 근접할 수 있음을 보여줍니다.

Original Abstract

Multi-agent debate can improve reasoning quality and reduce hallucinations, but it incurs rapidly growing context as debate rounds and agent count increase. Retaining full textual histories leads to token usage that can exceed context limits and often requires repeated summarization, adding overhead and compounding information loss. We introduce DebateOCR, a cross-modal compression framework that replaces long textual debate traces with compact image representations, which are then consumed through a dedicated vision encoder to condition subsequent rounds. This design compresses histories that commonly span tens to hundreds of thousands of tokens, cutting input tokens by more than 92% and yielding substantially lower compute cost and faster inference across multiple benchmarks. We further provide a theoretical perspective showing that diversity across agents supports recovery of omitted information: although any single compressed history may discard details, aggregating multiple agents' compressed views allows the collective representation to approach the information bottleneck with exponentially high probability.

3 Citations
0 Influential
5 Altmetric
28.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!