시각적 다중 에이전트 시스템을 위한 이중 잠재 메모리
Dual Latent Memory for Visual Multi-agent System
시각적 다중 에이전트 시스템(VMAS)은 에이전트 간의 협업을 통해 종합적인 능력을 향상시킬 것으로 기대되지만, 실증적 증거들은 직관에 반하는 "스케일링 장벽(scaling wall)"을 보여줍니다. 즉, 에이전트의 턴(turn)이 증가할수록 토큰 비용은 기하급수적으로 늘어나는 반면 성능은 오히려 저하되는 현상이 발생합니다. 우리는 이러한 실패의 원인을 텍스트 중심 통신에 내재된 정보 병목 현상, 특히 지각 및 사고의 궤적을 이산적인 자연어로 변환하는 과정에서 필연적으로 발생하는 의미 손실 때문이라고 분석합니다. 이를 해결하기 위해, 우리는 이중 잠재 메모리를 통해 에이전트 간 협업을 가능하게 하는 새로운 모델 불가지론적(model-agnostic) 프레임워크인 L^{2}-VMAS를 제안합니다. 나아가 우리는 이중 잠재 메모리를 동적으로 합성하면서 지각과 사고 과정을 분리합니다. 또한 수동적인 정보 전송을 효율적인 온디맨드(on-demand) 메모리 접근으로 대체하는 엔트로피 기반의 능동적 트리거링을 도입합니다. 다양한 백본, 크기 및 다중 에이전트 구조에 대한 광범위한 실험 결과, 우리의 방법은 뛰어난 확장성으로 "스케일링 장벽"을 효과적으로 극복하였으며, 평균 정확도를 2.7-5.4% 향상시키는 동시에 토큰 사용량을 21.3-44.8% 감소시키는 것으로 나타났습니다. 코드: https://github.com/YU-deep/L2-VMAS.
While Visual Multi-Agent Systems (VMAS) promise to enhance comprehensive abilities through inter-agent collaboration, empirical evidence reveals a counter-intuitive "scaling wall": increasing agent turns often degrades performance while exponentially inflating token costs. We attribute this failure to the information bottleneck inherent in text-centric communication, where converting perceptual and thinking trajectories into discrete natural language inevitably induces semantic loss. To this end, we propose L$^{2}$-VMAS, a novel model-agnostic framework that enables inter-agent collaboration with dual latent memories. Furthermore, we decouple the perception and thinking while dynamically synthesizing dual latent memories. Additionally, we introduce an entropy-driven proactive triggering that replaces passive information transmission with efficient, on-demand memory access. Extensive experiments among backbones, sizes, and multi-agent structures demonstrate that our method effectively breaks the "scaling wall" with superb scalability, improving average accuracy by 2.7-5.4% while reducing token usage by 21.3-44.8%. Codes: https://github.com/YU-deep/L2-VMAS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.