MATA: 멀티 에이전트 시각적 추론을 위한 학습 가능한 계층적 오토마타 시스템
MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning
최근 비전-언어 모델들은 강력한 지각 능력을 갖추고 있지만, 그들의 암묵적 추론 과정은 설명하기 어렵고 복잡한 질의에 대해 환각을 일으키기 쉽다. 구성적 방법론은 해석 가능성을 개선하지만, 대부분 단일 에이전트나 수작업으로 설계된 파이프라인에 의존하며, 상호 보완적인 에이전트 간의 협력이나 중복되는 에이전트 간의 경쟁 시점을 결정하지 못한다. 우리는 시각적 추론을 위한 계층적 유한 상태 오토마타로 표현되는 멀티 에이전트 시스템인 MATA(Multi-Agent hierarchical Trainable Automaton)를 제안한다. 여기서 최상위 레벨의 전이는 학습 가능한 하이퍼 에이전트에 의해 선택된다. 각 에이전트는 하이퍼 오토마타의 상태에 해당하며, 신뢰할 수 있는 미세 제어를 위해 소규모 규칙 기반 서브 오토마타를 실행한다. 모든 에이전트는 공유 메모리를 읽고 쓰며 투명한 실행 이력을 생성한다. 하이퍼 에이전트의 전이 정책을 지도하기 위해, 우리는 전이 궤적 트리를 구축하고 이를 메모리-다음 상태 쌍으로 변환하여 지도 미세 조정(SFT)을 위한 MATA-SFT-90K 데이터셋을 형성했다. 전이 정책으로서 미세 조정된 LLM은 쿼리와 에이전트의 역량을 이해하며, 작업을 해결하기 위해 효율적으로 최적의 에이전트를 선택할 수 있다. 다수의 시각적 추론 벤치마크에서 MATA는 단일형 및 구성적 베이스라인과 비교하여 최고 수준(SOTA)의 결과를 달성했다. 코드와 데이터셋은 https://github.com/ControlNet/MATA 에서 확인할 수 있다.
Recent vision-language models have strong perceptual ability but their implicit reasoning is hard to explain and easily generates hallucinations on complex queries. Compositional methods improve interpretability, but most rely on a single agent or hand-crafted pipeline and cannot decide when to collaborate across complementary agents or compete among overlapping ones. We introduce MATA (Multi-Agent hierarchical Trainable Automaton), a multi-agent system presented as a hierarchical finite-state automaton for visual reasoning whose top-level transitions are chosen by a trainable hyper agent. Each agent corresponds to a state in the hyper automaton, and runs a small rule-based sub-automaton for reliable micro-control. All agents read and write a shared memory, yielding transparent execution history. To supervise the hyper agent's transition policy, we build transition-trajectory trees and transform to memory-to-next-state pairs, forming the MATA-SFT-90K dataset for supervised finetuning (SFT). The finetuned LLM as the transition policy understands the query and the capacity of agents, and it can efficiently choose the optimal agent to solve the task. Across multiple visual reasoning benchmarks, MATA achieves the state-of-the-art results compared with monolithic and compositional baselines. The code and dataset are available at https://github.com/ControlNet/MATA.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.