2604.20136v1 Apr 22, 2026 cs.CV

IMPACT-CYCLE: 계약 기반 다중 에이전트 시스템을 이용한 장편 동영상 의미 기억의 청구 수준 감독 수정

IMPACT-CYCLE: A Contract-Based Multi-Agent System for Claim-Level Supervisory Correction of Long-Video Semantic Memory

Kunyu Peng
Kunyu Peng
Citations: 1,640
h-index: 20
Di Wen
Di Wen
Citations: 94
h-index: 5
David Schneider
David Schneider
Citations: 239
h-index: 7
Yufan Chen
Yufan Chen
Citations: 167
h-index: 7
Junwei Zheng
Junwei Zheng
Karlsruhe Institute of Technology
Citations: 364
h-index: 11
Rainer Stiefelhagen
Rainer Stiefelhagen
Citations: 94
h-index: 5
Weitong Kong
Weitong Kong
Citations: 0
h-index: 0
Zeyun Zhong
Zeyun Zhong
Citations: 152
h-index: 6
A. Jaus
A. Jaus
Citations: 226
h-index: 8
Zdravko Marinov
Zdravko Marinov
Citations: 209
h-index: 7
Ruiping Liu
Ruiping Liu
Citations: 188
h-index: 7
L. Qi
L. Qi
Citations: 2
h-index: 1
Jiale Wei
Jiale Wei
Citations: 26
h-index: 3

장편 동영상 이해 과정에서의 오류 수정은 비용이 매우 많이 듭니다. 기존의 다중 모드 파이프라인은 불투명하고 최종 결과물만을 제공하며, 중간 상태를 보여주지 않아 작업자가 원본 동영상을 다시 확인하고 시간적 논리를 처음부터 다시 구성해야 합니다. 핵심적인 문제는 단순히 생성 품질이 아니라, 작업자의 노력이 각 오류의 범위에 비례하도록 하는 감독 인터페이스의 부재입니다. 본 논문에서는 IMPACT-CYCLE이라는 감독 다중 에이전트 시스템을 제안합니다. 이 시스템은 장편 동영상 이해를 공유된 의미 기억의 반복적인 청구 수준 유지로 재구성합니다. 이 공유 기억은 유형화된 청구, 청구 의존성 그래프, 그리고 출처 기록을 포함하는 구조화되고 버전 관리된 상태입니다. 역할별로 특화된 에이전트들이 명시적인 권한 계약에 따라 운영되며, 검증 과정을 로컬 객체-관계의 정확성, 시간적 일관성, 그리고 전역적인 의미 일관성으로 분해합니다. 수정 사항은 구조적으로 의존적인 청구에만 적용됩니다. 자동화된 증거가 불충분한 경우, 시스템은 감독 기관으로서의 인간 판단 단계로 넘어갑니다. 이 단계에서는 최종적인 수정 권한을 가진 인간이 개입하며, 의존성 폐쇄 재검증을 통해 수정 비용이 오류 범위에 비례하도록 유지합니다. VidOR 데이터셋에 대한 실험 결과, 다운스트림 추론 성능이 크게 향상되었으며 (VQA: 0.71에서 0.79으로), 인간 판단 비용이 4.8배 감소했습니다. 또한, 작업량은 수동 주석 작업보다 훨씬 적습니다. 코드 배포는 https://github.com/MKong17/IMPACT_CYCLE 에서 확인할 수 있습니다.

Original Abstract

Correcting errors in long-video understanding is disproportionately costly: existing multimodal pipelines produce opaque, end-to-end outputs that expose no intermediate state for inspection, forcing annotators to revisit raw video and reconstruct temporal logic from scratch. The core bottleneck is not generation quality alone, but the absence of a supervisory interface through which human effort can be proportional to the scope of each error. We present IMPACT-CYCLE, a supervisory multi-agent system that reformulates long-video understanding as iterative claim-level maintenance of a shared semantic memory -- a structured, versioned state encoding typed claims, a claim dependency graph, and a provenance log. Role-specialized agents operating under explicit authority contracts decompose verification into local object-relation correctness, cross-temporal consistency, and global semantic coherence, with corrections confined to structurally dependent claims. When automated evidence is insufficient, the system escalates to human arbitration as the supervisory authority with final override rights; dependency-closure re-verification then ensures correction cost remains proportional to error scope. Experiments on VidOR show substantially improved downstream reasoning (VQA: 0.71 to 0.79) and a 4.8x reduction in human arbitration cost, with workload significantly lower than manual annotation. Code will be released at https://github.com/MKong17/IMPACT_CYCLE.

0 Citations
0 Influential
30 Altmetric
150.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!