2602.07625v1 Feb 07, 2026 cs.CV

AD-MIR: 구조적 추론을 통한 광고 비디오 이해: 시각적 인식과 설득 전략 간의 격차 해소

AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning

Xiaopeng Lin
Xiaopeng Lin
Citations: 6
h-index: 2
Junyu Feng
Junyu Feng
Citations: 0
h-index: 0
Binxiao Xu
Binxiao Xu
Citations: 0
h-index: 0
Haodong Li
Haodong Li
Citations: 0
h-index: 0
Bohan Zeng
Bohan Zeng
Citations: 129
h-index: 7
Ming Lu
Ming Lu
Citations: 2
h-index: 1
Wentao Zhang
Wentao Zhang
Citations: 78
h-index: 2
Zhiyuan Feng
Zhiyuan Feng
Citations: 39
h-index: 4
Shaolin Lu
Shaolin Lu
Citations: 2
h-index: 1
Qi She
Qi She
Citations: 217
h-index: 5

광고 비디오의 다중 모드 이해는 시각적 스토리텔링과 추상적인 설득 전략 간의 복잡한 관계를 해석하는 데 필수적입니다. 그러나 기존의 에이전트는 일반적인 검색에서는 뛰어난 성능을 보이지만, 종종 픽셀 수준의 인식과 고수준의 마케팅 논리 간의 인지적 격차를 해소하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 광고의 의도를 해독하기 위한 2단계 아키텍처를 설계한 프레임워크인 AD-MIR을 소개합니다. 첫째, 구조 인식 메모리 구성 단계에서, 시스템은 의미 검색과 정확한 키워드 매칭을 통합하여 원시 비디오를 구조화된 데이터베이스로 변환합니다. 이 접근 방식은 브랜드의 세부 정보(예: 로고, 화면에 표시된 텍스트)를 우선시하는 동시에 관련 없는 배경 노이즈를 동적으로 필터링하여 주요 등장 인물을 분리합니다. 둘째, 구조화된 추론 에이전트는 반복적인 질의 루프를 통해 마케팅 전문가를 모방하여, 내러티브를 분해하여 암시적인 설득 전략을 추론합니다. 특히, 이 에이전트는 증거 기반의 자기 수정 메커니즘을 사용하여 이러한 통찰력을 특정 비디오 프레임에 대해 엄격하게 검증하며, 시각적 증거가 부족할 경우 자동으로 추론을 되돌립니다. AdsQA 벤치마크에서의 평가 결과, AD-MIR은 최고 수준의 성능을 달성했으며, 가장 강력한 범용 에이전트인 DVD를 엄격한 기준으로 1.8%, 완화된 기준으로 9.5% 더 높은 정확도를 보였습니다. 이러한 결과는 효과적인 광고 이해가 추상적인 마케팅 전략을 픽셀 수준의 증거에 명시적으로 연결하는 것을 요구한다는 것을 강조합니다. 코드는 https://github.com/Little-Fridge/AD-MIR 에서 확인할 수 있습니다.

Original Abstract

Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persuasion strategies. However, despite excelling at general search, existing agents often struggle to bridge the cognitive gap between pixel-level perception and high-level marketing logic. To address this challenge, we introduce AD-MIR, a framework designed to decode advertising intent via a two-stage architecture. First, in the Structure-Aware Memory Construction phase, the system converts raw video into a structured database by integrating semantic retrieval with exact keyword matching. This approach prioritizes fine-grained brand details (e.g., logos, on-screen text) while dynamically filtering out irrelevant background noise to isolate key protagonists. Second, the Structured Reasoning Agent mimics a marketing expert through an iterative inquiry loop, decomposing the narrative to deduce implicit persuasion tactics. Crucially, it employs an evidence-based self-correction mechanism that rigorously validates these insights against specific video frames, automatically backtracking when visual support is lacking. Evaluation on the AdsQA benchmark demonstrates that AD-MIR achieves state-of-the-art performance, surpassing the strongest general-purpose agent, DVD, by 1.8% in strict and 9.5% in relaxed accuracy. These results underscore that effective advertising understanding demands explicitly grounding abstract marketing strategies in pixel-level evidence. The code is available at https://github.com/Little-Fridge/AD-MIR.

0 Citations
0 Influential
31.547189562171 Altmetric
157.7 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!