AD-MIR: 구조적 추론을 통한 광고 비디오 이해: 시각적 인식과 설득 전략 간의 격차 해소
AD-MIR: Bridging the Gap from Perception to Persuasion in Advertising Video Understanding via Structured Reasoning
광고 비디오의 다중 모드 이해는 시각적 스토리텔링과 추상적인 설득 전략 간의 복잡한 관계를 해석하는 데 필수적입니다. 그러나 기존의 에이전트는 일반적인 검색에서는 뛰어난 성능을 보이지만, 종종 픽셀 수준의 인식과 고수준의 마케팅 논리 간의 인지적 격차를 해소하는 데 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 광고의 의도를 해독하기 위한 2단계 아키텍처를 설계한 프레임워크인 AD-MIR을 소개합니다. 첫째, 구조 인식 메모리 구성 단계에서, 시스템은 의미 검색과 정확한 키워드 매칭을 통합하여 원시 비디오를 구조화된 데이터베이스로 변환합니다. 이 접근 방식은 브랜드의 세부 정보(예: 로고, 화면에 표시된 텍스트)를 우선시하는 동시에 관련 없는 배경 노이즈를 동적으로 필터링하여 주요 등장 인물을 분리합니다. 둘째, 구조화된 추론 에이전트는 반복적인 질의 루프를 통해 마케팅 전문가를 모방하여, 내러티브를 분해하여 암시적인 설득 전략을 추론합니다. 특히, 이 에이전트는 증거 기반의 자기 수정 메커니즘을 사용하여 이러한 통찰력을 특정 비디오 프레임에 대해 엄격하게 검증하며, 시각적 증거가 부족할 경우 자동으로 추론을 되돌립니다. AdsQA 벤치마크에서의 평가 결과, AD-MIR은 최고 수준의 성능을 달성했으며, 가장 강력한 범용 에이전트인 DVD를 엄격한 기준으로 1.8%, 완화된 기준으로 9.5% 더 높은 정확도를 보였습니다. 이러한 결과는 효과적인 광고 이해가 추상적인 마케팅 전략을 픽셀 수준의 증거에 명시적으로 연결하는 것을 요구한다는 것을 강조합니다. 코드는 https://github.com/Little-Fridge/AD-MIR 에서 확인할 수 있습니다.
Multimodal understanding of advertising videos is essential for interpreting the intricate relationship between visual storytelling and abstract persuasion strategies. However, despite excelling at general search, existing agents often struggle to bridge the cognitive gap between pixel-level perception and high-level marketing logic. To address this challenge, we introduce AD-MIR, a framework designed to decode advertising intent via a two-stage architecture. First, in the Structure-Aware Memory Construction phase, the system converts raw video into a structured database by integrating semantic retrieval with exact keyword matching. This approach prioritizes fine-grained brand details (e.g., logos, on-screen text) while dynamically filtering out irrelevant background noise to isolate key protagonists. Second, the Structured Reasoning Agent mimics a marketing expert through an iterative inquiry loop, decomposing the narrative to deduce implicit persuasion tactics. Crucially, it employs an evidence-based self-correction mechanism that rigorously validates these insights against specific video frames, automatically backtracking when visual support is lacking. Evaluation on the AdsQA benchmark demonstrates that AD-MIR achieves state-of-the-art performance, surpassing the strongest general-purpose agent, DVD, by 1.8% in strict and 9.5% in relaxed accuracy. These results underscore that effective advertising understanding demands explicitly grounding abstract marketing strategies in pixel-level evidence. The code is available at https://github.com/Little-Fridge/AD-MIR.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.