SocialOmni: 오мни 모델에서 오디오-비주얼 소셜 인터랙션을 벤치마킹
SocialOmni: Benchmarking Audio-Visual Social Interactivity in Omni Models
옴니모달 대규모 언어 모델(OLM)은 오디오, 비전, 텍스트를 통합하여 인간-기계 상호작용 방식을 재정의합니다. 그러나 기존 OLM 벤치마크는 여전히 정적이고 정확도 중심적인 작업에 머물러 있어, 자연스러운 대화에서 발생하는 동적인 단서에 대한 이해 능력을 평가하는 데 중요한 격차가 존재합니다. 이에, 본 연구에서는 대화형 상호작용 능력을 세 가지 핵심 측면에서 평가하는 포괄적인 벤치마크인 SocialOmni를 제안합니다. (i) 화자 분리 및 식별 (누가 말하고 있는지), (ii) 인터럽션 타이밍 제어 (언제 개입할 것인지), (iii) 자연스러운 인터럽션 생성 (어떻게 개입할 것인지)입니다. SocialOmni는 2,000개의 인식 샘플과 209개의 고품질 인터랙션 생성 인스턴스 세트를 포함하며, 엄격한 시간적, 문맥적 제약 조건을 적용하고, 모델의 견고성을 테스트하기 위한 제어된 오디오-비주얼 불일치 시나리오를 포함합니다. 12개의 선도적인 OLM을 벤치마킹한 결과, 모델 간의 소셜 인터랙션 능력에 상당한 차이가 있음을 확인했습니다. 또한, 분석 결과 모델의 인식 정확도와 문맥적으로 적절한 인터럽션을 생성하는 능력 간에 뚜렷한 차이가 있으며, 이는 이해도 중심의 지표만으로는 대화형 소셜 역량을 제대로 평가할 수 없음을 시사합니다. 더욱 긍정적인 점은, SocialOmni에서 얻은 진단 결과가 향후 OLM에서 인지 능력과 상호작용 능력 간의 격차를 해소하는 데 유용한 정보를 제공할 수 있다는 것입니다.
Omni-modal large language models (OLMs) redefine human-machine interaction by natively integrating audio, vision, and text. However, existing OLM benchmarks remain anchored to static, accuracy-centric tasks, leaving a critical gap in assessing social interactivity, the fundamental capacity to navigate dynamic cues in natural dialogues. To this end, we propose SocialOmni, a comprehensive benchmark that operationalizes the evaluation of this conversational interactivity across three core dimensions: (i) speaker separation and identification (who is speaking), (ii) interruption timing control (when to interject), and (iii) natural interruption generation (how to phrase the interruption). SocialOmni features 2,000 perception samples and a quality-controlled diagnostic set of 209 interaction-generation instances with strict temporal and contextual constraints, complemented by controlled audio-visual inconsistency scenarios to test model robustness. We benchmarked 12 leading OLMs, which uncovers significant variance in their social-interaction capabilities across models. Furthermore, our analysis reveals a pronounced decoupling between a model's perceptual accuracy and its ability to generate contextually appropriate interruptions, indicating that understanding-centric metrics alone are insufficient to characterize conversational social competence. More encouragingly, these diagnostics from SocialOmni yield actionable signals for bridging the perception-interaction divide in future OLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.