2604.13448v1 Apr 15, 2026 cs.CV

두 단계 인간-객체 상호작용 감지 모델의 오류 모드 분석 연구

A Study of Failure Modes in Two-Stage Human-Object Interaction Detection

Qinqian Lei
Qinqian Lei
Citations: 51
h-index: 3
Robby T. Tan
Robby T. Tan
Citations: 239
h-index: 10
Bo Wang
Bo Wang
Citations: 68
h-index: 4
Vidhi Bakshi
Vidhi Bakshi
Citations: 14
h-index: 2
Daniel Yi
Daniel Yi
Citations: 50
h-index: 2
Asher Seng Hao
Asher Seng Hao
Citations: 0
h-index: 0
Zheda Mai
Zheda Mai
Citations: 1,611
h-index: 16
Wei Chao
Wei Chao
Citations: 8
h-index: 2
Lemeng Wang
Lemeng Wang
Citations: 61
h-index: 3
Yifan Liu
Yifan Liu
Citations: 149
h-index: 4
Jiacheng Hou
Jiacheng Hou
Citations: 8
h-index: 2

인간-객체 상호작용(HOI) 감지는 이미지 내에서 인간과 객체 간의 상호작용을 감지하는 것을 목표로 합니다. 최근의 발전은 기존 벤치마크에서의 성능 향상을 가져왔지만, 이러한 평가는 주로 전반적인 예측 정확도에 초점을 맞추고 있으며, 모델 오류의 근본적인 원인에 대한 제한적인 통찰력을 제공합니다. 특히, 현대 모델은 종종 여러 사람과 드문 상호작용 조합이 포함된 복잡한 장면에서 어려움을 겪습니다. 본 연구에서는 현재 많은 HOI 감지 접근 방식의 기반을 이루는 두 단계 HOI 모델의 오류 모드를 더 잘 이해하기 위한 연구를 제시합니다. 대규모 벤치마크를 구축하는 대신, HOI 감지를 여러 가지 해석 가능한 관점으로 분해하고, 이러한 차원을 통해 모델의 동작을 분석하여 다양한 유형의 오류 패턴을 연구합니다. 기존의 HOI 데이터 세트에서 이미지를 선택하여 인간-객체-상호작용 구성(예: 다인 상호작용 및 객체 공유)에 따라 구성하고, 이러한 구성 하에서 모델의 동작을 분석하여 다양한 오류 모드를 조사합니다. 이러한 설계는 다양한 장면 구성 하에서 HOI 모델이 어떻게 동작하는지, 그리고 그 예측이 왜 실패하는지 분석할 수 있도록 합니다. 중요한 점은, 높은 전반적인 벤치마크 성능이 반드시 인간-객체 관계에 대한 견고한 시각적 추론을 반영하는 것은 아닙니다. 본 연구가 HOI 모델의 한계에 대한 유용한 통찰력을 제공하고, 이 분야의 미래 연구를 위한 관찰 사항을 제시할 수 있기를 바랍니다.

Original Abstract

Human-object interaction (HOI) detection aims to detect interactions between humans and objects in images. While recent advances have improved performance on existing benchmarks, their evaluations mainly focus on overall prediction accuracy and provide limited insight into the underlying causes of model failures. In particular, modern models often struggle in complex scenes involving multiple people and rare interaction combinations. In this work, we present a study to better understand the failure modes of two-stage HOI models, which form the basis of many current HOI detection approaches. Rather than constructing a large-scale benchmark, we instead decompose HOI detection into multiple interpretable perspectives and analyze model behavior across these dimensions to study different types of failure patterns. We curate a subset of images from an existing HOI dataset organized by human-object-interaction configurations (e.g., multi-person interactions and object sharing), and analyze model behavior under these configurations to examine different failure modes. This design allows us to analyze how these HOI models behave under different scene compositions and why their predictions fail. Importantly, high overall benchmark performance does not necessarily reflect robust visual reasoning about human-object relationships. We hope that this study can provide useful insights into the limitations of HOI models and offer observations for future research in this area.

0 Citations
0 Influential
8 Altmetric
40.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!