SHOE: 의미 기반의 개방형 어휘 인간-객체 상호작용 평가 지표
SHOE: Semantic HOI Open-Vocabulary Evaluation Metric
개방형 어휘 기반의 인간-객체 상호작용(HOI) 탐지는 실제 환경에서 발생할 수 있는 다양한 상호작용에 대한 일반화 능력을 갖춘 시스템을 구축하고, 인간-객체 관계에 대한 추론이 가능한 멀티모달 시스템을 지원하는 데 중요한 단계입니다. 그러나 기존의 평가 지표인 평균 정밀도(mAP)는 HOI 클래스를 개별적인 범주형 레이블로 취급하며, 의미적으로는 타당하지만 어휘적으로는 다른 예측(예: "소파에 기대다" vs. "소파에 앉다")에 대한 점수를 부여하지 못하여, 미리 정의된 HOI 레이블을 넘어선 개방형 어휘 예측을 평가하는 데 한계가 있습니다. 본 논문에서는 예측된 HOI 레이블과 실제(ground-truth) HOI 레이블 간의 의미적 유사성을 고려하는 새로운 평가 프레임워크인 SHOE(Semantic HOI Open-Vocabulary Evaluation)를 제안합니다. SHOE는 각 HOI 예측을 동사와 객체 구성 요소로 분해하고, 여러 대규모 언어 모델(LLM)의 평균을 사용하여 이러한 구성 요소 간의 의미적 유사성을 추정하고, 이를 결합하여 정확한 문자열 일치 여부를 넘어선 유사도 점수를 산출합니다. 이를 통해 기존의 HOI 탐지 방법 및 개방형 생성 모델을 표준 벤치마크(예: HICO-DET)를 사용하여 유연하고 확장 가능하게 평가할 수 있습니다. 실험 결과, SHOE는 기존의 평가 지표, 특히 LLM 기반 및 임베딩 기반 기준보다 인간의 판단과 더 밀접하게 일치하며, 평균적으로 인간 평가와 85.73%의 일치도를 보였습니다. 본 연구는 상호작용에 대한 인간의 이해를 보다 정확하게 반영하는 의미 기반의 HOI 평가의 필요성을 강조합니다. 저희는 SHOE 평가 지표를 공개하여 향후 연구를 지원할 예정입니다.
Open-vocabulary human-object interaction (HOI) detection is a step towards building scalable systems that generalize to unseen interactions in real-world scenarios and support grounded multimodal systems that reason about human-object relationships. However, standard evaluation metrics, such as mean Average Precision (mAP), treat HOI classes as discrete categorical labels and fail to credit semantically valid but lexically different predictions (e.g., "lean on couch" vs. "sit on couch"), limiting their applicability for evaluating open-vocabulary predictions that go beyond any predefined set of HOI labels. We introduce SHOE (Semantic HOI Open-Vocabulary Evaluation), a new evaluation framework that incorporates semantic similarity between predicted and ground-truth HOI labels. SHOE decomposes each HOI prediction into its verb and object components, estimates their semantic similarity using the average of multiple large language models (LLMs), and combines them into a similarity score to evaluate alignment beyond exact string match. This enables a flexible and scalable evaluation of both existing HOI detection methods and open-ended generative models using standard benchmarks such as HICO-DET. Experimental results show that SHOE scores align more closely with human judgments than existing metrics, including LLM-based and embedding-based baselines, achieving an agreement of 85.73% with the average human ratings. Our work underscores the need for semantically grounded HOI evaluation that better mirrors human understanding of interactions. We will release our evaluation metric to the public to facilitate future research.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.