다중 모드 데이터의 잠재적 유해성을 탐지하는 연구: 유해성 연관 그래프 기반 지표 및 해석 가능한 탐지 프레임워크
Unveiling Covert Toxicity in Multimodal Data via Toxicity Association Graphs: A Graph-Based Metric and Interpretable Detection Framework
다중 모드 데이터에서 유해성을 탐지하는 것은 여전히 중요한 과제이며, 유해한 의미는 종종 겉으로는 무해해 보이는 개별 모드에 숨겨져 있으며, 여러 모드가 결합되고 의미론적 연관성이 활성화될 때만 드러납니다. 이러한 문제를 해결하기 위해, 우리는 유해성 연관 그래프(Toxicity Association Graphs, TAGs)를 기반으로 하는 새로운 탐지 프레임워크를 제안합니다. TAGs는 무해한 개체와 잠재적인 유해 영향 간의 의미론적 연관성을 체계적으로 모델링합니다. 우리는 TAGs를 활용하여, 숨겨진 유해성을 정량적으로 측정하는 새로운 지표인 다중 모드 유해성 은폐도(Multimodal Toxicity Covertness, MTC)를 도입했습니다. MTC는 유해한 다중 모드 표현에서 은폐 정도를 측정합니다. 우리의 탐지 프레임워크와 MTC 지표를 통합함으로써, 우리는 의사 결정 과정의 완전한 해석 가능성을 유지하면서 잠재적인 유해성을 정확하게 식별할 수 있으며, 다중 모드 유해성 탐지의 투명성을 크게 향상시킵니다. 우리의 방법을 검증하기 위해, 우리는 고도화된 잠재적 유해성을 가진 다중 모드 데이터를 포착하도록 특별히 설계된 최초의 벤치마크 데이터셋인 '잠재적 유해 데이터셋(Covert Toxic Dataset)'을 구축했습니다. 이 데이터셋은 미묘한 모드 간 연관성을 포함하고 있으며, 제안된 지표와 탐지 프레임워크를 평가하기 위한 엄격한 테스트 환경 역할을 합니다. 광범위한 실험 결과, 우리의 접근 방식은 낮은 수준의 유해성에서 높은 수준의 유해성까지 기존 방법보다 우수한 성능을 보이며, 명확하고 해석 가능하며 감사 가능한 탐지 결과를 제공합니다. 우리의 연구는 설명 가능한 다중 모드 유해성 탐지의 최첨단 기술을 발전시키고, 향후 맥락 인식 및 해석 가능한 접근 방식의 기반을 마련합니다. 주의: 본 논문에는 독자에게 불쾌감을 주거나 충격적인 내용을 포함할 수 있는 유해한 다중 모드 콘텐츠의 예시가 포함되어 있습니다. 독자 여러분의 주의를 부탁드립니다.
Detecting toxicity in multimodal data remains a significant challenge, as harmful meanings often lurk beneath seemingly benign individual modalities: only emerging when modalities are combined and semantic associations are activated. To address this, we propose a novel detection framework based on Toxicity Association Graphs (TAGs), which systematically model semantic associations between innocuous entities and latent toxic implications. Leveraging TAGs, we introduce the first quantifiable metric for hidden toxicity, the Multimodal Toxicity Covertness (MTC), which measures the degree of concealment in toxic multimodal expressions. By integrating our detection framework with the MTC metric, our approach enables precise identification of covert toxicity while preserving full interpretability of the decision-making process, significantly enhancing transparency in multimodal toxicity detection. To validate our method, we construct the Covert Toxic Dataset, the first benchmark specifically designed to capture high-covertness toxic multimodal instances. This dataset encodes nuanced cross-modal associations and serves as a rigorous testbed for evaluating both the proposed metric and detection framework. Extensive experiments demonstrate that our approach outperforms existing methods across both low- and high-covertness toxicity regimes, while delivering clear, interpretable, and auditable detection outcomes. Together, our contributions advance the state of the art in explainable multimodal toxicity detection and lay the foundation for future context-aware and interpretable approaches. Content Warning: This paper contains examples of toxic multimodal content that may be offensive or disturbing to some readers. Reader discretion is advised.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.