2601.02837v1 Jan 06, 2026 cs.CV

자기-주의(Self-Attention)의 한계를 극복하다: 적외선 소형 표적 탐지를 위한 쿼리 초기화 재고

Breaking Self-Attention Failure: Rethinking Query Initialization for Infrared Small Target Detection

Yuteng Liu
Yuteng Liu
Citations: 7
h-index: 2
Duanni Meng
Duanni Meng
Citations: 2
h-index: 1
Maoxun Yuan
Maoxun Yuan
Citations: 577
h-index: 7
Xingxing Wei
Xingxing Wei
Citations: 221
h-index: 4

적외선 소형 표적 탐지(IRSTD)는 낮은 신호 대 잡음비(SNR), 작은 표적 크기, 복잡한 배경 등으로 인해 큰 어려움을 겪습니다. 최근의 DETR 기반 탐지기는 전역 컨텍스트 모델링의 장점을 가지고 있지만, IRSTD에서는 성능 저하가 두드러집니다. 본 연구에서는 이러한 현상을 재검토하고, 적외선 표적과 관련된 임베딩이 자기-주의 메커니즘으로 인해 지배적인 배경 특징에 압도되어 신뢰할 수 없는 쿼리 초기화와 부정확한 표적 위치 추정을 초래한다는 것을 밝혀냅니다. 이러한 문제를 해결하기 위해, 적외선 소형 표적 탐지를 위한 쿼리 초기화를 개선하는 새로운 프레임워크인 SEF-DETR을 제안합니다. SEF-DETR은 주파수 기반 패치 스크리닝(FPS), 동적 임베딩 강화(DEE), 그리고 신뢰성-일관성 기반 융합(RCF)의 세 가지 구성 요소로 구성됩니다. FPS 모듈은 로컬 패치의 푸리에 스펙트럼을 활용하여 표적과 관련된 밀도 맵을 생성하고, 배경에 의해 지배되는 특징을 억제합니다. DEE는 표적에 민감한 방식으로 다중 스케일 표현을 강화하며, RCF는 공간-주파수 일관성과 신뢰성을 강화하여 객체 쿼리를 더욱 세밀하게 조정합니다. 세 개의 공개 IRSTD 데이터 세트에 대한 광범위한 실험 결과, SEF-DETR은 최첨단 방법보다 우수한 탐지 성능을 달성하며, 적외선 소형 표적 탐지 작업에 대한 강력하고 효율적인 솔루션을 제공합니다.

Original Abstract

Infrared small target detection (IRSTD) faces significant challenges due to the low signal-to-noise ratio (SNR), small target size, and complex cluttered backgrounds. Although recent DETR-based detectors benefit from global context modeling, they exhibit notable performance degradation on IRSTD. We revisit this phenomenon and reveal that the target-relevant embeddings of IRST are inevitably overwhelmed by dominant background features due to the self-attention mechanism, leading to unreliable query initialization and inaccurate target localization. To address this issue, we propose SEF-DETR, a novel framework that refines query initialization for IRSTD. Specifically, SEF-DETR consists of three components: Frequency-guided Patch Screening (FPS), Dynamic Embedding Enhancement (DEE), and Reliability-Consistency-aware Fusion (RCF). The FPS module leverages the Fourier spectrum of local patches to construct a target-relevant density map, suppressing background-dominated features. DEE strengthens multi-scale representations in a target-aware manner, while RCF further refines object queries by enforcing spatial-frequency consistency and reliability. Extensive experiments on three public IRSTD datasets demonstrate that SEF-DETR achieves superior detection performance compared to state-of-the-art methods, delivering a robust and efficient solution for infrared small target detection task.

1 Citations
0 Influential
3.5 Altmetric
18.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!