SQuTR: 음성 질의-텍스트 검색 시스템의 음향 노이즈 환경에서의 강건성 평가 벤치마크
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
음성 질의 검색은 현대 정보 검색에서 중요한 상호 작용 방식입니다. 그러나 기존 평가 데이터셋은 종종 제한적인 질의와 제약된 노이즈 환경에서만 사용되어, 복잡한 음향 변화 환경에서 음성 질의 검색 시스템의 강건성을 평가하기에는 부적절합니다. 이러한 한계를 극복하기 위해, 우리는 음성 질의 검색 시스템의 강건성을 평가하기 위한 벤치마크인 SQuTR을 제시합니다. SQuTR은 대규모 데이터셋과 통합된 평가 프로토콜을 포함합니다. SQuTR은 널리 사용되는 6개의 영어 및 중국어 텍스트 검색 데이터셋에서 추출한 37,317개의 고유한 질의를 포함하며, 다양한 도메인과 질의 유형을 포괄합니다. 우리는 200명의 실제 화자의 음성 프로필을 사용하여 음성을 합성하고, 17가지의 실제 환경 소음을 제어된 SNR 수준에서 혼합하여, 조용한 환경부터 매우 시끄러운 환경까지 재현 가능한 강건성 평가를 가능하게 합니다. 통합된 프로토콜 하에서, 우리는 대표적인 연속 처리 및 엔드 투 엔드 검색 시스템에 대한 대규모 평가를 수행했습니다. 실험 결과는 노이즈가 증가함에 따라 검색 성능이 감소하며, 시스템마다 성능 저하가 크게 다르다는 것을 보여줍니다. 심지어 대규모 검색 모델조차 극심한 노이즈 환경에서는 어려움을 겪으며, 이는 강건성이 여전히 중요한 병목 현상임을 나타냅니다. 전반적으로, SQuTR은 벤치마킹 및 진단 분석을 위한 재현 가능한 테스트 환경을 제공하며, 음성 질의-텍스트 검색 시스템의 강건성 연구를 촉진합니다.
Spoken query retrieval is an important interaction mode in modern information retrieval. However, existing evaluation datasets are often limited to simple queries under constrained noise conditions, making them inadequate for assessing the robustness of spoken query retrieval systems under complex acoustic perturbations. To address this limitation, we present SQuTR, a robustness benchmark for spoken query retrieval that includes a large-scale dataset and a unified evaluation protocol. SQuTR aggregates 37,317 unique queries from six commonly used English and Chinese text retrieval datasets, spanning multiple domains and diverse query types. We synthesize speech using voice profiles from 200 real speakers and mix 17 categories of real-world environmental noise under controlled SNR levels, enabling reproducible robustness evaluation from quiet to highly noisy conditions. Under the unified protocol, we conduct large-scale evaluations on representative cascaded and end-to-end retrieval systems. Experimental results show that retrieval performance decreases as noise increases, with substantially different drops across systems. Even large-scale retrieval models struggle under extreme noise, indicating that robustness remains a critical bottleneck. Overall, SQuTR provides a reproducible testbed for benchmarking and diagnostic analysis, and facilitates future research on robustness in spoken query to text retrieval.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.