2601.17690v1 Jan 25, 2026 cs.SD

세그먼트 길이는 중요하다: 오디오 지문 생성 성능에 미치는 세그먼트 길이의 영향 연구

Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance

Zilin Gong
Zilin Gong
Citations: 0
h-index: 0
Yunyan Ouyang
Yunyan Ouyang
Citations: 0
h-index: 0
Iram Kamdar
Iram Kamdar
Citations: 0
h-index: 0
Melody Ma
Melody Ma
Citations: 0
h-index: 0
Hongjie Chen
Hongjie Chen
Citations: 283
h-index: 8
Franck Dernoncourt
Franck Dernoncourt
Citations: 852
h-index: 11
Ryan A. Rossi
Ryan A. Rossi
Citations: 868
h-index: 13
Nesreen K. Ahmed
Nesreen K. Ahmed
Citations: 907
h-index: 13

오디오 지문 기술은 음향 신호의 식별 가능한 표현을 제공하며, 이는 이후 식별 및 검색 시스템에 사용될 수 있습니다. 효과적인 표현을 얻기 위해, 입력 오디오는 일반적으로 더 짧은 시간 간격으로 분할되어 지역적인 음향 특징을 추출하고 분석합니다. 현대적인 신경망 기반 접근 방식은 일반적으로 짧고 고정된 길이의 오디오 세그먼트를 사용하지만, 세그먼트 길이의 선택은 종종 경험적으로 이루어지며 깊이 있게 검토되지 않는 경우가 많습니다. 본 논문에서는 세그먼트 길이가 오디오 지문 생성 성능에 미치는 영향을 연구합니다. 기존의 신경망 지문 생성 아키텍처를 확장하여 다양한 세그먼트 길이를 적용하고, 다양한 세그먼트 길이와 쿼리 시간 간의 검색 정확도를 평가합니다. 우리의 결과는 일반적으로 짧은 세그먼트 길이(0.5초)가 더 나은 성능을 달성한다는 것을 보여줍니다. 또한, LLM(대규모 언어 모델)의 용량을 평가하여 최적의 세그먼트 길이를 추천하는 능력을 확인했습니다. 그 결과, GPT-5-mini는 세 가지 연구된 LLM 중에서 다섯 가지 고려 사항 모두에서 가장 좋은 제안을 제공했습니다. 우리의 연구 결과는 대규모 신경망 기반 오디오 검색 시스템에서 세그먼트 길이를 선택하는 데 실질적인 지침을 제공합니다.

Original Abstract

Audio fingerprinting provides an identifiable representation of acoustic signals, which can be later used for identification and retrieval systems. To obtain a discriminative representation, the input audio is usually segmented into shorter time intervals, allowing local acoustic features to be extracted and analyzed. Modern neural approaches typically operate on short, fixed-duration audio segments, yet the choice of segment duration is often made heuristically and rarely examined in depth. In this paper, we study how segment length affects audio fingerprinting performance. We extend an existing neural fingerprinting architecture to adopt various segment lengths and evaluate retrieval accuracy across different segment lengths and query durations. Our results show that short segment lengths (0.5-second) generally achieve better performance. Moreover, we evaluate LLM capacity in recommending the best segment length, which shows that GPT-5-mini consistently gives the best suggestions across five considerations among three studied LLMs. Our findings provide practical guidance for selecting segment duration in large-scale neural audio retrieval systems.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!