2603.09332v1 Mar 10, 2026 cs.SD

TimberAgent: 문법 기반 검색을 통한 실행 가능한 음악 효과 제어

TimberAgent: Gram-Guided Retrieval for Executable Music Effect Control

Taotao Wang
Taotao Wang
Citations: 125
h-index: 6
Shihao He
Shihao He
Citations: 2
h-index: 1
Yihan Xia
Yihan Xia
Citations: 4
h-index: 1
Shengli Zhang
Shengli Zhang
Citations: 2
h-index: 1
Fang Liu
Fang Liu
Citations: 5
h-index: 1

디지털 오디오 워크스테이션은 다양한 이펙트 체인을 제공하지만, 사용자의 인지적 의도와 저수준 신호 처리 파라미터 사이에는 여전히 의미론적 격차가 존재합니다. 본 연구에서는 검색 기반 오디오 이펙트 제어를 다루며, 결과물은 최종 파형이 아닌 편집 가능한 플러그인 설정입니다. 우리는 텍스처 공명 검색(TRR)이라는 오디오 표현 방식을 제안하며, 이는 투영된 중간 수준 Wav2Vec2 활성화의 Gram 행렬로부터 구성됩니다. 이러한 설계는 텍스처와 관련된 공액성 구조를 보존합니다. 우리는 1,063개의 후보 프리셋과 204개의 쿼리를 사용하는 기타 이펙트 벤치마크에서 TRR을 평가했습니다. 평가는 훈련-테스트 데이터 누수 방지를 위한 교차 검증 방식인 Protocol-A를 따릅니다. 우리는 TRR을 CLAP 및 내부 검색 기준(Wav2Vec-RAG, Text-RAG, FeatureNN-RAG)과 비교하며, 물리적 DSP 파라미터 범위를 기반으로 한 정규화된 지표를 사용합니다. 제거 연구(ablation study)를 통해 TRR의 핵심 설계 선택 사항(투영 차원, 레이어 선택, 투영 유형)을 검증했습니다. 유사한 데이터에 대한 민감도 분석 결과, 결과는 사소한 지식 베이스 일치에 강건함을 확인했습니다. TRR은 평가된 방법 중 가장 낮은 정규화된 파라미터 오류를 달성했습니다. 26명의 참가자가 참여한 다중 자극 청취 연구를 통해 보완적인 인지적 증거를 제공합니다. 우리는 이러한 결과를 텍스처 인지 검색이 편집 가능한 오디오 이펙트 제어에 유용하다는 것을 보여주는 벤치마크 증거로 해석합니다. 그러나 보다 광범위한 개인화 및 실제 오디오에 대한 강건성 주장은 본 연구에서 제시된 검증된 증거의 범위를 벗어납니다.

Original Abstract

Digital audio workstations expose rich effect chains, yet a semantic gap remains between perceptual user intent and low-level signal-processing parameters. We study retrieval-grounded audio effect control, where the output is an editable plugin configuration rather than a finalized waveform. Our focus is Texture Resonance Retrieval (TRR), an audio representation built from Gram matrices of projected mid-level Wav2Vec2 activations. This design preserves texture-relevant co-activation structure. We evaluate TRR on a guitar-effects benchmark with 1,063 candidate presets and 204 queries. The evaluation follows Protocol-A, a cross-validation scheme that prevents train-test leakage. We compare TRR against CLAP and internal retrieval baselines (Wav2Vec-RAG, Text-RAG, FeatureNN-RAG), using min-max normalized metrics grounded in physical DSP parameter ranges. Ablation studies validate TRR's core design choices: projection dimensionality, layer selection, and projection type. A near-duplicate sensitivity analysis confirms that results are robust to trivial knowledge-base matches. TRR achieves the lowest normalized parameter error among evaluated methods. A multiple-stimulus listening study with 26 participants provides complementary perceptual evidence. We interpret these results as benchmark evidence that texture-aware retrieval is useful for editable audio effect control, while broader personalization and real-audio robustness claims remain outside the verified evidence presented here.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!