LabelBuddy: AI 지원을 활용한 오픈 소스 음악 및 오디오 언어 어노테이션 태깅 도구
LabelBuddy: An Open Source Music and Audio Language Annotation Tagging Tool Using AI Assistance
음악 정보 검색(MIR) 분야에서 머신 러닝(ML), 대규모 오디오 언어 모델(LALM), 그리고 자율 AI 에이전트의 발전은 정적인 태깅 방식에서 벗어나 풍부하고 인간의 의도와 일관된 표현 학습으로의 전환을 요구합니다. 그러나 오디오 어노테이션의 주관적인 미묘한 차이를 포착할 수 있는 오픈 소스 인프라의 부족은 여전히 중요한 병목 현상입니다. 본 논문에서는 인간의 의도와 기계의 이해 사이의 간극을 해소하기 위해 설계된 오픈 소스 협업 자동 태깅 오디오 어노테이션 도구인 extbf{LabelBuddy}를 소개합니다. LabelBuddy는 기존의 정적인 도구와 달리, 컨테이너화된 백엔드를 통해 인터페이스와 추론을 분리하여 사용자가 AI 지원 사전 어노테이션을 위해 사용자 정의 모델을 연결할 수 있도록 합니다. 본 논문에서는 다중 사용자 합의, 컨테이너화된 모델 격리, 그리고 에이전트 및 LALM 확장을 위한 로드맵을 지원하는 시스템 아키텍처를 설명합니다. 코드는 https://github.com/GiannisProkopiou/gsoc2022-Label-buddy 에서 확인할 수 있습니다.
The advancement of Machine learning (ML), Large Audio Language Models (LALMs), and autonomous AI agents in Music Information Retrieval (MIR) necessitates a shift from static tagging to rich, human-aligned representation learning. However, the scarcity of open-source infrastructure capable of capturing the subjective nuances of audio annotation remains a critical bottleneck. This paper introduces \textbf{LabelBuddy}, an open-source collaborative auto-tagging audio annotation tool designed to bridge the gap between human intent and machine understanding. Unlike static tools, it decouples the interface from inference via containerized backends, allowing users to plug in custom models for AI-assisted pre-annotation. We describe the system architecture, which supports multi-user consensus, containerized model isolation, and a roadmap for extending agents and LALMs. Code available at https://github.com/GiannisProkopiou/gsoc2022-Label-buddy.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.