Khala: 고음질 음악 생성을 위한 음향 토큰 언어 모델의 확장
Khala: Scaling Acoustic Token Language Models Toward High-Fidelity Music Generation
고품질 음악 생성을 위한 일반적인 설계 패턴은 구조와 음질을 서로 다른 표현 공간에서 처리하는 것입니다. 생성 모델은 먼저 고수준 구조를 모델링한 다음, 확산 기반 또는 신경망 디코딩 단계를 통해 미세한 디테일을 재구성합니다. 본 연구에서는 이러한 방식과 대안적인 관점을 탐구합니다. 즉, 구조와 음질 모두를 단일 심층 음향 토큰 계층 구조 내에서 점진적으로 모델링할 수 있습니다. 이를 연구하기 위해, 64개의 잔차 벡터 양자화(RVQ) 음향 표현을 구축하고, 두 단계로 구성된 거칠기-세밀함 생성 프레임워크를 제안합니다. 핵심 모델은 전체 트랙에 대한 거친 음향 토큰을 먼저 생성하고, 슈퍼 해상도 모델은 동일한 음향 토큰 공간 내에서 더 미세한 토큰을 완성합니다. 슈퍼 해상도 단계는 전체 트랙 규모에서 작동하며, 각 계층별로 토큰을 정제하면서 시간적으로 병렬적으로 실행되어, 62단계의 고정된 추론 과정을 거칩니다. 가사 정렬과 미세한 디테일 재구성을 동시에 개선하기 위해, 하이브리드 어텐션 학습을 도입했습니다. 가사 정렬 목표는 인과적 어텐션을 사용하고, 계층별 정제는 전체 어텐션을 사용합니다. 중요한 발견은 텍스트-보컬 정렬이 별도의 의미 토큰 단계를 필요로 하지 않고, 순수한 음향 토큰 언어 모델링 내에서 발생할 수 있다는 것입니다. 또한, 학습된 핵심 모델에서 슈퍼 해상도 모델을 초기화하면 수렴 속도와 최종 품질이 크게 향상됩니다. 종합적으로, 본 연구 결과는 고품질 음악 생성을 위해 구조와 음질을 이질적인 표현 공간으로 분리할 필요가 없으며, 대신 음향 토큰 계층 구조 내에서 점진적으로 모델링할 수 있음을 시사합니다. 이는 더 간단하고 통합된 방식으로 고품질 음악 생성을 달성할 수 있는 가능성을 제시합니다.
A common design pattern in high-quality music generation is to handle structure and fidelity in different representation spaces: a generator first models high-level structure, followed by diffusion-based or neural decoding stages that reconstruct fine details. In this work, we explore an alternative view: both may be progressively modeled within a single deep acoustic-token hierarchy. To study this, we build a 64-layer residual vector quantization (RVQ) acoustic representation and propose a two-stage coarse-to-fine generation framework. A backbone model first generates coarse acoustic tokens for the full track, and a super-resolution model then completes finer tokens within the same acoustic token space. The super-resolution stage works at full-track scale and refines tokens layer by layer while running in parallel over time, leading to a fixed 62-step inference process. To jointly improve lyric alignment and fine-detail reconstruction, we further introduce hybrid-attention training: the alignment objective uses causal attention, while layer-wise refinement uses full attention. A key finding is that text--vocal alignment can emerge within pure acoustic-token language modeling, without requiring a separate semantic token stage. Moreover, initializing the super-resolution model from the trained backbone significantly improves convergence and final quality. Taken together, our results suggest that high-quality music generation can be effectively pursued without separating structure and fidelity into heterogeneous representation spaces. Instead, both can be progressively modeled within a unified acoustic-token hierarchy, pointing toward a simpler and more unified path to high-quality music generation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.