G-STAR: 엔드투엔드 글로벌 스피커 추적 기반 특징 인식
G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition
본 연구에서는 음성 중첩이 있는 장시간 다자 화상 회의에서, 각 발화 시점에 스피커 정보를 포함하는 ASR 시스템을 개발합니다. 이 시스템은 청취 수준의 스피커 일관성을 유지하면서 동시에 시간별 스피커 정보를 포함하는 전사본을 생성해야 합니다. 기존의 Speech-LLM 시스템은 일반적으로 지역별 화자 분리 또는 전체적인 라벨링 중 하나에 집중하는 경향이 있지만, 미세한 시간 경계를 정확하게 파악하거나 청크 간의 스피커 정보를 안정적으로 연결하는 데 어려움이 있습니다. 본 연구에서는 시간 정보를 고려한 스피커 추적 모듈과 Speech-LLM 기반의 전사 모듈을 결합한 엔드투엔드 시스템인 G-STAR를 제안합니다. 스피커 추적 모듈은 시간 정보를 포함한 구조화된 스피커 정보를 제공하며, LLM은 이러한 정보를 기반으로 특징 정보를 생성합니다. G-STAR는 구성 요소별 최적화와 함께 전체적인 엔드투엔드 학습을 지원하여, 다양한 감독 데이터와 도메인 변화에 대한 유연한 학습을 가능하게 합니다. 실험을 통해 특징 정보의 융합, 지역 정보와 전체 문맥 간의 균형, 그리고 계층적 목표에 대한 분석을 수행합니다.
We study timestamped speaker-attributed ASR for long-form, multi-party speech with overlap, where chunk-wise inference must preserve meeting-level speaker identity consistency while producing time-stamped, speaker-labeled transcripts. Previous Speech-LLM systems tend to prioritize either local diarization or global labeling, but often lack the ability to capture fine-grained temporal boundaries or robust cross-chunk identity linking. We propose G-STAR, an end-to-end system that couples a time-aware speaker-tracking module with a Speech-LLM transcription backbone. The tracker provides structured speaker cues with temporal grounding, and the LLM generates attributed text conditioned on these cues. G-STAR supports both component-wise optimization and joint end-to-end training, enabling flexible learning under heterogeneous supervision and domain shift. Experiments analyze cue fusion, local versus long-context trade-offs and hierarchical objectives.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.