2603.10468v1 Mar 11, 2026 eess.AS

G-STAR: 엔드투엔드 글로벌 스피커 추적 기반 특징 인식

G-STAR: End-to-End Global Speaker-Tracking Attributed Recognition

Yucheng Wang
Yucheng Wang
Citations: 0
h-index: 0
Shuai Wang
Shuai Wang
Citations: 111
h-index: 5
Jing Peng
Jing Peng
Citations: 95
h-index: 5
Ziyi Chen
Ziyi Chen
Citations: 15
h-index: 2
Haoyu Li
Haoyu Li
Citations: 100
h-index: 5
Mengtian Li
Mengtian Li
Citations: 12
h-index: 1
Yun Du
Yun Du
Citations: 15
h-index: 1
Dezhu Xu
Dezhu Xu
Citations: 0
h-index: 0
Kai Yu
Kai Yu
Citations: 125
h-index: 6
Duo Ma
Duo Ma
Citations: 50
h-index: 3

본 연구에서는 음성 중첩이 있는 장시간 다자 화상 회의에서, 각 발화 시점에 스피커 정보를 포함하는 ASR 시스템을 개발합니다. 이 시스템은 청취 수준의 스피커 일관성을 유지하면서 동시에 시간별 스피커 정보를 포함하는 전사본을 생성해야 합니다. 기존의 Speech-LLM 시스템은 일반적으로 지역별 화자 분리 또는 전체적인 라벨링 중 하나에 집중하는 경향이 있지만, 미세한 시간 경계를 정확하게 파악하거나 청크 간의 스피커 정보를 안정적으로 연결하는 데 어려움이 있습니다. 본 연구에서는 시간 정보를 고려한 스피커 추적 모듈과 Speech-LLM 기반의 전사 모듈을 결합한 엔드투엔드 시스템인 G-STAR를 제안합니다. 스피커 추적 모듈은 시간 정보를 포함한 구조화된 스피커 정보를 제공하며, LLM은 이러한 정보를 기반으로 특징 정보를 생성합니다. G-STAR는 구성 요소별 최적화와 함께 전체적인 엔드투엔드 학습을 지원하여, 다양한 감독 데이터와 도메인 변화에 대한 유연한 학습을 가능하게 합니다. 실험을 통해 특징 정보의 융합, 지역 정보와 전체 문맥 간의 균형, 그리고 계층적 목표에 대한 분석을 수행합니다.

Original Abstract

We study timestamped speaker-attributed ASR for long-form, multi-party speech with overlap, where chunk-wise inference must preserve meeting-level speaker identity consistency while producing time-stamped, speaker-labeled transcripts. Previous Speech-LLM systems tend to prioritize either local diarization or global labeling, but often lack the ability to capture fine-grained temporal boundaries or robust cross-chunk identity linking. We propose G-STAR, an end-to-end system that couples a time-aware speaker-tracking module with a Speech-LLM transcription backbone. The tracker provides structured speaker cues with temporal grounding, and the LLM generates attributed text conditioned on these cues. G-STAR supports both component-wise optimization and joint end-to-end training, enabling flexible learning under heterogeneous supervision and domain shift. Experiments analyze cue fusion, local versus long-context trade-offs and hierarchical objectives.

0 Citations
0 Influential
3 Altmetric
15.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!