Morphe: 비전 기반 모델을 활용한 고품질 생성형 비디오 스트리밍
Morphe: High-Fidelity Generative Video Streaming with Vision Foundation Model
비디오 스트리밍은 기본적인 인터넷 서비스이지만, 특히 대역폭이 제한적이거나 원격 지역과 같이 네트워크 환경이 좋지 않은 경우, 품질을 보장하기 어렵습니다. 기존 연구들은 주로 두 가지 방향으로 진행되었습니다. 전통적인 픽셀 코덱 스트리밍은 거의 한계에 도달했으며, 압축 측면에서 더 발전하기 어렵습니다. 반면, 최근 등장한 신경망 기반 또는 생성형 스트리밍은 지연 시간과 시각적 충실도 면에서 부족하여 실제 적용에 어려움을 겪습니다. 최근 비전 기반 모델(VFM)의 성공에 영감을 받아, 우리는 VFM의 강력한 비디오 이해 및 처리 능력을 활용하여 일반화, 고품질, 오류 복원력을 갖춘 실시간 비디오 스트리밍을, 더 높은 압축률로 구현하고자 합니다. 본 논문에서는 이러한 목표를 달성하기 위한 VFM 기반의 엔드투엔드 생성형 비디오 스트리밍의 혁신적인 패러다임을 제시합니다. 구체적으로, Morphe는 시뮬레이션된 네트워크 제약 조건 하에서 시각적 토크나이저와 가변 해상도 시공간 최적화를 함께 학습합니다. 또한, 지능적인 패킷 삭제 기능을 활용하여 실제 네트워크 환경의 변화에 강한 스트리밍 시스템을 구축합니다. 광범위한 실험 결과는 Morphe가 H.265에 비해 62.5%의 대역폭을 절약하면서도 유사한 시각적 품질을 달성하며, 어려운 네트워크 환경에서도 실시간으로 안정적인 비디오 스트리밍을 제공한다는 것을 보여줍니다. 이는 VFM 기반 멀티미디어 스트리밍 솔루션 분야에서 중요한 진전을 나타냅니다.
Video streaming is a fundamental Internet service, while the quality still cannot be guaranteed especially in poor network conditions such as bandwidth-constrained and remote areas. Existing works mainly work towards two directions: traditional pixel-codec streaming nearly approaches its limit and is hard to step further in compression; the emerging neural-enhanced or generative streaming usually fall short in latency and visual fidelity, hindering their practical deployment. Inspired by the recent success of vision foundation model (VFM), we strive to harness the powerful video understanding and processing capacities of VFM to achieve generalization, high fidelity and loss resilience for real-time video streaming with even higher compression rate. We present the first revolutionized paradigm that enables VFM-based end-to-end generative video streaming towards this goal. Specifically, Morphe employs joint training of visual tokenizers and variable-resolution spatiotemporal optimization under simulated network constraints. Additionally, a robust streaming system is constructed that leverages intelligent packet dropping to resist real-world network perturbations. Extensive evaluation demonstrates that Morphe achieves comparable visual quality while saving 62.5\% bandwidth compared to H.265, and accomplishes real-time, loss-resilient video delivery in challenging network environments, representing a milestone in VFM-enabled multimedia streaming solutions.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.