2602.12641v1 Feb 13, 2026 cs.NI

Artic: MLLM 비디오 어시스턴트를 위한 AI 기반 실시간 통신 프레임워크

Artic: AI-oriented Real-time Communication for MLLM Video Assistant

Jiangkai Wu
Jiangkai Wu
Citations: 59
h-index: 4
Zhiyuan Ren
Zhiyuan Ren
Citations: 3
h-index: 1
Junquan Zhong
Junquan Zhong
Citations: 3
h-index: 1
Liming Liu
Liming Liu
Citations: 23
h-index: 3
Xinggong Zhang
Xinggong Zhang
Citations: 55
h-index: 5

AI 비디오 어시스턴트는 실시간 통신(RTC)의 새로운 패러다임을 제시하며, 여기서 한쪽 참여자는 클라우드에 배포된 멀티모달 대규모 언어 모델(MLLM)입니다. 이를 통해 인간과 AI 간의 상호 작용이 더욱 직관적이 되며, 실제 사람과 대화하는 것과 유사합니다. 그러나 현재 RTC 프레임워크와 AI 비디오 어시스턴트 사이에는 품질(QoE)의 급격한 변화와 더욱 복잡한 네트워크 환경으로 인해 근본적인 불일치가 존재합니다. 저희의 프로토타입 시스템에 대한 측정 결과에서도 현재 RTC 기술이 실패하여 지연 현상이 발생하고 정확도가 저하된다는 점이 확인되었습니다. 이러한 문제점을 해결하기 위해, 저희는 MLLM 비디오 어시스턴트를 위한 AI 기반 RTC 프레임워크인 Artic을 제안합니다. Artic은 "사람이 비디오를 보는 것"에서 "AI가 비디오를 이해하는 것"으로의 전환을 탐구합니다. 구체적으로, Artic은 다음과 같은 내용을 제안합니다: (1) 응답 능력 기반 적응 비트 전송률: MLLM의 정확도 포화점을 활용하여 비트 전송률을 능동적으로 제한하고, 향후 변동에 대비하여 대역폭 여유를 확보하여 지연 시간을 줄입니다. (2) 오버헤드 없는 컨텍스트 기반 스트리밍: 제한된 비트 전송률을 응답에 가장 중요한 영역에 할당하여, 매우 낮은 비트 전송률에서도 정확도를 유지합니다. (3) 저하된 비디오 이해 벤치마크: RTC로 인한 비디오 품질 저하가 MLLM의 정확도에 미치는 영향을 평가하는 첫 번째 벤치마크입니다. 실제 환경의 업링크 데이터를 사용한 프로토타입 실험 결과, Artic은 기존 방법과 비교하여 정확도를 15.12% 향상시키고 지연 시간을 135.31ms 줄이는 것을 확인했습니다. 저희는 벤치마크와 코드를 다음 주소에서 공개할 예정입니다: https://github.com/pku-netvideo/DeViBench.

Original Abstract

AI Video Assistant emerges as a new paradigm for Real-time Communication (RTC), where one peer is a Multimodal Large Language Model (MLLM) deployed in the cloud. This makes interaction between humans and AI more intuitive, akin to chatting with a real person. However, a fundamental mismatch exists between current RTC frameworks and AI Video Assistants, stemming from the drastic shift in Quality of Experience (QoE) and more challenging networks. Measurements on our production prototype also confirm that current RTC fails, causing latency spikes and accuracy drops. To address these challenges, we propose Artic, an AI-oriented RTC framework for MLLM Video Assistants, exploring the shift from "humans watching video" to "AI understanding video." Specifically, Artic proposes: (1) Response Capability-aware Adaptive Bitrate, which utilizes MLLM accuracy saturation to proactively cap bitrate, reserving bandwidth headroom to absorb future fluctuations for latency reduction; (2) Zero-overhead Context-aware Streaming, which allocates limited bitrate to regions most important for the response, maintaining accuracy even under ultra-low bitrates; and (3) Degraded Video Understanding Benchmark, the first benchmark evaluating how RTC-induced video degradation affects MLLM accuracy. Prototype experiments using real-world uplink traces show that compared with existing methods, Artic significantly improves accuracy by 15.12% and reduces latency by 135.31 ms. We will release the benchmark and codes at https://github.com/pku-netvideo/DeViBench.

0 Citations
0 Influential
25.9657359028 Altmetric
129.8 Score
Original PDF
1

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!