2601.22001v1 Jan 29, 2026 cs.AI

이기종 컴퓨팅: AI 에이전트 추론의 미래를 위한 핵심 동력

Heterogeneous Computing: The Key to Powering the Future of AI Agent Inference

Junyi Liu
Junyi Liu
Citations: 82
h-index: 2
Aaron Zhao
Aaron Zhao
Citations: 18
h-index: 2
Robert Mullins
Robert Mullins
Citations: 109
h-index: 3
Timothy Jones
Timothy Jones
Citations: 5
h-index: 1

AI 에이전트 추론은 추론 중심의 데이터센터 미래를 가속화하고 있으며, 단순 연산 능력을 넘어선 병목 현상, 특히 메모리 용량, 메모리 대역폭, 고속 상호 연결(interconnect) 문제를 드러내고 있습니다. 본 논문에서는 고전적인 루프라인(roofline) 분석이 놓치고 있는 메모리 용량 장벽 등의 영역을 함께 설명할 수 있는 두 가지 지표인 연산 강도(Operational Intensity, OI)와 용량 발자국(Capacity Footprint, CF)을 소개합니다. 에이전트 워크플로(채팅, 코딩, 웹 사용, 컴퓨터 사용)와 기반 모델의 선택(GQA/MLA, MoE, 양자화)에 따라 OI와 CF는 급격히 변화할 수 있으며, 특히 긴 컨텍스트의 KV 캐시는 디코딩 작업을 심각한 메모리 대역폭 제한 상태(memory bound)로 만듭니다. 이러한 관찰 결과는 분리형 서빙(disaggregated serving)과 시스템 수준의 이기종성, 즉 특화된 프리필(prefill) 및 디코드 가속기, 더 광범위한 스케일업 네트워킹, 그리고 광학 I/O를 통해 구현되는 연산-메모리 분리의 필요성을 시사합니다. 더 나아가 우리는 변화하는 OI/CF에 적응하기 위한 기반으로서 에이전트-하드웨어 공동 설계, 단일 시스템 내 다중 추론 가속기 활용, 고대역폭 및 대용량 메모리 분리를 제안합니다. 이러한 방향성들은 종합적으로 대규모 에이전트 AI 추론의 효율성과 역량을 지속하기 위한 경로를 제시합니다.

Original Abstract

AI agent inference is driving an inference heavy datacenter future and exposes bottlenecks beyond compute - especially memory capacity, memory bandwidth and high-speed interconnect. We introduce two metrics - Operational Intensity (OI) and Capacity Footprint (CF) - that jointly explain regimes the classic roofline analysis misses, including the memory capacity wall. Across agentic workflows (chat, coding, web use, computer use) and base model choices (GQA/MLA, MoE, quantization), OI/CF can shift dramatically, with long context KV cache making decode highly memory bound. These observations motivate disaggregated serving and system level heterogeneity: specialized prefill and decode accelerators, broader scale up networking, and decoupled compute-memory enabled by optical I/O. We further hypothesize agent-hardware co design, multiple inference accelerators within one system, and high bandwidth, large capacity memory disaggregation as foundations for adaptation to evolving OI/CF. Together, these directions chart a path to sustain efficiency and capability for large scale agentic AI inference.

3 Citations
0 Influential
1.5 Altmetric
10.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!