RooflineBench: 루프라인 분석을 통한 온디바이스 LLM 벤치마킹 프레임워크
RooflineBench: A Benchmarking Framework for On-Device LLMs via Roofline Analysis
소형 언어 모델(SLM)을 활용한 로컬 인공지능으로의 전환은 자원이 제한된 엣지 하드웨어 상에서 엄밀한 성능 특성 분석의 필요성을 증대시켰다. 그러나 이기종 플랫폼 전반에 걸친 다양한 아키텍처의 이론적 성능 한계를 객관적으로 측정하는 것은 여전히 매우 어려운 과제로 남아 있다. 본 연구에서는 연산 강도(Operational Intensity, OI)의 관점을 통해 아키텍처의 기본 요소와 하드웨어 제약 조건을 통합하는 루프라인(Roofline) 모델 기반의 체계적인 프레임워크를 제안한다. 우리는 추론 잠재력 영역(inference-potential region)을 정의함으로써, 동일한 하드웨어 기반 상에서 대형 언어 모델(LLM) 간의 효율성 차이를 비교할 수 있는 새로운 지표인 상대적 추론 잠재력(Relative Inference Potential)을 도입한다. 다양한 컴퓨팅 계층에 걸친 광범위한 경험적 분석 결과, 성능 및 OI의 변동이 시퀀스 길이에 큰 영향을 받는다는 사실을 밝혀냈다. 또한, 모델 깊이가 증가함에 따라 OI가 심각하게 저하되는 현상을 확인했다. 더불어 본 연구의 결과는 하드웨어의 이기종성에 의해 유발되는 효율성 함정(efficiency trap)을 조명하고, 다중 헤드 잠재 어텐션(Multi-head Latent Attention, MLA)과 같은 구조적 개선이 다양한 하드웨어 기반에서 잠재된 추론 능력을 어떻게 효과적으로 이끌어낼 수 있는지 입증한다. 이러한 통찰은 온디바이스 인공지능 환경에서 신경망 구조를 물리적 제약에 맞추기 위한 하드웨어-소프트웨어 공동 설계에 실질적이고 실행 가능한 방향을 제시한다. 공개된 코드는 부록 C에서 확인할 수 있다.
The transition toward localized intelligence through Small Language Models (SLMs) has intensified the need for rigorous performance characterization on resource-constrained edge hardware. However, objectively measuring the theoretical performance ceilings of diverse architectures across heterogeneous platforms remains a formidable challenge. In this work, we propose a systematic framework based on the Roofline model that unifies architectural primitives and hardware constraints through the lens of operational intensity (OI). By defining an inference-potential region, we introduce the Relative Inference Potential as a novel metric to compare efficiency differences between Large Language Models (LLMs) on the same hardware substrate. Extensive empirical analysis across diverse compute tiers reveals that variations in performance and OI are significantly influenced by sequence length. We further identify a critical regression in OI as model depth increases. Additionally, our findings highlight an efficiency trap induced by hardware heterogeneity and demonstrate how structural refinements, such as Multi-head Latent Attention (M LA), can effectively unlock latent inference potential across various hardware substrates. These insights provide actionable directions for hardware-software co-design to align neural structures with physical constraints in on-device intelligence. The released code is available in the Appendix C.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.