2601.08166v2 Jan 13, 2026 cs.AI

ZeroDVFS: 임베디드 플랫폼을 위한 LLM 기반의 제로샷 코어 및 주파수 할당

ZeroDVFS: Zero-Shot LLM-Guided Core and Frequency Allocation for Embedded Platforms

Mohammad Pivezhandi
Mohammad Pivezhandi
Citations: 24
h-index: 3
Mahdi Banisharif
Mahdi Banisharif
Citations: 15
h-index: 2
Abusayeed M. Saifullah
Abusayeed M. Saifullah
Citations: 60
h-index: 5
Ali Jannesari
Ali Jannesari
Citations: 208
h-index: 6

동적 전압 및 주파수 스케일링(DVFS)과 작업-코어 할당은 임베디드 시스템에서 열 관리 및 에너지와 성능 균형을 맞추는 데 매우 중요합니다. 기존 방법들은 대기 시간을 간과하는 활용도 기반의 휴리스틱을 사용하거나, 테이블 생성을 위한 광범위한 오프라인 프로파일링을 요구하여 런타임 적응을 어렵게 합니다. 본 연구에서는 계층적 멀티 에이전트 스케줄링을 기반으로, 정확한 환경 모델을 활용한 모델 기반 강화 학습을 통해 열역학과 성능 상태를 예측하고, 이를 통해 합성 학습 데이터를 생성하여 모델 기반 방법이 모델 프리 방법보다 20배 빠르게 수렴하도록 합니다. 또한, 대규모 언어 모델(LLM) 기반의 의미론적 특징 추출을 통해, 실행 없이 코드 레벨의 특징을 분석하여 OpenMP 프로그램을 특성화하고, 작업별 프로파일링 없이 5초 이내에 새로운 워크로드에 대한 제로샷 배포를 가능하게 합니다. 두 개의 협력 에이전트는 지수적으로 증가하는 액션 공간을 분해하여, 후속 의사 결정에 358ms의 지연 시간을 달성합니다. NVIDIA Jetson TX2, Jetson Orin NX, RubikPi 및 Intel Core i7 플랫폼에서 Barcelona OpenMP Tasks Suite (BOTS) 및 PolybenchC 벤치마크를 사용하여 실험한 결과, 기존의 전력 관리 기술에 비해 7.09배 향상된 에너지 효율, 4.0배 향상된 Makespan, 그리고 358ms의 의사 결정 지연 시간을 보였습니다.

Original Abstract

Dynamic voltage and frequency scaling (DVFS) and task-to-core allocation are critical for thermal management and balancing energy and performance in embedded systems. Existing approaches either rely on utilization-based heuristics that overlook stall times, or require extensive offline profiling for table generation, preventing runtime adaptation. Building upon hierarchical multi-agent scheduling, we contribute model-based reinforcement learning with accurate environment models that predict thermal dynamics and performance states, enabling synthetic training data generation and converging 20 times faster than model-free methods. We introduce Large Language Model (LLM)-based semantic feature extraction that characterizes OpenMP programs through code-level features without execution, enabling zero-shot deployment for new workloads in under 5 seconds without workload-specific profiling. Two collaborative agents decompose the exponential action space, achieving 358ms latency for subsequent decisions. Experiments on Barcelona OpenMP Tasks Suite (BOTS) and PolybenchC benchmarks across NVIDIA Jetson TX2, Jetson Orin NX, RubikPi, and Intel Core i7 demonstrate 7.09 times better energy efficiency, 4.0 times better makespan, and 358ms decision latency compared to existing power management techniques.

2 Citations
0 Influential
3 Altmetric
17.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!