ZeroDVFS: 임베디드 플랫폼을 위한 제로샷 LLM 기반 코어 및 주파수 할당
ZeroDVFS: Zero-Shot LLM-Guided Core and Frequency Allocation for Embedded Platforms
동적 전압 및 주파수 스케일링(DVFS)과 태스크-코어 할당은 임베디드 시스템의 열 관리와 에너지 및 성능 균형 유지에 필수적이다. 기존 방식들은 스톨(stall) 시간을 간과하는 이용률 기반 휴리스틱에 의존하거나, 런타임 적응을 방해하는 테이블 생성을 위한 광범위한 오프라인 프로파일링을 요구한다. 본 논문은 멀티코어 플랫폼에서의 열 및 에너지 인식 스케줄링을 위한 모델 기반 계층적 다중 에이전트 강화 학습(MARL) 프레임워크를 제안한다. 두 개의 협력 에이전트가 지수적인 행동 공간을 분해하여 후속 결정에 대해 358ms의 지연 시간을 달성한다. 초기 결정은 일회성 LLM 특징 추출을 포함하여 3.5초에서 8.0초가 소요된다. 정확한 환경 모델은 회귀 기법을 활용하여 열 역학 및 성능 상태를 예측한다. 이 환경 모델은 LLM으로 추출된 의미론적 특징과 결합되어, 워크로드별 프로파일링 샘플 없이 합성 훈련 데이터를 생성함으로써 훈련된 플랫폼에서 새로운 워크로드에 대한 제로샷 배포를 가능하게 한다. 우리는 프로그램을 실행하지 않고도 13가지 코드 수준 특징을 통해 OpenMP 프로그램을 특성화하는 LLM 기반 의미론적 특징 추출 기법을 소개한다. Dyna-Q에서 영감을 받은 이 프레임워크는 직접 강화 학습과 모델 기반 계획을 통합하여 모델 프리(model-free) 방식보다 20배 빠른 수렴 속도를 달성한다. NVIDIA Jetson TX2, Jetson Orin NX, RubikPi, Intel Core i7에서 BOTS 및 PolybenchC 벤치마크를 이용한 실험 결과는 리눅스 ondemand 거버너 대비 7.09배 향상된 에너지 효율성과 4.0배 개선된 메이크스팬을 입증했다. 초기 결정 지연 시간은 테이블 기반 프로파일링보다 8,300배 빨라 동적인 임베디드 시스템에 실용적으로 배포할 수 있다.
Dynamic voltage and frequency scaling (DVFS) and task-to-core allocation are critical for thermal management and balancing energy and performance in embedded systems. Existing approaches either rely on utilization-based heuristics that overlook stall times, or require extensive offline profiling for table generation, preventing runtime adaptation. We propose a model-based hierarchical multi-agent reinforcement learning (MARL) framework for thermal- and energy-aware scheduling on multi-core platforms. Two collaborative agents decompose the exponential action space, achieving 358ms latency for subsequent decisions. First decisions require 3.5 to 8.0s including one-time LLM feature extraction. An accurate environment model leverages regression techniques to predict thermal dynamics and performance states. When combined with LLM-extracted semantic features, the environment model enables zero-shot deployment for new workloads on trained platforms by generating synthetic training data without requiring workload-specific profiling samples. We introduce LLM-based semantic feature extraction that characterizes OpenMP programs through 13 code-level features without execution. The Dyna-Q-inspired framework integrates direct reinforcement learning with model-based planning, achieving 20x faster convergence than model-free methods. Experiments on BOTS and PolybenchC benchmarks across NVIDIA Jetson TX2, Jetson Orin NX, RubikPi, and Intel Core i7 demonstrate 7.09x better energy efficiency and 4.0x better makespan than Linux ondemand governor. First-decision latency is 8,300x faster than table-based profiling, enabling practical deployment in dynamic embedded systems.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.