설정의 중요성: 오픈 소스 LLM에서 하이퍼파라미터 민감도가 모델 자체의 차이보다 RTL 생성 성능에 더 큰 영향을 미친다.
Configuration Over Selection: Hyperparameter Sensitivity Exceeds Model Differences in Open-Source LLMs for RTL Generation
하드웨어 설계 분야에서 오픈 소스 LLM을 평가할 때, 일반적으로 어떤 LLM을 사용할지가 주요 관심사이지만, 추론 시간 디코딩 설정은 이차적인 문제로 취급됩니다. 본 연구는 LLM의 어떤 모델을 선택하는 것보다 LLM이 어떻게 설정되는지가 더 중요함을 보여줍니다. VerilogEval 및 RTLLM을 사용하여 합성-루프 평가를 수행하고, 26개의 오픈 소스 LLM을 벤치마킹했습니다. 연구는 먼저 현재 성능 수준을 파악한 다음, 세 가지 주요 모델에 대해 108가지의 하이퍼파라미터 설정을 광범위하게 테스트했습니다. 그 결과, 동일한 LLM에서 최적의 설정과 최악의 설정 간의 정확도 격차가 최대 25.5%까지 나타났으며, 이는 각 모델 패밀리의 기본 설정 하에서 관찰되는 평균 격차보다 5배 더 큰 값입니다. 두 가지 벤치마크 스위트에서 스피어만 상관 계수($ρ$)를 사용하여 모든 설정을 순위를 매긴 결과, 거의 0에 가까운 상관 관계가 나타났습니다. 이는 최적의 설정이 다른 모델로 쉽게 전이되지 않음을 보여줍니다. 이러한 결과는 기본 하이퍼파라미터로 수행된 벤치마킹이 모델의 실제 능력을 설정 효과와 혼동시킬 수 있음을 시사합니다. 오픈 소스 LLM을 활용하여 RTL 생성을 최적화하려면, 제안된 방법론을 통해 가능하게 되는, 아키텍처 및 벤치마크에 대한 이해를 바탕으로 한 하이퍼파라미터 선택이 필요합니다.
Benchmarking of open-source LLMs for hardware design focuses on which LLMs to use, while treating inference-time decoding configuration as a secondary concern. This work shows that it matters more how an LLM is configured than which model is selected. Benchmarking 26 open-source LLMs on VerilogEval and RTLLM with synthesis-in-the-loop evaluation, the study first maps the current capability landscape and then conducts an extensive 108-configuration hyperparameter sweep on three prominent models. The sweep reveals absolute pass-rate gaps of up to 25.5% between the best and worst settings for the same LLM, which is 5x larger than the average spread observed across various model families under their respective default configurations. Ranking all configurations by Spearman's $ρ$ across the two benchmark suites yields near-zero correlation, demonstrating that optimal configurations do not transfer. These results show that benchmarking conducted under default hyperparameters confounds model capabilities with configuration effects. Realizing the full potential of open-source LLMs for RTL generation requires architecture and benchmark aware hyperparameter selection, as enabled by the proposed methodology.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.