델타 기반 신경망 구조 탐색: 코드 차이점을 이용한 LLM 미세 조정
Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs
대규모 언어 모델(LLM)은 신경망 구조 생성에 강력한 잠재력을 보여주지만, 기존 방식은 모델 전체를 처음부터 구현하므로 계산 비용이 많이 들고 코드의 양이 많습니다. 본 연구에서는 미세 조정된 LLM이 전체 모델을 생성하는 대신, 기준 아키텍처를 개선하기 위한 간결한 통합 변경 사항(델타)을 생성하는 델타 코드 생성(Delta-Code Generation) 방식을 제안합니다. 제안하는 파이프라인은 LEMUR 데이터셋에서 선별된 아키텍처를 사용하여 LoRA를 통해 LLM을 반복적으로 미세 조정하며, MinHash-Jaccard novelty filtering을 통해 구조적 다양성을 확보합니다. DeepSeek-Coder-7B, Qwen2.5-Coder-7B, Mistral-7B의 세 가지 7B급 LLM을 CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNette, CelebA의 6개 데이터셋에서 22회 반복(LLM당 1,100개 후보)으로 평가한 결과, 모든 LLM이 전체 모델 생성 방식(유효성 50.6%, 평균 첫 번째 epoch 정확도 42.3%)보다 훨씬 우수한 성능을 보였습니다. DeepSeek-Coder는 75.3%의 유효성 및 65.8%의 평균 정확도를, Qwen2.5-Coder는 72.1%/64.6%, Mistral은 66.6%/66.1%를 달성했습니다. CIFAR-10 데이터셋에서 가장 높은 첫 번째 epoch 정확도는 Mistral이 85.5%, DeepSeek이 85.2%, Qwen이 80.6%로, 전체 모델 생성 방식(63.98%) 및 Gu et al.의 동시 접근 방식(71.5%)보다 훨씬 높았습니다. 생성된 코드의 길이는 30~50줄로, 전체 모델 생성 방식의 200줄 이상에 비해 75~85% 감소했습니다. 50 epoch 연구 결과, 1 epoch 실험 결과가 순위를 잘 보존하는 것을 확인했습니다 (Mistral: Spearman $ρ$ = 0.926). 델타 기반 생성 방식은 LLM 기반 신경망 구조 탐색(NAS)을 위한 토큰 효율적이고 다중 도메인, LLM에 독립적인 대안입니다.
Large language models (LLMs) show strong potential for neural architecture generation, yet existing approaches produce complete model implementations from scratch -- computationally expensive and yielding verbose code. We propose Delta-Code Generation, where fine-tuned LLMs generate compact unified diffs (deltas) to refine baseline architectures rather than synthesizing entire models. Our pipeline iteratively fine-tunes the LLM via LoRA on curated architectures from the LEMUR dataset, with MinHash-Jaccard novelty filtering for structural diversity. We evaluate three 7B-class LLMs -- DeepSeek-Coder-7B, Qwen2.5-Coder-7B, and Mistral-7B -- across six datasets (CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNette, CelebA) using a 22-cycle protocol (1,100 candidates per LLM). All three substantially surpass the full-generation baseline (50.6% valid rate, 42.3% mean first-epoch accuracy): DeepSeek-Coder reaches 75.3% valid rate and 65.8% mean accuracy; Qwen2.5-Coder 72.1%/64.6%; Mistral 66.6%/66.1%. On CIFAR-10, best first-epoch accuracies reach 85.5% (Mistral), 85.2% (DeepSeek), 80.6% (Qwen) -- well above 63.98% full generation and 71.5% for the concurrent approach of Gu et al. Output lengths are 30-50 lines versus 200+ for full generation (75-85% reduction). A 50-epoch study confirms the 1-epoch proxy preserves rankings (Mistral: Spearman $ρ$ = 0.926). Delta-based generation is a token-efficient, multi-domain, LLM-agnostic alternative to full-model synthesis for LLM-driven NAS.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.