경험 검색을 넘어: 동결된 LLM을 위한 유틸리티 최적화된 구조화된 경험 생성 학습
Beyond Experience Retrieval: Learning to Generate Utility-Optimized Structured Experience for Frozen LLMs
대규모 언어 모델(LLM)은 대체로 정적이며, 종종 동일한 추론을 반복하거나 실수를 되풀이합니다. 기존의 경험 재사용 방법은 주로 외부 검색에 의존하며, 이는 유사성 기반으로 작동하여 노이즈를 발생시키고 지연 시간을 증가시킬 수 있습니다. 본 논문에서는 SEAM(Structured Experience Adapter Module)을 소개합니다. SEAM은 경량의, 실행기(executor)에 특화된 플러그인으로, 경험을 파라미터에 저장하고, 단일 순방향 연산을 통해 구조화되고, 인스턴스별로 조정된 경험 항목을 생성하여 동결된 LLM 실행기를 안내합니다. SEAM은 실행기 롤아웃 및 GRPO를 통해 유틸리티를 기준으로 학습되며, 실행기는 동결된 상태로 유지됩니다. 또한, SEAM은 로깅된 성공적인 경로에 대한 지도 학습을 통해 배포 후에도 추가적으로 개선될 수 있습니다. 수학적 추론 벤치마크에 대한 실험 결과, SEAM은 낮은 오버헤드로 실행기 전체에 걸쳐 일관된 정확도 향상을 보여줍니다. 광범위한 분석 및 실험을 통해 SEAM의 효과성과 견고성을 뒷받침하는 메커니즘을 자세히 설명합니다.
Large language models (LLMs) are largely static and often redo reasoning or repeat mistakes. Prior experience reuse typically relies on external retrieval, which is similarity-based, can introduce noise, and adds latency. We introduce SEAM (Structured Experience Adapter Module), a lightweight, executor-specific plug-in that stores experience in its parameters and generates a structured, instance-tailored experience entry in a single forward pass to guide a frozen LLM executor. SEAM is trained for utility via executor rollouts and GRPO while keeping the executor frozen, and it can be further improved after deployment with supervised fine-tuning on logged successful trajectories. Experiments on mathematical reasoning benchmarks show consistent accuracy gains across executors with low overhead. Extensive ablations and analyses further elucidate the mechanisms underlying SEAM's effectiveness and robustness.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.