경험의 시대, 뒤처지는 언어 기반 시행착오
Language-based Trial and Error Falls Behind in the Era of Experience
대규모 언어 모델(LLM)은 언어 기반 에이전트 작업에서 탁월한 성능을 보이지만, 미지의 비언어적 환경(예: 기호 또는 공간 작업)에 대한 적용 가능성은 여전히 제한적이다. 기존 연구들은 이러한 성능 격차의 원인을 사전 학습 분포와 테스트 분포 간의 불일치로 보았다. 본 연구에서는 주된 병목 현상이 탐색에 드는 막대한 비용임을 입증한다. 이러한 과제를 숙달하려면 광범위한 시행착오가 필요한데, 고차원 의미 공간에서 작동하는 거대 파라미터 LLM에게는 계산적으로 감당하기 어려운 수준이다. 이를 해결하기 위해 우리는 탐색(exploration)과 활용(exploitation)을 분리하는 새로운 프레임워크인 SCOUT(Sub-Scale Collaboration On Unseen Tasks)를 제안한다. 우리는 경량 "스카우트"(예: 소형 MLP)를 활용하여 LLM을 훨씬 능가하는 속도와 규모로 환경 역학을 조사한다. 수집된 궤적은 지도 미세 조정(SFT)을 통해 LLM을 부트스트랩하는 데 사용되며, 이어 다중 턴 강화 학습(RL)을 통해 잠재된 세계 지식을 활성화한다. 실증적으로 SCOUT는 Qwen2.5-3B-Instruct 모델이 평균 점수 0.86을 달성하게 하여, Gemini-2.5-Pro(0.60)를 포함한 독점 모델들을 크게 능가하는 동시에 GPU 시간 소모를 약 60% 절감했다.
While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.
AI Analysis
Korean Summary
Key Innovations
- 탐색과 활용의 분리(Decoupling Exploration from Exploitation): 고비용의 LLM 대신 저비용의 경량 신경망(Scout)이 초기 환경 탐색을 전담하여 효율성 극대화
- 이종 모델 간 지식 전이: 기호적(Symbolic) 환경에서 Scout가 학습한 경험을 텍스트화하여 언어 모델에 '물리적 규칙'과 '환경 역학'을 주입하는 증류(Distillation) 기법 적용
- 3단계 학습 파이프라인: 탐색(Scout 학습) -> 증류(Scout 궤적을 이용한 LLM SFT) -> 진화(LLM 멀티 턴 RL) 과정을 통해 콜드 스타트 문제 해결 및 성능 최적화
- 비언어적 태스크 해결 능력: 텍스트 사전 학습만으로는 해결하기 어려운 공간적, 논리적 문제에서 소형 모델이 대형 모델을 능가하는 성능 입증
Learning & Inference Impact
학습 측면에서는 LLM이 방대한 시행착오를 직접 겪지 않도록 하여 연산 비용을 획기적으로 줄이고, 'Scout'의 성공 데이터를 통해 초기 학습 곡선을 가파르게 상승시킵니다. 이는 LLM이 낯선 환경의 규칙을 빠르게 내재화하도록 돕습니다. 추론 측면에서는 단순한 모방을 넘어, 강화학습 단계를 통해 모델이 명시적인 사고 과정(Chain-of-Thought)을 생성하고 장기적인 계획을 수립할 수 있도록 능력을 '활성화(Activate)'합니다. 결과적으로 작은 모델도 특정 도메인에서 전문가 수준의 추론이 가능해지며, 연속적인 태스크 학습에서도 치명적 망각(Catastrophic Forgetting) 없이 성능을 유지할 수 있음을 보여줍니다.
Technical Difficulty
Estimated implementation complexity based on methodology.