2601.21754v1 Jan 29, 2026 cs.AI

경험의 시대, 뒤처지는 언어 기반 시행착오

Language-based Trial and Error Falls Behind in the Era of Experience

Guozheng Ma

Citations: 501

h-index: 12

Shugang Cui

Citations: 7

h-index: 1

Yilun Kong

Citations: 103

h-index: 4

Mengya Gao

Citations: 16

h-index: 1

Yichao Wu

Citations: 16

h-index: 2

Dacheng Tao

Citations: 5,871

h-index: 38

Haotian Luo

Citations: 378

h-index: 6

Haoyu Wang

Citations: 67

h-index: 2

Xiaogang Wang

Citations: 2,112

h-index: 10

Li Shen

Citations: 66

h-index: 4

대규모 언어 모델(LLM)은 언어 기반 에이전트 작업에서 탁월한 성능을 보이지만, 미지의 비언어적 환경(예: 기호 또는 공간 작업)에 대한 적용 가능성은 여전히 제한적이다. 기존 연구들은 이러한 성능 격차의 원인을 사전 학습 분포와 테스트 분포 간의 불일치로 보았다. 본 연구에서는 주된 병목 현상이 탐색에 드는 막대한 비용임을 입증한다. 이러한 과제를 숙달하려면 광범위한 시행착오가 필요한데, 고차원 의미 공간에서 작동하는 거대 파라미터 LLM에게는 계산적으로 감당하기 어려운 수준이다. 이를 해결하기 위해 우리는 탐색(exploration)과 활용(exploitation)을 분리하는 새로운 프레임워크인 SCOUT(Sub-Scale Collaboration On Unseen Tasks)를 제안한다. 우리는 경량 "스카우트"(예: 소형 MLP)를 활용하여 LLM을 훨씬 능가하는 속도와 규모로 환경 역학을 조사한다. 수집된 궤적은 지도 미세 조정(SFT)을 통해 LLM을 부트스트랩하는 데 사용되며, 이어 다중 턴 강화 학습(RL)을 통해 잠재된 세계 지식을 활성화한다. 실증적으로 SCOUT는 Qwen2.5-3B-Instruct 모델이 평균 점수 0.86을 달성하게 하여, Gemini-2.5-Pro(0.60)를 포함한 독점 모델들을 크게 능가하는 동시에 GPU 시간 소모를 약 60% 절감했다.

Original Abstract

While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.

1 Citations

0 Influential

19 Altmetric

96.0 Score

Original PDF

AI Analysis

Korean Summary

본 논문은 대규모 언어 모델(LLM)이 훈련 데이터에 없는 낯선 비언어적 환경(예: 스도쿠, 루빅스 큐브, 2048 게임 등)에서 겪는 탐색의 비효율성을 해결하기 위해 'SCOUT(Sub-Scale Collaboration On Unseen Tasks)' 프레임워크를 제안합니다. 핵심 아이디어는 고비용의 LLM 대신 가벼운 신경망(Scout, 예: MLP)을 사용하여 환경을 빠르게 탐색하고 시행착오를 겪게 하는 것입니다. Scout가 수집한 성공적인 궤적(Trajectory)을 텍스트로 변환하여 LLM을 지도 미세 조정(SFT)한 후, 멀티 턴 강화학습(RL)을 통해 추론 능력을 극대화합니다. 실험 결과, 이 방식은 GPU 사용 시간을 약 60% 절약하면서도 3B 크기의 모델이 Gemini-2.5-Pro와 같은 대형 상용 모델보다 높은 성능(평균 점수 0.86 대 0.60)을 달성하도록 만들었습니다.

Key Innovations

탐색과 활용의 분리(Decoupling Exploration from Exploitation): 고비용의 LLM 대신 저비용의 경량 신경망(Scout)이 초기 환경 탐색을 전담하여 효율성 극대화
이종 모델 간 지식 전이: 기호적(Symbolic) 환경에서 Scout가 학습한 경험을 텍스트화하여 언어 모델에 '물리적 규칙'과 '환경 역학'을 주입하는 증류(Distillation) 기법 적용
3단계 학습 파이프라인: 탐색(Scout 학습) -> 증류(Scout 궤적을 이용한 LLM SFT) -> 진화(LLM 멀티 턴 RL) 과정을 통해 콜드 스타트 문제 해결 및 성능 최적화
비언어적 태스크 해결 능력: 텍스트 사전 학습만으로는 해결하기 어려운 공간적, 논리적 문제에서 소형 모델이 대형 모델을 능가하는 성능 입증

Learning & Inference Impact

학습 측면에서는 LLM이 방대한 시행착오를 직접 겪지 않도록 하여 연산 비용을 획기적으로 줄이고, 'Scout'의 성공 데이터를 통해 초기 학습 곡선을 가파르게 상승시킵니다. 이는 LLM이 낯선 환경의 규칙을 빠르게 내재화하도록 돕습니다. 추론 측면에서는 단순한 모방을 넘어, 강화학습 단계를 통해 모델이 명시적인 사고 과정(Chain-of-Thought)을 생성하고 장기적인 계획을 수립할 수 있도록 능력을 '활성화(Activate)'합니다. 결과적으로 작은 모델도 특정 도메인에서 전문가 수준의 추론이 가능해지며, 연속적인 태스크 학습에서도 치명적 망각(Catastrophic Forgetting) 없이 성능을 유지할 수 있음을 보여줍니다.

Technical Difficulty

중급

Estimated implementation complexity based on methodology.

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!