대규모 언어 모델의 행동적 유연성 분석: 토큰 기반 조건부 관점
Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective
본 연구에서는 대규모 언어 모델(LLM)이 고유한 행동적 유연성을 가지고 있으며, 이는 카멜레온이 주변 환경에 따라 색깔을 바꾸는 것과 유사하게 토큰 기반 조건부 생성 방식을 통해 드러낼 수 있고, 강화 학습을 통해 안정화될 수 있음을 밝힙니다. 구체적으로, 원하는 행동을 보이는 응답에서 신중하게 선택된 토큰 접두사를 사용하여 생성을 조건화하면, LLM은 재학습 없이 추론 시점에서 행동 모드를 원활하게 조정할 수 있습니다 (예: 단계별 추론에서 직접 답변으로 전환). 이러한 통찰력을 바탕으로, 우리는 토큰 기반 강화 학습(ToCoRL)이라는 체계적인 프레임워크를 제안합니다. ToCoRL은 강화 학습을 활용하여 이러한 카멜레온과 유사한 유연성을 내재화하여, 일시적인 추론 시점의 적응을 안정적이고 학습 가능한 행동 패턴으로 변환합니다. ToCoRL은 토큰 기반 조건부 생성을 통해 탐색을 안내하고, 지속적으로 활용을 강화하여 적절한 행동의 발현을 가능하게 합니다. 광범위한 실험 결과, ToCoRL은 기능 저하 없이 정밀한 행동 제어를 가능하게 함을 보여줍니다. 특히, 복잡한 수학 문제에서 뛰어난 성능을 보이는 추론 모델을 사실 기반 질문 답변 분야에서 효과적으로 활용할 수 있도록 조정할 수 있으며, 이는 기존의 단계별 추론 방식 때문에 어려움을 겪었던 부분입니다.
In this work, we reveal that Large Language Models (LLMs) possess intrinsic behavioral plasticity-akin to chameleons adapting their coloration to environmental cues-that can be exposed through token-conditional generation and stabilized via reinforcement learning. Specifically, by conditioning generation on carefully selected token prefixes sampled from responses exhibiting desired behaviors, LLMs seamlessly adapt their behavioral modes at inference time (e.g., switching from step-by-step reasoning to direct answering) without retraining. Based on this insight, we propose Token-Conditioned Reinforcement Learning (ToCoRL), a principled framework that leverages RL to internalize this chameleon-like plasticity, transforming transient inference-time adaptations into stable and learnable behavioral patterns. ToCoRL guides exploration with token-conditional generation and keep enhancing exploitation, enabling emergence of appropriate behaviors. Extensive experiments show that ToCoRL enables precise behavioral control without capability degradation. Notably, we show that large reasoning models, while performing strongly on complex mathematics, can be effectively adapted to excel at factual question answering, which was a capability previously hindered by their step-by-step reasoning patterns.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.