배치 컨텍스트 강화 학습: 효율적인 추론을 위한 작업 확장 법칙
Batched Contextual Reinforcement: A Task-Scaling Law for Efficient Reasoning
체인-오브-쏘트(Chain-of-Thought) 추론을 사용하는 대규모 언어 모델은 뛰어난 성능을 보이지만, 추론 비용을 증가시키는 과도한 토큰 소비 문제를 가지고 있습니다. 기존의 효율성 향상 방법인 명시적인 길이 페널티, 난이도 추정기 또는 다단계 교육 과정은 추론 품질을 저하시키거나 복잡한 학습 파이프라인을 요구합니다. 본 연구에서는 배치 컨텍스트 강화 학습(Batched Contextual Reinforcement, BCR)이라는 간결하고 단일 단계의 학습 패러다임을 소개합니다. BCR은 간단한 구조적 수정, 즉 공유 컨텍스트 창 내에서 모델이 N개의 문제를 동시에 해결하도록 학습하고, 각 문제의 정확도에 따라 보상을 제공하는 방식으로 효율적인 추론을 가능하게 합니다. 이러한 방식은 암묵적인 토큰 예산을 생성하며, 다음과 같은 중요한 결과를 도출합니다. (1) 새로운 작업 확장 법칙을 발견했습니다. 추론 시 동시에 처리하는 문제의 수 N이 증가함에 따라, 문제당 토큰 사용량은 단조적으로 감소하는 반면, 정확도는 기존 방법보다 훨씬 우수한 성능을 유지합니다. 이를 통해 N을 제어 가능한 처리량 지표로 활용할 수 있습니다. (2) BCR은 기존의 정확도-효율성 균형을 깨고, 표준적인 단일 문제 추론에서 '무료 점수' 현상을 보여줍니다. 1.5B 및 4B 모델 모두에서 BCR은 토큰 사용량을 15.8%에서 62.6%까지 줄이는 동시에, 주요 수학 벤치마크에서 정확도를 유지하거나 향상시킵니다. (3) 질적 분석 결과, 모델이 명시적인 길이 제어 없이도 불필요한 메타인지 루프를 자율적으로 제거하는 자기 조절 효율성이 나타나는 것을 확인했습니다. (4) 중요한 점은, 암묵적인 예산 제약이 명시적인 길이 페널티에 내재된 적대적 기울기 및 파국적인 최적화 문제를 성공적으로 회피하여, 길이 제어를 위한 안정적이고 제약 기반의 대안을 제공한다는 것입니다. 이러한 결과는 BCR이 실용적임을 입증하며, 간단한 구조적 인센티브가 LLM의 잠재적인 고밀도 추론 능력을 활성화할 수 있음을 보여줍니다.
Large Language Models employing Chain-of-Thought reasoning achieve strong performance but suffer from excessive token consumption that inflates inference costs. Existing efficiency methods such as explicit length penalties, difficulty estimators, or multi-stage curricula either degrade reasoning quality or require complex training pipelines. We introduce Batched Contextual Reinforcement, a minimalist, single-stage training paradigm that unlocks efficient reasoning through a simple structural modification: training the model to solve N problems simultaneously within a shared context window, rewarded purely by per-instance accuracy. This formulation creates an implicit token budget that yields several key findings: (1) We identify a novel task-scaling law: as the number of concurrent problems N increases during inference, per-problem token usage decreases monotonically while accuracy degrades far more gracefully than baselines, establishing N as a controllable throughput dimension. (2) BCR challenges the traditional accuracy-efficiency trade-off by demonstrating a "free lunch" phenomenon at standard single-problem inference. Across both 1.5B and 4B model families, BCR reduces token usage by 15.8% to 62.6% while consistently maintaining or improving accuracy across five major mathematical benchmarks. (3) Qualitative analyses reveal emergent self-regulated efficiency, where models autonomously eliminate redundant metacognitive loops without explicit length supervision. (4) Crucially, we empirically demonstrate that implicit budget constraints successfully circumvent the adversarial gradients and catastrophic optimization collapse inherent to explicit length penalties, offering a highly stable, constraint-based alternative for length control. These results prove BCR practical, showing simple structural incentives unlock latent high-density reasoning in LLMs.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.