HeavySkill: 에이전트 기반 시스템에서 핵심 역량으로서의 심층적 사고
HeavySkill: Heavy Thinking as the Inner Skill in Agentic Harness
최근에는 메모리, 기술 및 도구 활용을 통해 여러 에이전트를 조정하는 오케스트레이션 프레임워크를 갖춘 에이전트 기반 시스템이 복잡한 추론 작업에서 놀라운 성공을 거두었습니다. 그러나 실제 성능을 이끄는 근본적인 메커니즘은 복잡한 시스템 설계에 가려져 있습니다. 본 논문에서는 HeavySkill이라는 관점을 제시합니다. HeavySkill은 심층적인 사고를 오케스트레이션 시스템의 최소 실행 단위로 보는 것뿐만 아니라, 모델의 파라미터 내에 내재화되어 오케스트레이터가 복잡한 작업을 해결하도록 이끄는 핵심 역량으로 간주합니다. 우리는 이 역량을 병렬 추론 후 요약이라는 두 단계 파이프라인으로 정의하며, 이는 모든 에이전트 기반 시스템에서 작동할 수 있습니다. 우리는 다양한 도메인에서 HeavySkill에 대한 체계적인 실증 연구를 수행했습니다. 우리의 결과는 이 내재된 역량이 기존의 Best-of-N (BoN) 전략보다 지속적으로 우수한 성능을 보인다는 것을 보여줍니다. 특히, 더 강력한 LLM은 Pass@N 성능에 근접할 수 있습니다. 더욱 중요하게는, 학습 가능한 기술인 심층적 사고의 깊이와 폭을 강화 학습을 통해 더욱 확장할 수 있으며, 이는 취약한 오케스트레이션 계층에 의존하지 않고 복잡한 추론을 내재화하는 자체 진화형 LLM을 개발하는 데 유망한 방법을 제시합니다.
Recent advances in agentic harness with orchestration frameworks that coordinate multiple agents with memory, skills, and tool use have achieved remarkable success in complex reasoning tasks. However, the underlying mechanism that truly drives performance remains obscured behind intricate system designs. In this paper, we propose HeavySkill, a perspective that views heavy thinking not only as a minimal execution unit in orchestration harness but also as an inner skill internalized within the model's parameters that drives the orchestrator to solve complex tasks. We identify this skill as a two-stage pipeline, i.e., parallel reasoning then summarization, which can operate beneath any agentic harness. We present a systematic empirical study of HeavySkill across diverse domains. Our results show that this inner skill consistently outperforms traditional Best-of-N (BoN) strategies; notably, stronger LLMs can even approach Pass@N performance. Crucially, we demonstrate that the depth and width of heavy thinking, as a learnable skill, can be further scaled via reinforcement learning, offering a promising path toward self-evolving LLMs that internalize complex reasoning without relying on brittle orchestration layers.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.