대규모 언어 모델을 위한 에이전트 추론
Agentic Reasoning for Large Language Models
추론은 인퍼런스, 문제 해결 및 의사 결정의 기초가 되는 근본적인 인지 과정입니다. 대규모 언어 모델(LLM)은 닫힌 세계 환경에서는 강력한 추론 능력을 보여주지만, 개방형 및 동적 환경에서는 어려움을 겪습니다. 에이전트 추론은 LLM을 지속적인 상호작용을 통해 계획하고, 행동하며, 학습하는 자율 에이전트로 재구성함으로써 패러다임의 전환을 제시합니다. 본 조사에서는 에이전트 추론을 세 가지 상호 보완적인 차원에서 정리합니다. 첫째, 환경 역학을 세 가지 계층으로 특성화합니다. 안정된 환경에서 계획, 도구 사용, 탐색을 포함한 핵심 단일 에이전트 능력을 확립하는 '기초적 에이전트 추론', 피드백, 메모리, 적응을 통해 에이전트가 이러한 능력을 개선하는 방법을 연구하는 '자기 진화적 에이전트 추론', 그리고 조정, 지식 공유, 공동 목표를 포함하는 협업 환경으로 지능을 확장하는 '집단적 다중 에이전트 추론'이 그것입니다. 이러한 계층 전반에 걸쳐, 구조화된 오케스트레이션을 통해 테스트 타임 상호작용을 확장하는 '인컨텍스트(in-context) 추론'과 강화 학습 및 지도 미세 조정을 통해 행동을 최적화하는 '사후 학습(post-training) 추론'을 구분합니다. 더 나아가 과학, 로봇 공학, 헬스케어, 자율 연구, 수학 등 실제 애플리케이션과 벤치마크에 걸친 대표적인 에이전트 추론 프레임워크를 검토합니다. 이 조사는 에이전트 추론 방법론들을 사고와 행동을 연결하는 통합된 로드맵으로 종합하고, 개인화, 장기 상호작용, 세계 모델링, 확장 가능한 다중 에이전트 학습, 실제 배포를 위한 거버넌스를 포함한 해결 과제와 향후 방향을 제시합니다.
Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.