2601.12538v1 Jan 18, 2026 cs.AI

대규모 언어 모델을 위한 에이전트 추론

Agentic Reasoning for Large Language Models

Jiaxuan You
Jiaxuan You
Citations: 25
h-index: 2
Ting-Wei Li
Ting-Wei Li
Citations: 14
h-index: 2
Zhining Liu
Zhining Liu
Citations: 260
h-index: 10
Xuying Ning
Xuying Ning
Citations: 159
h-index: 7
Ze Yang
Ze Yang
Citations: 27
h-index: 3
Jiaru Zou
Jiaru Zou
Univeristy of Illinois Urbana Champaign
Citations: 247
h-index: 10
Zhichen Zeng
Zhichen Zeng
Citations: 9
h-index: 1
Ruizhong Qiu
Ruizhong Qiu
Citations: 642
h-index: 14
Xiao Lin
Xiao Lin
University of Illinois Urbana-Champaign
Citations: 182
h-index: 8
Dongqi Fu
Dongqi Fu
Citations: 706
h-index: 16
Zihao Li
Zihao Li
Citations: 93
h-index: 3
Mengting Ai
Mengting Ai
Citations: 90
h-index: 5
Duo Zhou
Duo Zhou
Citations: 74
h-index: 4
Wenxuan Bao
Wenxuan Bao
Citations: 53
h-index: 4
Yunzhe Li
Yunzhe Li
Citations: 35
h-index: 2
Gaotang Li
Gaotang Li
Citations: 151
h-index: 6
Cheng Qian
Cheng Qian
Citations: 142
h-index: 8
Xiangru Tang
Xiangru Tang
Citations: 61
h-index: 4
Liri Fang
Liri Fang
University of Illinois Urbana-Champaign
Citations: 101
h-index: 5
Hui Liu
Hui Liu
Citations: 17
h-index: 2
Xianfeng Tang
Xianfeng Tang
Citations: 25
h-index: 2
Yu-jing Zhang
Yu-jing Zhang
Citations: 63
h-index: 2
Chi Wang
Chi Wang
Citations: 43
h-index: 2
Heng Ji
Heng Ji
Citations: 603
h-index: 10
Hanghang Tong
Hanghang Tong
Citations: 153
h-index: 6
Jingrui He
Jingrui He
Citations: 20
h-index: 3
Tianxin Wei
Tianxin Wei
Citations: 245
h-index: 10
Yu Wang
Yu Wang
Citations: 175
h-index: 7
Ying Xiao
Ying Xiao
Citations: 2,048
h-index: 3

추론은 인퍼런스, 문제 해결 및 의사 결정의 기초가 되는 근본적인 인지 과정입니다. 대규모 언어 모델(LLM)은 닫힌 세계 환경에서는 강력한 추론 능력을 보여주지만, 개방형 및 동적 환경에서는 어려움을 겪습니다. 에이전트 추론은 LLM을 지속적인 상호작용을 통해 계획하고, 행동하며, 학습하는 자율 에이전트로 재구성함으로써 패러다임의 전환을 제시합니다. 본 조사에서는 에이전트 추론을 세 가지 상호 보완적인 차원에서 정리합니다. 첫째, 환경 역학을 세 가지 계층으로 특성화합니다. 안정된 환경에서 계획, 도구 사용, 탐색을 포함한 핵심 단일 에이전트 능력을 확립하는 '기초적 에이전트 추론', 피드백, 메모리, 적응을 통해 에이전트가 이러한 능력을 개선하는 방법을 연구하는 '자기 진화적 에이전트 추론', 그리고 조정, 지식 공유, 공동 목표를 포함하는 협업 환경으로 지능을 확장하는 '집단적 다중 에이전트 추론'이 그것입니다. 이러한 계층 전반에 걸쳐, 구조화된 오케스트레이션을 통해 테스트 타임 상호작용을 확장하는 '인컨텍스트(in-context) 추론'과 강화 학습 및 지도 미세 조정을 통해 행동을 최적화하는 '사후 학습(post-training) 추론'을 구분합니다. 더 나아가 과학, 로봇 공학, 헬스케어, 자율 연구, 수학 등 실제 애플리케이션과 벤치마크에 걸친 대표적인 에이전트 추론 프레임워크를 검토합니다. 이 조사는 에이전트 추론 방법론들을 사고와 행동을 연결하는 통합된 로드맵으로 종합하고, 개인화, 장기 상호작용, 세계 모델링, 확장 가능한 다중 에이전트 학습, 실제 배포를 위한 거버넌스를 포함한 해결 과제와 향후 방향을 제시합니다.

Original Abstract

Reasoning is a fundamental cognitive process underlying inference, problem-solving, and decision-making. While large language models (LLMs) demonstrate strong reasoning capabilities in closed-world settings, they struggle in open-ended and dynamic environments. Agentic reasoning marks a paradigm shift by reframing LLMs as autonomous agents that plan, act, and learn through continual interaction. In this survey, we organize agentic reasoning along three complementary dimensions. First, we characterize environmental dynamics through three layers: foundational agentic reasoning, which establishes core single-agent capabilities including planning, tool use, and search in stable environments; self-evolving agentic reasoning, which studies how agents refine these capabilities through feedback, memory, and adaptation; and collective multi-agent reasoning, which extends intelligence to collaborative settings involving coordination, knowledge sharing, and shared goals. Across these layers, we distinguish in-context reasoning, which scales test-time interaction through structured orchestration, from post-training reasoning, which optimizes behaviors via reinforcement learning and supervised fine-tuning. We further review representative agentic reasoning frameworks across real-world applications and benchmarks, including science, robotics, healthcare, autonomous research, and mathematics. This survey synthesizes agentic reasoning methods into a unified roadmap bridging thought and action, and outlines open challenges and future directions, including personalization, long-horizon interaction, world modeling, scalable multi-agent training, and governance for real-world deployment.

12 Citations
2 Influential
8 Altmetric
56.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!