2604.24697v1 Apr 27, 2026 cs.AI

현재의 에이전트는 발견에서 활용으로의 격차를 해소할 수 있는가? 마인크래프트를 이용한 사례 연구

Can Current Agents Close the Discovery-to-Application Gap? A Case Study in Minecraft

Ziheng Zhou
Ziheng Zhou
Citations: 198
h-index: 3
D. Terzopoulos
D. Terzopoulos
Citations: 3,590
h-index: 18
Huacong Tang
Huacong Tang
Citations: 6
h-index: 2
Bangcheng Yang
Bangcheng Yang
Citations: 293
h-index: 3
Qian Long
Qian Long
Citations: 10
h-index: 1
Yizhou Sun
Yizhou Sun
Citations: 6
h-index: 2
Jinyuan Zhang
Jinyuan Zhang
Citations: 143
h-index: 5
Haowei Lin
Haowei Lin
Peking University
Citations: 798
h-index: 11
Fang Sun
Fang Sun
Citations: 12
h-index: 3
Yitao Liang
Yitao Liang
Citations: 754
h-index: 11
Y. Wu
Y. Wu
Citations: 9
h-index: 2
Xiaofeng Gao
Xiaofeng Gao
Citations: 67
h-index: 3

인과 관계를 발견하고 이를 활용하여 기능적인 시스템을 구축하는 능력, 즉 발견-활용 루프는 일반 지능의 중요한 특징이지만, 과학적 발견과 실제 공학 사이의 엄청난 복잡성 차이로 인해 이러한 능력을 평가하는 데 어려움이 있었습니다. 본 연구에서는 마인크래프트를 기반으로 한 벤치마크인 SciCrafter를 소개합니다. SciCrafter는 매개변수가 설정된 레드스톤 회로 작업을 통해 이 루프를 구체화합니다. 에이전트는 특정 패턴으로 램프를 켜야 하며 (예: 동시에 또는 시간 순서대로), 목표 매개변수를 크게 늘리면 건설 복잡성과 필요한 지식이 증가하여 단순 암기된 해결책에 의존하는 것이 아니라 진정한 발견을 요구합니다. GPT-5.2, Gemini-3-Pro, Claude-Opus-4.5를 포함한 최첨단 모델을 일반적인 코드 에이전트 프레임워크 하에서 평가한 결과, 모든 모델이 약 26%의 성공률에서 정체되는 것을 확인했습니다. 이러한 실패 원인을 분석하기 위해, 우리는 이 루프를 지식 격차 식별, 실험적 발견, 지식 통합, 지식 적용의 네 가지 능력으로 분해하고, 각 능력의 부족을 나타내는 간접적인 지표로 활용될 수 있는 맞춤형 개입 방법을 설계했습니다. 분석 결과, 전반적인 지식 적용 능력은 여전히 가장 큰 격차이지만, 최첨단 모델의 경우 지식 격차 식별이 주요 장애물이 되기 시작하며, 이는 현재 AI의 병목 현상이 문제 해결 자체보다는 올바른 문제를 제기하는 데 있다는 것을 시사합니다. 본 연구에서는 SciCrafter를 AI 시스템 연구를 위한 진단 도구로 공개하며, 이를 통해 발견에서 활용으로의 전체 루프를 탐색하는 AI 시스템 개발에 기여하고자 합니다.

Original Abstract

Discovering causal regularities and applying them to build functional systems--the discovery-to-application loop--is a hallmark of general intelligence, yet evaluating this capacity has been hindered by the vast complexity gap between scientific discovery and real-world engineering. We introduce SciCrafter, a Minecraft-based benchmark that operationalizes this loop through parameterized redstone circuit tasks. Agents must ignite lamps in specified patterns (e.g., simultaneously or in timed sequences); scaling target parameters substantially increases construction complexity and required knowledge, forcing genuine discovery rather than reliance on memorized solutions. Evaluating frontier models including GPT-5.2, Gemini-3-Pro, and Claude-Opus-4.5 under a general-purpose code agent scaffold, we find that all plateau at approximately 26% success rate. To diagnose these failures, we decompose the loop into four capacities--knowledge gap identification, experimental discovery, knowledge consolidation, and knowledge application--and design targeted interventions whose marginal contributions serve as proxies for corresponding gaps. Our analysis reveals that although the general knowledge application capability still remains as the biggest gap across all models, for frontier models the knowledge gap identification starts to become a major hurdle--indicating the bottleneck is shifting from solving problems right to raising the right problems for current AI. We release SciCrafter as a diagnostic probe for future research on AI systems that navigate the full discovery-to-application loop.

0 Citations
0 Influential
9 Altmetric
45.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!