2602.11144v1 Feb 11, 2026 cs.LG

GENIUS: 생성적 유연 지능 평가 도구

GENIUS: Generative Fluid Intelligence Evaluation Suite

Guopeng Li
Guopeng Li
Citations: 280
h-index: 4
Haodong Li
Haodong Li
Citations: 6
h-index: 1
Wei Dai
Wei Dai
Citations: 50
h-index: 4
Wentao Zhang
Wentao Zhang
Citations: 78
h-index: 2
Ruichuan An
Ruichuan An
Citations: 12
h-index: 2
Sihan Yang
Sihan Yang
Citations: 122
h-index: 5
Ziyu Guo
Ziyu Guo
Citations: 2,235
h-index: 18
Zijun Shen
Zijun Shen
Citations: 39
h-index: 1
Renrui Zhang
Renrui Zhang
Citations: 291
h-index: 8
Xinyu Wei
Xinyu Wei
Citations: 345
h-index: 9
Wenshan Wu
Wenshan Wu
Citations: 1,243
h-index: 15

통합 다중 모드 모델(Unified Multimodal Models, UMMs)은 시각적 생성 분야에서 놀라운 발전을 보여왔습니다. 하지만 기존의 벤치마크는 주로 축적된 지식과 학습된 스키마를 기반으로 하는 '결정 지능(Crystallized Intelligence)'을 평가하는 데 집중합니다. 이러한 접근 방식은 '생성적 유연 지능(Generative Fluid Intelligence, GFI)': 즉, 패턴을 추론하고 제약 조건을 통해 추론하며, 즉흥적으로 새로운 상황에 적응하는 능력을 간과합니다. 이러한 능력을 엄격하게 평가하기 위해, 우리는 'GENIUS' (GENerative Fluid Intelligence Evaluation Suite)를 소개합니다. 우리는 GFI를 세 가지 기본 요소의 합성으로 정의합니다. 여기에는 '암묵적 패턴 유도'(예: 개인화된 시각적 선호도 추론), '즉흥적인 제약 조건 실행'(예: 추상적인 은유 시각화), 그리고 '상황적 지식 적응'(예: 직관에 어긋나는 물리 현상 시뮬레이션)이 포함됩니다. 이러한 요소들은 모델이 오로지 즉각적인 맥락에 기반한 문제를 해결하도록 도전합니다. 12개의 대표적인 모델에 대한 체계적인 평가는 이러한 작업에서 상당한 성능 저하를 보여줍니다. 더욱 중요한 점은, 우리의 진단 분석은 이러한 실패 원인을 명확하게 규명합니다. 분석 결과, 이러한 문제는 모델의 내재적인 생성 능력 부족보다는 제한적인 맥락 이해에서 비롯되는 것으로 나타났습니다. 이러한 격차를 해소하기 위해, 우리는 학습이 필요 없는 어텐션 기반의 개선 전략을 제안합니다. 궁극적으로, GENIUS는 GFI에 대한 엄격한 기준을 제시하며, 지식 활용을 넘어 동적이고 일반적인 추론 능력을 향상시키는 방향으로 연구 분야를 이끌 것입니다. 데이터셋과 코드는 다음 주소에서 공개됩니다: https://github.com/arctanxarc/GENIUS.

Original Abstract

Unified Multimodal Models (UMMs) have shown remarkable progress in visual generation. Yet, existing benchmarks predominantly assess $\textit{Crystallized Intelligence}$, which relies on recalling accumulated knowledge and learned schemas. This focus overlooks $\textit{Generative Fluid Intelligence (GFI)}$: the capacity to induce patterns, reason through constraints, and adapt to novel scenarios on the fly. To rigorously assess this capability, we introduce $\textbf{GENIUS}$ ($\textbf{GEN}$ Fluid $\textbf{I}$ntelligence Eval$\textbf{U}$ation $\textbf{S}$uite). We formalize $\textit{GFI}$ as a synthesis of three primitives. These include $\textit{Inducing Implicit Patterns}$ (e.g., inferring personalized visual preferences), $\textit{Executing Ad-hoc Constraints}$ (e.g., visualizing abstract metaphors), and $\textit{Adapting to Contextual Knowledge}$ (e.g., simulating counter-intuitive physics). Collectively, these primitives challenge models to solve problems grounded entirely in the immediate context. Our systematic evaluation of 12 representative models reveals significant performance deficits in these tasks. Crucially, our diagnostic analysis disentangles these failure modes. It demonstrates that deficits stem from limited context comprehension rather than insufficient intrinsic generative capability. To bridge this gap, we propose a training-free attention intervention strategy. Ultimately, $\textbf{GENIUS}$ establishes a rigorous standard for $\textit{GFI}$, guiding the field beyond knowledge utilization toward dynamic, general-purpose reasoning. Our dataset and code will be released at: $\href{https://github.com/arctanxarc/GENIUS}{https://github.com/arctanxarc/GENIUS}$.

1 Citations
0 Influential
46.169936022426 Altmetric
231.8 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!