2602.23681v1 Feb 27, 2026 cs.AI

ODAR: 액티브 인퍼런스를 활용한 LLM 추론을 위한 원칙 기반 적응적 라우팅

ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference

Bofei Gao
Bofei Gao
Citations: 1,036
h-index: 6
Xiaojun Jia
Xiaojun Jia
Citations: 6
h-index: 1
Wenqi Ren
Wenqi Ren
Citations: 27
h-index: 2
Yang Liu
Yang Liu
Citations: 415
h-index: 12
Simeng Qin
Simeng Qin
Citations: 74
h-index: 5
Xiaoshuang Jia
Xiaoshuang Jia
Citations: 30
h-index: 3
Siyuan Ma
Siyuan Ma
Citations: 529
h-index: 5
Tianlin Li
Tianlin Li
Citations: 482
h-index: 12
Ke Ma
Ke Ma
Citations: 23
h-index: 3

대규모 언어 모델(LLM) 추론의 패러다임은 파라미터 확장에서 테스트 시간 컴퓨팅 확장으로 전환되고 있지만, 많은 기존 방법은 여전히 비용이 많이 들고, 설명하기 어렵고, 오히려 역효과를 낼 수 있는 균일한 무차별 샘플링(예: 고정된 Best-of-N 또는 자기 일관성)에 의존합니다. 본 논문에서는 원칙에 기반한 자원 할당을 통해 정확도-효율성 간의 균형을 최적화하는 적응적 라우팅 프레임워크인 ODAR-Expert를 제안합니다. ODAR은 휴리스틱 기반의 Fast Agent와 숙고형 Slow Agent 간의 쿼리 라우팅을 동적으로 결정하는 데, 경험적으로 학습된 액티브 인퍼런스를 기반으로 하는 난이도 추정기를 사용합니다. 또한, 다양한 후보에 대한 임의적인 투표 대신, 변분 자유 에너지 목적 함수를 최소화하여 로그-가능도와 인식적 불확실성(varentropy) 간의 균형을 맞추는, 자유 에너지 기반의 위험 민감한 융합 메커니즘을 도입하여 답변을 선택합니다. 23개의 벤치마크에 대한 광범위한 평가 결과, 일관되고 뛰어난 성능 향상을 보였으며, MATH 데이터셋에서 98.2%의 정확도, Humanity's Last Exam (HLE) 데이터셋에서 54.8%의 정확도를 달성했습니다. 또한, 컴퓨팅 자원을 동일하게 사용한 환경에서 정확도-컴퓨팅 성능 곡선을 개선했습니다. 완전한 오픈 소스 스택(Llama 4 + DeepSeek)에서 ODAR은 균일한 샘플링 전략보다 뛰어난 성능을 보였으며, 컴퓨팅 비용을 82% 절감했습니다. 전반적으로, 우리의 결과는 단순히 테스트 시간 컴퓨팅을 늘리는 것보다, 자유 에너지 기반의 의사 결정과 함께 적응적 자원 할당이 최적의 성능을 달성하는 데 필요하다는 것을 시사합니다.

Original Abstract

The paradigm of large language model (LLM) reasoning is shifting from parameter scaling to test-time compute scaling, yet many existing approaches still rely on uniform brute-force sampling (for example, fixed best-of-N or self-consistency) that is costly, hard to attribute, and can trigger overthinking with diminishing returns. We propose ODAR-Expert, an adaptive routing framework that optimizes the accuracy-efficiency trade-off via principled resource allocation. ODAR uses a difficulty estimator grounded in amortized active inference to dynamically route queries between a heuristic Fast Agent and a deliberative Slow Agent. We further introduce a free-energy-principled, risk-sensitive fusion mechanism that selects answers by minimizing a variational free energy objective, balancing log-likelihood with epistemic uncertainty (varentropy) as a principled alternative to ad hoc voting over heterogeneous candidates. Extensive evaluation across 23 benchmarks shows strong and consistent gains, including 98.2% accuracy on MATH and 54.8% on Humanity's Last Exam (HLE), while improving the compute-accuracy frontier under compute-matched settings. We also validate reproducibility on a fully open-source stack (Llama 4 + DeepSeek), where ODAR surpasses homogeneous sampling strategies while reducing computational costs by 82%. Overall, our results suggest that thinking-optimal scaling requires adaptive resource allocation with free-energy-based decision-making rather than simply increasing test-time compute.

0 Citations
0 Influential
6 Altmetric
30.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!