2605.06339v1 May 07, 2026 cs.AI

LLM 액션 결정 시 제어 클래스 선택을 위한 체제 이론

A Regime Theory of Controller Class Selection for LLM Action Decisions

Zhizhong Fu
Zhizhong Fu
Citations: 13
h-index: 2
Zhaoyang Jiang
Zhaoyang Jiang
Citations: 8
h-index: 2
Jiacong Mi
Jiacong Mi
Citations: 3
h-index: 1
Zicheng Li
Zicheng Li
Citations: 3
h-index: 1
Xuanqi Peng
Xuanqi Peng
Citations: 86
h-index: 4
Yunsoo Kim
Yunsoo Kim
University College London
Citations: 214
h-index: 8
Honghan Wu
Honghan Wu
Citations: 502
h-index: 10

배포된 언어 모델 및 시각-언어 모델은 각 입력에 대해 직접 답변, 증거 검색, 더 강력한 모델로의 이전, 또는 답변 거부 중 하나를 결정해야 합니다. 일반적인 단조성 직관과는 달리, 제한된 데이터 환경에서 입력별 표현력이 향상된다고 해서 항상 유익한 것은 아닙니다. 엄격한 교차 검증 하에서, 서로 다른 벤치마크는 서로 다른 제어 클래스를 선호합니다. 이는 인스턴스 수준의 불확실성 신호의 제한된 데이터 환경에서의 한계를 반영하며, 이는 분포에 따라 소진될 수 있습니다. 우리는 제어 클래스를 고정된 액션, 파티션 라우터, 인스턴스 수준 제어기, 그리고 사전 게이팅 제어기라는 네 가지 계층 구조로 구성합니다. 본 논문에서는 세 가지 데이터 기반의 병목 현상을 클래스 선택으로 연결하는 체제 이론을 제시합니다. 즉, 최적의 고정된 액션보다 얼마나 개선될 수 있는지, 인스턴스 수준 제어기가 신뢰성 있는 결정을 내릴 수 있을 만큼 충분한 데이터가 있는지, 그리고 인스턴스 수준 신호가 신뢰할 수 없을 때 파티션 라우터가 얼마나 개선을 가져올 수 있는지에 대한 분석입니다. 도출된 Bernstein-tight 임계값은 정보 이론적 하한과 일치하며, 엄격한 계층 구조 교차 검증을 통해 거의 최적의 클래스를 선택할 수 있음을 증명합니다. SMS-Spam, HallusionBench, A-OKVQA, 그리고 FOLIO 데이터셋에서 예측된 클래스가 실제 성능이 가장 좋은 클래스와 일치합니다. TextVQA 데이터셋에서는 OCR 토큰이 레이블 없는 예측 시간을 제공할 때 사전 게이팅 제어기가 가장 좋은 성능을 보입니다. 관련 코드는 https://github.com/Anonymous-Awesome-Submissions/Regime-Theory 에서 확인할 수 있습니다.

Original Abstract

Deployed language and vision-language models must decide, on each input, whether to answer directly, retrieve evidence, defer to a stronger model, or abstain. Contrary to the common monotonicity intuition, greater per-input expressivity is not uniformly beneficial in finite samples: under identical strict cross-validation, different benchmarks prefer different controller classes. This reflects a finite-sample limitation of instance-level uncertainty signals, which can be exhausted at a distribution-dependent scale. We organize controllers into a nested lattice of four classes: fixed actions, partition routers, instance-level controllers, and prior-gated controllers, ordered by complexity. We prove a regime theory that turns three data-estimable bottlenecks into a class choice: how much improvement is possible beyond the best fixed action, whether there are enough samples for instance-level controllers to make reliable decisions, and how much improvement a coarse partition router can recover when instance-level signal is unreliable. The resulting Bernstein-tight threshold has a matching information-theoretic lower bound, and strict nested cross-validation provably selects a near-best class. Across SMS-Spam, HallusionBench, A-OKVQA, and FOLIO, the predicted class matches the empirical winner; the prior-gated controller wins on TextVQA when OCR tokens supply a label-free prediction-time prior. Code is available at https://github.com/Anonymous-Awesome-Submissions/Regime-Theory.

0 Citations
0 Influential
25 Altmetric
125.0 Score
Original PDF
0

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!