2602.17976v1 Feb 20, 2026 cs.LG

연속 공간에서의 순수 탐색을 위한 인컨텍스트 학습

In-Context Learning for Pure Exploration in Continuous Spaces

Alessio Russo
Alessio Russo
Citations: 35
h-index: 4
Ryan Welch
Ryan Welch
Citations: 18
h-index: 3
Aldo Pacchiano
Aldo Pacchiano
Citations: 39
h-index: 4
Yin-Ching Lee
Yin-Ching Lee
Citations: 2
h-index: 1

순수 탐색(pure exploration)이라고도 불리는 능동적 순차 검정(active sequential testing)에서, 학습자는 가능한 한 적은 질의를 사용하여 알려지지 않은 정답 가설을 식별하기 위해 적응적으로 정보를 획득하는 목표를 수행한다. 1959년 Chernoff에 의해 처음 연구된 이 문제는 다양한 응용 분야를 가진다. 고전적인 공식화에는 행동이 곧 가설의 인덱스가 되는 밴딧 문제에서의 최고 팔 식별(Best-Arm Identification, BAI)과 전략적으로 선택된 질의가 숨겨진 레이블에 대한 부분적 정보를 제공하는 일반화된 탐색 문제 등이 포함된다. 그러나 많은 현대적 환경에서 가설 공간은 연속적이며 자연스럽게 질의/행동 공간과 일치한다. 예를 들어 연속 팔 밴딧에서의 최적 행동 식별, 목표 영역 내에 포함된 $\epsilon$-볼(ball) 국소화, 또는 일련의 관측치로부터 미지 함수의 최소점(minimizer) 추정 등이 이에 해당한다. 본 연구에서는 이러한 연속 공간에서의 순수 탐색을 연구하며, 이 환경을 위한 연속 인컨텍스트 순수 탐색(Continuous In-Context Pure Exploration)을 도입한다. 우리는 관측 기록을 (i) 다음 연속 질의 행동 및 (ii) 예측된 가설로 매핑하는 심층 신경망 정책을 메타 학습하여, 데이터로부터 직접 전이 가능한 순차 검정 전략을 학습하는 알고리즘인 C-ICPE-TS를 제안한다. 추론 과정에서 C-ICPE-TS는 매개변수 업데이트나 명시적으로 수작업된 정보 모델 없이도 이전에 접하지 못한 작업에 대해 능동적으로 증거를 수집하고 실제 가설을 추론한다. 우리는 연속 최고 팔 식별, 영역 국소화 및 함수 최소점 식별을 아우르는 다양한 벤치마크에서 C-ICPE-TS의 성능을 검증한다.

Original Abstract

In active sequential testing, also termed pure exploration, a learner is tasked with the goal to adaptively acquire information so as to identify an unknown ground-truth hypothesis with as few queries as possible. This problem, originally studied by Chernoff in 1959, has several applications: classical formulations include Best-Arm Identification (BAI) in bandits, where actions index hypotheses, and generalized search problems, where strategically chosen queries reveal partial information about a hidden label. In many modern settings, however, the hypothesis space is continuous and naturally coincides with the query/action space: for example, identifying an optimal action in a continuous-armed bandit, localizing an $ε$-ball contained in a target region, or estimating the minimizer of an unknown function from a sequence of observations. In this work, we study pure exploration in such continuous spaces and introduce Continuous In-Context Pure Exploration for this regime. We introduce C-ICPE-TS, an algorithm that meta-trains deep neural policies to map observation histories to (i) the next continuous query action and (ii) a predicted hypothesis, thereby learning transferable sequential testing strategies directly from data. At inference time, C-ICPE-TS actively gathers evidence on previously unseen tasks and infers the true hypothesis without parameter updates or explicit hand-crafted information models. We validate C-ICPE-TS across a range of benchmarks, spanning continuous best-arm identification, region localization, and function minimizer identification.

0 Citations
0 Influential
2 Altmetric
10.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!