연속 공간에서의 순수 탐색을 위한 인컨텍스트 학습
In-Context Learning for Pure Exploration in Continuous Spaces
순수 탐색(pure exploration)이라고도 불리는 능동적 순차 검정(active sequential testing)에서, 학습자는 가능한 한 적은 질의를 사용하여 알려지지 않은 정답 가설을 식별하기 위해 적응적으로 정보를 획득하는 목표를 수행한다. 1959년 Chernoff에 의해 처음 연구된 이 문제는 다양한 응용 분야를 가진다. 고전적인 공식화에는 행동이 곧 가설의 인덱스가 되는 밴딧 문제에서의 최고 팔 식별(Best-Arm Identification, BAI)과 전략적으로 선택된 질의가 숨겨진 레이블에 대한 부분적 정보를 제공하는 일반화된 탐색 문제 등이 포함된다. 그러나 많은 현대적 환경에서 가설 공간은 연속적이며 자연스럽게 질의/행동 공간과 일치한다. 예를 들어 연속 팔 밴딧에서의 최적 행동 식별, 목표 영역 내에 포함된 $\epsilon$-볼(ball) 국소화, 또는 일련의 관측치로부터 미지 함수의 최소점(minimizer) 추정 등이 이에 해당한다. 본 연구에서는 이러한 연속 공간에서의 순수 탐색을 연구하며, 이 환경을 위한 연속 인컨텍스트 순수 탐색(Continuous In-Context Pure Exploration)을 도입한다. 우리는 관측 기록을 (i) 다음 연속 질의 행동 및 (ii) 예측된 가설로 매핑하는 심층 신경망 정책을 메타 학습하여, 데이터로부터 직접 전이 가능한 순차 검정 전략을 학습하는 알고리즘인 C-ICPE-TS를 제안한다. 추론 과정에서 C-ICPE-TS는 매개변수 업데이트나 명시적으로 수작업된 정보 모델 없이도 이전에 접하지 못한 작업에 대해 능동적으로 증거를 수집하고 실제 가설을 추론한다. 우리는 연속 최고 팔 식별, 영역 국소화 및 함수 최소점 식별을 아우르는 다양한 벤치마크에서 C-ICPE-TS의 성능을 검증한다.
In active sequential testing, also termed pure exploration, a learner is tasked with the goal to adaptively acquire information so as to identify an unknown ground-truth hypothesis with as few queries as possible. This problem, originally studied by Chernoff in 1959, has several applications: classical formulations include Best-Arm Identification (BAI) in bandits, where actions index hypotheses, and generalized search problems, where strategically chosen queries reveal partial information about a hidden label. In many modern settings, however, the hypothesis space is continuous and naturally coincides with the query/action space: for example, identifying an optimal action in a continuous-armed bandit, localizing an $ε$-ball contained in a target region, or estimating the minimizer of an unknown function from a sequence of observations. In this work, we study pure exploration in such continuous spaces and introduce Continuous In-Context Pure Exploration for this regime. We introduce C-ICPE-TS, an algorithm that meta-trains deep neural policies to map observation histories to (i) the next continuous query action and (ii) a predicted hypothesis, thereby learning transferable sequential testing strategies directly from data. At inference time, C-ICPE-TS actively gathers evidence on previously unseen tasks and infers the true hypothesis without parameter updates or explicit hand-crafted information models. We validate C-ICPE-TS across a range of benchmarks, spanning continuous best-arm identification, region localization, and function minimizer identification.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.