2602.02451v1 Feb 02, 2026 cs.LG

액티브 캐우설 실험가 (ACE): 직접 선호도 최적화를 통한 개입 전략 학습

Active Causal Experimentalist (ACE): Learning Intervention Strategies via Direct Preference Optimization

Patrick Cooper
Patrick Cooper
Citations: 0
h-index: 0
Alvaro Velasquez
Alvaro Velasquez
Citations: 1
h-index: 1

인과 관계를 파악하기 위해서는 통제된 실험이 필요하지만, 실험 설계자는 순차적 의사 결정 문제를 마주합니다. 각 개입은 다음 실험에 대한 정보를 제공해야 하며, 전통적인 방법들은 무작위 샘플링, 탐욕적 정보 최대화, 그리고 라운드 로빈 커버리지와 같이 각 의사 결정을 독립적으로 처리하여 경험으로부터 적응적인 전략을 학습할 수 없습니다. 본 논문에서는 실험 설계를 순차적 정책으로 학습하는 액티브 캐우설 실험가 (ACE)를 제안합니다. 핵심 아이디어는 절대적인 정보 획득량은 지식 축적에 따라 감소하여 가치 기반 강화 학습의 안정성을 저해하지만, 후보 개입 간의 상대적인 비교는 계속해서 의미를 가진다는 것입니다. ACE는 직접 선호도 최적화를 활용하여, 쌍별 개입 비교로부터 학습하며, 이는 시간에 따라 변하는 보상 크기에서 벗어납니다. 합성 벤치마크, 물리 시뮬레이션, 그리고 경제 데이터를 통해, ACE는 동일한 개입 예산 하에서 기존 방법보다 70-71% 더 높은 성능을 보입니다 (p < 0.001, Cohen's d ~ 2). 주목할 만한 점은, 학습된 정책이 콜라이더 메커니즘에는 부모 변수에 집중적인 개입이 필요하다는 것을 자율적으로 발견한다는 것입니다. 이는 이론적으로 뒷받침되는 전략으로, 순수한 경험으로부터 도출됩니다. 이는 선호도 기반 학습이 원칙적인 실험 전략을 복원할 수 있음을 시사하며, 이는 이론과 학습된 도메인 적응을 보완합니다.

Original Abstract

Discovering causal relationships requires controlled experiments, but experimentalists face a sequential decision problem: each intervention reveals information that should inform what to try next. Traditional approaches such as random sampling, greedy information maximization, and round-robin coverage treat each decision in isolation, unable to learn adaptive strategies from experience. We propose Active Causal Experimentalist (ACE), which learns experimental design as a sequential policy. Our key insight is that while absolute information gains diminish as knowledge accumulates (making value-based RL unstable), relative comparisons between candidate interventions remain meaningful throughout. ACE exploits this via Direct Preference Optimization, learning from pairwise intervention comparisons rather than non-stationary reward magnitudes. Across synthetic benchmarks, physics simulations, and economic data, ACE achieves 70-71% improvement over baselines at equal intervention budgets (p < 0.001, Cohen's d ~ 2). Notably, the learned policy autonomously discovers that collider mechanisms require concentrated interventions on parent variables, a theoretically-grounded strategy that emerges purely from experience. This suggests preference-based learning can recover principled experimental strategies, complementing theory with learned domain adaptation.

0 Citations
0 Influential
0.5 Altmetric
2.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!