Sim2Act: 적대적 교정과 그룹 상대적 섭동을 통한 강력한 시뮬레이션 기반 의사 결정 학습
Sim2Act: Robust Simulation-to-Decision Learning via Adversarial Calibration and Group-Relative Perturbation
시뮬레이션 기반 의사 결정 학습은 실제 환경에 적용하기 전에 디지털 환경에서 안전하게 정책을 훈련할 수 있도록 하며, 공급망 및 산업 시스템과 같은 중요한 영역에서 필수적인 기술로 자리 잡았습니다. 그러나 노이즈가 있거나 편향된 실제 데이터로 학습된 시뮬레이터는 의사 결정에 중요한 영역에서 예측 오류를 보이는 경우가 많아, 불안정한 행동 순위 및 신뢰할 수 없는 정책을 초래할 수 있습니다. 기존의 접근 방식은 주로 평균적인 시뮬레이션 정확도를 향상시키거나 보수적인 정규화를 적용하는 데 초점을 맞추는데, 이는 높은 위험과 높은 보상을 동시에 가진 행동을 제거함으로써 정책의 성능 저하를 유발할 수 있습니다. 우리는 시뮬레이터와 정책의 강건성을 모두 향상시키는 강력한 시뮬레이션 기반 의사 결정 프레임워크인 Sim2Act을 제안합니다. 첫째, 의사 결정에 중요한 상태-행동 쌍에서 시뮬레이션 오류를 재가중하여 시뮬레이션 정확도를 실제 의사 결정에 미치는 영향과 일치시키는 적대적 교정 메커니즘을 도입합니다. 둘째, 시뮬레이터의 불확실성 하에서 정책 학습을 안정화시키면서 지나치게 비관적인 제약을 강제하지 않는 그룹 상대적 섭동 전략을 개발합니다. 다양한 공급망 벤치마크에 대한 광범위한 실험 결과, Sim2Act은 구조화된 및 비정형화된 섭동 조건 하에서 향상된 시뮬레이션 강건성과 더욱 안정적인 의사 결정 성능을 보여줍니다.
Simulation-to-decision learning enables safe policy training in digital environments without risking real-world deployment, and has become essential in mission-critical domains such as supply chains and industrial systems. However, simulators learned from noisy or biased real-world data often exhibit prediction errors in decision-critical regions, leading to unstable action ranking and unreliable policies. Existing approaches either focus on improving average simulation fidelity or adopt conservative regularization, which may cause policy collapse by discarding high-risk high-reward actions. We propose Sim2Act, a robust simulation-to-decision framework that addresses both simulator and policy robustness. First, we introduce an adversarial calibration mechanism that re-weights simulation errors in decision-critical state-action pairs to align surrogate fidelity with downstream decision impact. Second, we develop a group-relative perturbation strategy that stabilizes policy learning under simulator uncertainty without enforcing overly pessimistic constraints. Extensive experiments on multiple supply chain benchmarks demonstrate improved simulation robustness and more stable decision performance under structured and unstructured perturbations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.