STEER: 제약 조건 기반 품질-다양성 탐색을 통한 추론 시간 위험 제어
STEER: Inference-Time Risk Control via Constrained Quality-Diversity Search
평균적인 정확도를 목표로 학습된 대규모 언어 모델(LLM)은 종종 '모드 붕괴' 현상을 보여주며, 여러 답변이 합리적일 수 있는 작업에서 좁은 의사 결정 경향을 나타냅니다. 이러한 제한은 임상 응급 상황 분류와 같이 순위 기반 의사 결정 환경에서 특히 문제가 됩니다. 왜냐하면 일반적인 정렬 방식은 문맥적 제약 조건에 따라 특이도와 민감도(ROC 운영 지점)를 조정하는 능력을 제거하기 때문입니다. 우리는 STEER(Steerable Tuning via Evolutionary Ensemble Refinement, 진화적 앙상블 정제를 통한 제어 가능한 조정)라는 학습이 필요 없는 프레임워크를 제안합니다. STEER는 오프라인에서 제약 조건 기반 품질-다양성 탐색을 통해 자연어 페르소나 집단을 구성하며, 이는 최소한의 안전성, 추론 능력 및 안정성 기준을 유지하면서 행동적 다양성을 촉진합니다. 추론 시, STEER는 단일하고 해석 가능한 제어 매개변수를 제공하며, 이 매개변수는 사용자가 지정한 위험 백분율을 선택된 페르소나에 매핑하여 의사 결정의 보수성을 단조적으로 조정합니다. 두 가지 임상 응급 상황 분류 벤치마크에서 STEER는 온도 기반 샘플링 및 정적 페르소나 앙상블에 비해 더 넓은 행동적 다양성을 달성했습니다. 대표적인 사후 학습 방법과 비교했을 때, STEER는 명확한 긴급 사례에서 훨씬 높은 정확도를 유지하면서 모호한 결정에 대한 제어 능력은 유사하게 제공합니다. 이러한 결과는 STEER가 도메인 전문성을 손상시키지 않고 행동을 조정할 수 있는 위험 제어를 위한 안전성을 유지하는 패러다임임을 보여줍니다.
Large Language Models (LLMs) trained for average correctness often exhibit mode collapse, producing narrow decision behaviors on tasks where multiple responses may be reasonable. This limitation is particularly problematic in ordinal decision settings such as clinical triage, where standard alignment removes the ability to trade off specificity and sensitivity (the ROC operating point) based on contextual constraints. We propose STEER (Steerable Tuning via Evolutionary Ensemble Refinement), a training-free framework that reintroduces this tunable control. STEER constructs a population of natural-language personas through an offline, constrained quality-diversity search that promotes behavioral coverage while enforcing minimum safety, reasoning, and stability thresholds. At inference time, STEER exposes a single, interpretable control parameter that maps a user-specified risk percentile to a selected persona, yielding a monotonic adjustment of decision conservativeness. On two clinical triage benchmarks, STEER achieves broader behavioral coverage compared to temperature-based sampling and static persona ensembles. Compared to a representative post-training method, STEER maintains substantially higher accuracy on unambiguous urgent cases while providing comparable control over ambiguous decisions. These results demonstrate STEER as a safety-preserving paradigm for risk control, capable of steering behavior without compromising domain competence.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.