CONDESION-BENCH: 구성적 행동 공간에서의 대규모 언어 모델의 조건부 의사 결정
CONDESION-BENCH: Conditional Decision-Making of Large Language Models in Compositional Action Space
대규모 언어 모델은 문맥 이해 및 추론 능력을 바탕으로 고위험 영역에서 의사 결정 지원 도구로 널리 연구되어 왔습니다. 그러나 기존 의사 결정 벤치마크는 다음과 같은 두 가지 단순화된 가정을 기반으로 합니다. 첫째, 행동은 미리 정의된 후보 집합에서 선택되며, 둘째, 행동 가능성을 제한하는 명시적인 조건이 의사 결정 과정에 포함되지 않습니다. 이러한 가정은 실제 세계 행동의 구성적 구조와 행동의 유효성을 제한하는 명시적인 조건을 제대로 반영하지 못합니다. 이러한 한계를 극복하기 위해, 우리는 구성적 행동 공간에서의 조건부 의사 결정을 평가하기 위한 벤치마크인 CONDESION-BENCH를 소개합니다. CONDESION-BENCH에서는 행동이 의사 결정 변수에 대한 할당으로 정의되며, 변수, 문맥 및 할당 수준에서 명시적인 조건에 의해 제한됩니다. 우리는 오라클 기반 평가를 통해 의사 결정의 품질과 조건 준수 여부를 모두 평가함으로써, 대규모 언어 모델을 의사 결정 지원 도구로 사용하는 것에 대한 더욱 엄격한 평가를 제공합니다.
Large language models have been widely explored as decision-support tools in high-stakes domains due to their contextual understanding and reasoning capabilities. However, existing decision-making benchmarks rely on two simplifying assumptions: actions are selected from a finite set of pre-defined candidates, and explicit conditions restricting action feasibility are not incorporated into the decision-making process. These assumptions fail to capture the compositional structure of real-world actions and the explicit conditions that constrain their validity. To address these limitations, we introduce CONDESION-BENCH, a benchmark designed to evaluate conditional decision-making in compositional action space. In CONDESION-BENCH, actions are defined as allocations to decision variables and are restricted by explicit conditions at the variable, contextual, and allocation levels. By employing oracle-based evaluation of both decision quality and condition adherence, we provide a more rigorous assessment of LLMs as decision-support tools.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.