이론 추적 카드(Theory Trace Card): LLM에 대한 이론 기반의 사회인지적 평가
Theory Trace Card: Theory-Driven Socio-Cognitive Evaluation of LLMs
대규모 언어 모델(LLM)을 위한 사회인지적 벤치마크는 모델이 높은 점수를 기록하더라도 실제 세계에서의 행동을 예측하는 데 실패하는 경우가 많습니다. 기존 연구들은 이러한 평가와 배포 간의 격차를 측정 및 타당성의 문제로 보았습니다. 이러한 비판은 통찰력이 있지만, 우리는 이들이 더 근본적인 문제를 간과하고 있다고 주장합니다. 즉, 많은 사회인지적 평가가 대상 능력에 대한 명시적인 이론적 명세 없이 진행되며, 과제 수행과 능력 간의 연관성을 잇는 가정들을 암묵적인 상태로 남겨둔다는 점입니다. 이러한 이론적 근거가 없으면, 능력의 좁은 일부분만을 시험하는 벤치마크가 광범위한 능력을 갖춘 증거로 오해받기 쉽습니다. 이는 해당 능력의 다른 필수적인 차원들을 평가하지 못한 실패를 가려 구조적인 '타당성 환상(validity illusion)'을 만들어내는 격차입니다. 이 문제를 해결하기 위해 우리는 두 가지 기여를 합니다. 첫째, 우리는 이러한 '이론적 격차'를 측정을 약화시키고 벤치마크 결과의 체계적인 과잉 일반화를 초래하는 근본적인 실패로 진단하고 공식화합니다. 둘째, 사회인지적 평가에 수반되도록 설계된 경량 문서화 도구인 '이론 추적 카드(TTC)'를 소개합니다. TTC는 평가의 이론적 기반, 평가가 다루는 대상 능력의 구성 요소, 조작화 방식, 그리고 한계를 명시적으로 기술합니다. 우리는 TTC가 벤치마크를 수정하거나 단일 이론에 대한 합의를 요구하지 않으면서도, 이론, 과제 조작화, 채점, 한계를 연결하는 전체 타당성 사슬을 명시화함으로써 사회인지적 평가의 해석 가능성과 재사용성을 향상시킨다고 주장합니다.
Socio-cognitive benchmarks for large language models (LLMs) often fail to predict real-world behavior, even when models achieve high benchmark scores. Prior work has attributed this evaluation-deployment gap to problems of measurement and validity. While these critiques are insightful, we argue that they overlook a more fundamental issue: many socio-cognitive evaluations proceed without an explicit theoretical specification of the target capability, leaving the assumptions linking task performance to competence implicit. Without this theoretical grounding, benchmarks that exercise only narrow subsets of a capability are routinely misinterpreted as evidence of broad competence: a gap that creates a systemic validity illusion by masking the failure to evaluate the capability's other essential dimensions. To address this gap, we make two contributions. First, we diagnose and formalize this theory gap as a foundational failure that undermines measurement and enables systematic overgeneralization of benchmark results. Second, we introduce the Theory Trace Card (TTC), a lightweight documentation artifact designed to accompany socio-cognitive evaluations, which explicitly outlines the theoretical basis of an evaluation, the components of the target capability it exercises, its operationalization, and its limitations. We argue that TTCs enhance the interpretability and reuse of socio-cognitive evaluations by making explicit the full validity chain, which links theory, task operationalization, scoring, and limitations, without modifying benchmarks or requiring agreement on a single theory.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.