본 인간 대상 연구에는 인간 피험자가 포함되지 않았다: LLM 시뮬레이션의 행동학적 증거로서의 타당성 검증
This human study did not involve human subjects: Validating LLM simulations as behavioral evidence
사회과학 실험에서 비용 효율적이고 거의 즉각적인 응답을 생성하기 위해 대규모 언어 모델(LLM)을 가상 참여자로 사용하는 문헌이 증가하고 있다. 그러나 이러한 시뮬레이션이 언제 인간 행동에 대한 타당한 추론을 뒷받침하는지에 대한 지침은 제한적이다. 우리는 인과 효과의 타당한 추정치를 얻기 위한 두 가지 전략을 대조하고, 각 전략이 탐색적 연구와 확증적 연구 중 어디에 적합한지에 대한 가정을 명확히 한다. 휴리스틱 접근법은 프롬프트 엔지니어링, 모델 미세 조정, 그리고 LLM으로 인한 부정확성을 줄이기 위해 고안된 기타 수정 전략을 통해 시뮬레이션된 행동과 관찰된 인간 행동이 상호 대체 가능함을 입증하고자 한다. 많은 탐색적 작업에는 유용하지만, 휴리스틱 접근법은 확증적 연구에 전형적으로 요구되는 공식적인 통계적 보장이 부족하다. 대조적으로, 통계적 보정은 보조 인간 데이터와 통계적 조정을 결합하여 관찰된 응답과 시뮬레이션된 응답 간의 불일치를 보정한다. 명시적 가정 하에서, 통계적 보정은 인간 참여자에만 의존하는 실험보다 낮은 비용으로 타당성을 유지하며 인과 효과에 대한 더 정밀한 추정치를 제공한다. 그러나 두 접근법의 잠재력은 LLM이 관련 모집단을 얼마나 잘 근사하느냐에 달려 있다. 우리는 연구자들이 연구 내에서 인간 참여자를 LLM으로 대체하는 데에만 근시안적으로 집중할 때 어떤 기회들이 간과되는지 고찰한다.
A growing literature uses large language models (LLMs) as synthetic participants to generate cost-effective and nearly instantaneous responses in social science experiments. However, there is limited guidance on when such simulations support valid inference about human behavior. We contrast two strategies for obtaining valid estimates of causal effects and clarify the assumptions under which each is suitable for exploratory versus confirmatory research. Heuristic approaches seek to establish that simulated and observed human behavior are interchangeable through prompt engineering, model fine-tuning, and other repair strategies designed to reduce LLM-induced inaccuracies. While useful for many exploratory tasks, heuristic approaches lack the formal statistical guarantees typically required for confirmatory research. In contrast, statistical calibration combines auxiliary human data with statistical adjustments to account for discrepancies between observed and simulated responses. Under explicit assumptions, statistical calibration preserves validity and provides more precise estimates of causal effects at lower cost than experiments that rely solely on human participants. Yet the potential of both approaches depends on how well LLMs approximate the relevant populations. We consider what opportunities are overlooked when researchers focus myopically on substituting LLMs for human participants in a study.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.