2602.08889v1 Feb 09, 2026 cs.AI

확장 가능한 델파이: 구조화된 위험 추정을 위한 거대언어모델

Scalable Delphi: Large Language Models for Structured Risk Estimation

Tobias Lorenz
Tobias Lorenz
CISPA Helmholtz Center for Information Security
Citations: 1,065
h-index: 3
Mario Fritz
Mario Fritz
Citations: 270
h-index: 4

고위험 영역에서의 정량적 위험 평가는 관측 불가능한 속성을 추정하기 위해 구조화된 전문가 의견 도출에 의존합니다. 골드 스탠다드인 델파이 기법은 보정되고 감사 가능한 판단을 산출하지만, 수개월의 조정 기간과 전문가의 시간을 필요로 하여 대부분의 응용 분야에서 엄격한 위험 평가를 수행하기 어렵게 만듭니다. 본 연구는 거대언어모델(LLM)이 구조화된 전문가 도출을 위한 확장 가능한 대리자 역할을 할 수 있는지 조사합니다. 우리는 다양한 전문가 페르소나, 반복적 정제, 근거 공유를 적용하여 고전적 프로토콜을 LLM에 맞게 조정한 '확장 가능한 델파이(Scalable Delphi)'를 제안합니다. 추정 대상이 일반적으로 관측 불가능하기 때문에, 우리는 검증 가능한 대리 지표에 대한 보정, 증거에 대한 민감도, 인간 전문가 판단과의 정렬이라는 필요 조건에 기반한 평가 프레임워크를 개발했습니다. 우리는 3가지 역량 벤치마크와 독립적인 인간 의견 도출 연구를 활용하여 AI 기반 사이버 보안 위험 영역에서 이를 평가했습니다. LLM 패널은 벤치마크 실측 자료와 강한 상관관계(Pearson r=0.87-0.95)를 보였고, 증거가 추가됨에 따라 체계적으로 개선되었으며, 인간 전문가 패널과 일치하는 경향을 보였습니다. 심지어 한 비교에서는 두 인간 패널 간의 일치도보다 LLM 패널이 인간 패널에 더 근접한 결과를 보였습니다. 이는 LLM 기반 도출이 전통적인 방법으로는 실행 불가능했던 환경으로 구조화된 전문가 판단을 확장할 수 있으며, 도출 시간을 수개월에서 수분으로 단축할 수 있음을 입증합니다.

Original Abstract

Quantitative risk assessment in high-stakes domains relies on structured expert elicitation to estimate unobservable properties. The gold standard - the Delphi method - produces calibrated, auditable judgments but requires months of coordination and specialist time, placing rigorous risk assessment out of reach for most applications. We investigate whether Large Language Models (LLMs) can serve as scalable proxies for structured expert elicitation. We propose Scalable Delphi, adapting the classical protocol for LLMs with diverse expert personas, iterative refinement, and rationale sharing. Because target quantities are typically unobservable, we develop an evaluation framework based on necessary conditions: calibration against verifiable proxies, sensitivity to evidence, and alignment with human expert judgment. We evaluate in the domain of AI-augmented cybersecurity risk, using three capability benchmarks and independent human elicitation studies. LLM panels achieve strong correlations with benchmark ground truth (Pearson r=0.87-0.95), improve systematically as evidence is added, and align with human expert panels - in one comparison, closer to a human panel than the two human panels are to each other. This demonstrates that LLM-based elicitation can extend structured expert judgment to settings where traditional methods are infeasible, reducing elicitation time from months to minutes.

0 Citations
0 Influential
2 Altmetric
10.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!