2605.06308v1 May 07, 2026 cs.AI

추론 경로를 통한 블랙박스 신뢰도 측정: 기하학적 특성, 범위, 그리고 언어화

Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization

Marc Boubnovski Martell
Marc Boubnovski Martell
Citations: 36
h-index: 4
Josefa Lia Stoisser
Josefa Lia Stoisser
Citations: 36
h-index: 4
Jesper Ferkinghoff-Borg
Jesper Ferkinghoff-Borg
Citations: 46
h-index: 2
Philip Torr
Philip Torr
Citations: 946
h-index: 15
K. Martens
K. Martens
Citations: 25
h-index: 2
Jiali Yu
Jiali Yu
Citations: 3
h-index: 1
Robert Kitchen
Robert Kitchen
Citations: 69
h-index: 1

신뢰할 수 있는 신뢰도 추정은 텍스트 기반 API를 통한 연쇄적 사고(Chain-of-Thought, CoT) 추론의 안전한 배포를 가능하게 합니다. 그러나 현재 널리 사용되는 블랙박스 방법인 K개의 샘플에 대한 자기 일관성(self-consistency)은 계산 비용이 높고 추론 경로의 기하학적 특성을 고려하지 않습니다. 본 논문에서는 블랙박스 추론 경로 신뢰도 점수를 제안합니다. CoT를 슬라이딩 윈도우 추론 경로로 표현하고, 1개의 파라미터를 가진 소프트맥스 함수를 사용하여 외부 정답과의 수렴성을 측정합니다. 이 방법은 로짓, 숨겨진 상태 또는 지도 학습 기반 교정기 없이 사용할 수 있습니다. Gemini 3.1 Pro 및 Claude Sonnet 4.6을 사용하여 MedQA-USMLE, GPQA Diamond, 및 MMLU-Pro의 6가지(벤치마크, 추론 모델) 설정에서, K=4일 때 제안하는 신뢰도 점수를 범위(coverage) 및 언어화된 신뢰도 채널과 결합하면, K=8일 때의 자기 일관성 방법보다 6가지 설정 모두에서 파레토 개선을 달성했습니다(중앙값 AUC 0.78 vs 0.71, deltaAUC=+0.075). 고정 선택 제어(fixed-pick control) 및 E5 크로스-임베더 복제(cross-embedder replication) 규칙을 통해 정답 변경 및 특정 벤더의 오류를 배제했습니다. 기하학적 특성은 대부분의 벤치마크 및 추론 모델에서 마지막 윈도우에서 최고점을 보이며, GPQA Diamond에서는 마지막 윈도우에서 반전되는 경향을 보입니다. 세 가지 비구조화된 방식은 블랙박스 신뢰도를 판별 기준 기반의 범위(C), 추론 경로 내의 기하학적 특성(G), 그리고 조건부 언어화 채널(V)로 분리합니다. 18가지(벤치마크 x 추론 모델 x 제안자) 설정에서, C와 G는 각각 18/18 및 16/18에서 독립적인 신호를 제공하며, V는 6/18에서 추가적인 신호를 제공합니다. 판별 기준을 GPT-5-mini에서 Claude Sonnet 4.6으로 변경하면, G만 사용하는 AUC는 거의 변화가 없거나 미미한 변화만 나타냅니다(|delta|<=0.013), 반면 C만 사용하는 AUC는 최대 +/-0.02의 변화를 보입니다(kappa=0.82). 제안하는 방법은 17/18 설정에서 가장 좋은 단일 채널보다 우수한 성능을 보였습니다(중앙값 AUC 0.78, 최대 0.92).

Original Abstract

Reliable confidence estimation enables safe deployment of chain-of-thought (CoT) reasoning through text-only APIs. Yet the dominant black-box baseline, self-consistency over K samples, is linearly expensive and ignores the geometry of the trace. We propose a black-box trajectory-confidence score: we embed a CoT as a sliding-window trajectory and measure its convergence to external answer anchors with a one-parameter softmax. The method needs no logits, hidden states, or supervised calibrators. Across six (benchmark, reasoner) settings on MedQA-USMLE, GPQA Diamond, and MMLU-Pro with Gemini 3.1 Pro and Claude Sonnet 4.6, fusing this score with coverage and verbalized-confidence channels at K=4 yields Pareto improvements over self-consistency at K=8 in 6/6 settings (median AUC 0.78 vs 0.71, deltaAUC=+0.075). A fixed-pick control (+0.060) and E5 cross-embedder replication rule out answer switching and single-vendor artifacts. Geometry peaks in the penultimate window across benchmarks and reasoners, and inverts at the terminal window on GPQA Diamond. Three unscaffolded regimes separate black-box confidence into a judge-mediated Coverage prior (C), within-trace Geometry (G), and a conditional Verbalization channel (V). Across 18 benchmark x reasoner x proposer settings, C and G provide independent signal in 18/18 and 16/18, while V contributes residual signal in 6/18. Swapping the judge from GPT-5-mini to Claude Sonnet 4.6 leaves G-only AUC unchanged (|delta|<=0.013) and shifts C-only AUC by at most +/-0.02 (kappa=0.82). Fusion beats the best single channel in 17/18 settings (median AUC 0.78, max 0.92).

0 Citations
0 Influential
7.5 Altmetric
37.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!