추론 경로를 통한 블랙박스 신뢰도 측정: 기하학적 특성, 범위, 그리고 언어화
Measuring Black-Box Confidence via Reasoning Trajectories: Geometry, Coverage, and Verbalization
신뢰할 수 있는 신뢰도 추정은 텍스트 기반 API를 통한 연쇄적 사고(Chain-of-Thought, CoT) 추론의 안전한 배포를 가능하게 합니다. 그러나 현재 널리 사용되는 블랙박스 방법인 K개의 샘플에 대한 자기 일관성(self-consistency)은 계산 비용이 높고 추론 경로의 기하학적 특성을 고려하지 않습니다. 본 논문에서는 블랙박스 추론 경로 신뢰도 점수를 제안합니다. CoT를 슬라이딩 윈도우 추론 경로로 표현하고, 1개의 파라미터를 가진 소프트맥스 함수를 사용하여 외부 정답과의 수렴성을 측정합니다. 이 방법은 로짓, 숨겨진 상태 또는 지도 학습 기반 교정기 없이 사용할 수 있습니다. Gemini 3.1 Pro 및 Claude Sonnet 4.6을 사용하여 MedQA-USMLE, GPQA Diamond, 및 MMLU-Pro의 6가지(벤치마크, 추론 모델) 설정에서, K=4일 때 제안하는 신뢰도 점수를 범위(coverage) 및 언어화된 신뢰도 채널과 결합하면, K=8일 때의 자기 일관성 방법보다 6가지 설정 모두에서 파레토 개선을 달성했습니다(중앙값 AUC 0.78 vs 0.71, deltaAUC=+0.075). 고정 선택 제어(fixed-pick control) 및 E5 크로스-임베더 복제(cross-embedder replication) 규칙을 통해 정답 변경 및 특정 벤더의 오류를 배제했습니다. 기하학적 특성은 대부분의 벤치마크 및 추론 모델에서 마지막 윈도우에서 최고점을 보이며, GPQA Diamond에서는 마지막 윈도우에서 반전되는 경향을 보입니다. 세 가지 비구조화된 방식은 블랙박스 신뢰도를 판별 기준 기반의 범위(C), 추론 경로 내의 기하학적 특성(G), 그리고 조건부 언어화 채널(V)로 분리합니다. 18가지(벤치마크 x 추론 모델 x 제안자) 설정에서, C와 G는 각각 18/18 및 16/18에서 독립적인 신호를 제공하며, V는 6/18에서 추가적인 신호를 제공합니다. 판별 기준을 GPT-5-mini에서 Claude Sonnet 4.6으로 변경하면, G만 사용하는 AUC는 거의 변화가 없거나 미미한 변화만 나타냅니다(|delta|<=0.013), 반면 C만 사용하는 AUC는 최대 +/-0.02의 변화를 보입니다(kappa=0.82). 제안하는 방법은 17/18 설정에서 가장 좋은 단일 채널보다 우수한 성능을 보였습니다(중앙값 AUC 0.78, 최대 0.92).
Reliable confidence estimation enables safe deployment of chain-of-thought (CoT) reasoning through text-only APIs. Yet the dominant black-box baseline, self-consistency over K samples, is linearly expensive and ignores the geometry of the trace. We propose a black-box trajectory-confidence score: we embed a CoT as a sliding-window trajectory and measure its convergence to external answer anchors with a one-parameter softmax. The method needs no logits, hidden states, or supervised calibrators. Across six (benchmark, reasoner) settings on MedQA-USMLE, GPQA Diamond, and MMLU-Pro with Gemini 3.1 Pro and Claude Sonnet 4.6, fusing this score with coverage and verbalized-confidence channels at K=4 yields Pareto improvements over self-consistency at K=8 in 6/6 settings (median AUC 0.78 vs 0.71, deltaAUC=+0.075). A fixed-pick control (+0.060) and E5 cross-embedder replication rule out answer switching and single-vendor artifacts. Geometry peaks in the penultimate window across benchmarks and reasoners, and inverts at the terminal window on GPQA Diamond. Three unscaffolded regimes separate black-box confidence into a judge-mediated Coverage prior (C), within-trace Geometry (G), and a conditional Verbalization channel (V). Across 18 benchmark x reasoner x proposer settings, C and G provide independent signal in 18/18 and 16/18, while V contributes residual signal in 6/18. Swapping the judge from GPT-5-mini to Claude Sonnet 4.6 leaves G-only AUC unchanged (|delta|<=0.013) and shifts C-only AUC by at most +/-0.02 (kappa=0.82). Fusion beats the best single channel in 17/18 settings (median AUC 0.78, max 0.92).
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.