2603.28590v2 Mar 30, 2026 cs.AI

MonitorBench: 대규모 언어 모델의 사고 과정 추적 가능성을 위한 종합적인 벤치마크

MonitorBench: A Comprehensive Benchmark for Chain-of-Thought Monitorability in Large Language Models

Naicheng Yu
Naicheng Yu
Citations: 3
h-index: 1
Huan Zhang
Huan Zhang
Citations: 31
h-index: 1
Han Wang
Han Wang
Citations: 11
h-index: 2
Yifan Sun
Yifan Sun
Citations: 52
h-index: 3
Brian Ko
Brian Ko
Citations: 24
h-index: 3
Mann Talati
Mann Talati
Citations: 0
h-index: 0
Jia Gong
Jia Gong
Citations: 50
h-index: 3
Xuchen Yu
Xuchen Yu
Citations: 29
h-index: 3
Wei Shen
Wei Shen
Citations: 40
h-index: 1
Vedant Jolly
Vedant Jolly
Citations: 42
h-index: 4
Zimeng Li
Zimeng Li
Citations: 10
h-index: 1

대규모 언어 모델(LLM)은 최종 결과에 반드시 인과적으로 연결되지 않는 사고 과정을 생성할 수 있습니다. 이러한 불일치가 발생하면, 사고 과정이 모델의 실제 작동 원인(즉, 의사 결정에 중요한 요소)을 정확하게 반영하지 못하게 되어, 사고 과정 추적 가능성이 저하되는 문제가 발생합니다. 그러나 사고 과정 추적 가능성을 철저히 평가할 수 있는 포괄적이고 완전한 오픈 소스 벤치마크는 아직 존재하지 않습니다. 이러한 문제점을 해결하기 위해, LLM의 사고 과정 추적 가능성을 평가하기 위한 체계적인 벤치마크인 MonitorBench를 제안합니다. MonitorBench는 다음과 같은 내용을 제공합니다. (1) 19개의 범주에 걸쳐 7가지 유형의 1,514개의 테스트 인스턴스를 제공하며, 각 인스턴스는 신중하게 설계된 의사 결정에 중요한 요소를 포함하여, extit{언제} 사고 과정을 사용하여 LLM의 작동 요소를 추적할 수 있는지 특성화합니다. (2) 사고 과정 추적 가능성이 extit{얼마나} 저하될 수 있는지 정량화하기 위한 두 가지 스트레스 테스트 환경을 제공합니다. 다양한 능력의 여러 인기 있는 LLM에 대한 광범위한 실험 결과, 의사 결정에 중요한 요소가 최종 답변에만 영향을 미치지 않고 중간 추론 과정을 형성할 때 사고 과정 추적 가능성이 더 높다는 것을 보여줍니다. 더 강력한 LLM은 추적 가능성이 낮은 경향이 있습니다. 또한, 평가된 모든 LLM은 스트레스 테스트를 통해 의도적으로 추적 가능성을 낮출 수 있으며, 일부 작업(특히 의사 결정에 중요한 요소에 대한 구조적 추론이 필요하지 않은 작업)에서 추적 가능성이 최대 30%까지 감소하는 것을 확인했습니다. 전반적으로, MonitorBench는 향후 LLM 평가, 고급 스트레스 테스트 추적 가능성 기술 연구 및 새로운 모니터링 접근 방식 개발을 위한 기반을 제공합니다. 코드는 https://github.com/ASTRAL-Group/MonitorBench 에서 이용할 수 있습니다.

Original Abstract

Large language models (LLMs) can generate chains of thought (CoTs) that are not always causally responsible for their final outputs. When such a mismatch occurs, the CoT no longer faithfully reflects the actual reasons (i.e., decision-critical factors) driving the model's behavior, leading to the reduced CoT monitorability problem. However, a comprehensive and fully open-source benchmark for thoroughly evaluating CoT monitorability remains lacking. To address this gap, we propose MonitorBench, a systematic benchmark for evaluating CoT monitorability in LLMs. MonitorBench provides: (1) a diverse set of 1,514 test instances with carefully designed decision-critical factors across 19 tasks spanning 7 categories to characterize \textit{when} CoTs can be used to monitor the factors driving LLM behavior; and (2) two stress-test settings to quantify \textit{the extent to which} CoT monitorability can be degraded. Extensive experiments across multiple popular LLMs with varying capabilities show that CoT monitorability is higher when the decision-critical factors shape the intermediate reasoning process without merely influencing the final answer. More capable LLMs tend to exhibit lower monitorability. And all evaluated LLMs can intentionally reduce monitorability under stress-tests, with monitorability dropping by up to 30\% in some tasks that do not require structural reasoning over the decision-critical factors. Overall, MonitorBench provides a basis for further research on evaluating future LLMs, studying advanced stress-test monitorability techniques, and developing new monitoring approaches. The code is available at https://github.com/ASTRAL-Group/MonitorBench.

0 Citations
0 Influential
33.51292546497 Altmetric
167.6 Score
Original PDF
9

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!