잘못된 질문에 답하는 것: LLM의 회피(Abstention)를 위한 추론 과정 역전(Reasoning Trace Inversion)
Answering the Wrong Question: Reasoning Trace Inversion for Abstention in LLMs
대규모 언어 모델(LLM)이 안정적으로 활용되기 위해서는 모델이 답변할 필요가 없을 때, 즉 회피(abstain)할 수 있어야 합니다. 특히, 추론 모델은 복잡한 작업에서 뛰어난 성능을 보여주며 주목받고 있습니다. 그러나 추론 모델은 다른 모델에 비해 회피 능력이 떨어지는 경향이 있습니다. 이러한 추론 모델의 취약점을 고려하여, 저희는 Query Misalignment Framework를 제안합니다. 잘못된 회피로 이어지는 환각(hallucination) 현상을, 단순히 질문에 오답하는 것이 아니라 LLM이 '잘못된 질문'에 답하는 것으로 재해석할 수 있습니다. 이러한 프레임워크를 기반으로, 저희는 Trace Inversion이라는 새로운 최첨단 회피 방법을 개발했습니다. 먼저, 모델의 추론 과정을 생성합니다. 생성된 추론 과정만을 사용하여, 모델이 실제로 응답한 가장 가능성 높은 질문을 재구성합니다. 마지막으로, 초기 질문과 재구성된 질문을 비교합니다. 초기 질문과 재구성된 질문 간의 유사성 점수가 낮을 경우, 모델이 질문에 잘못 답했을 가능성이 높다고 판단하여 회피하도록 합니다. 광범위한 실험 결과, Trace Inversion은 9개의 회피 질문-응답 데이터셋에서 4개의 최첨단 LLM의 회피 성능을 효과적으로 향상시켰으며, 36개의 설정 중 33개에서 경쟁적인 기준 모델을 능가하는 성능을 보였습니다.
For Large Language Models (LLMs) to be reliably deployed, models must effectively know when not to answer: abstain. Reasoning models, in particular, have gained attention for impressive performance on complex tasks. However, reasoning models have been shown to have worse abstention abilities. Taking the vulnerabilities of reasoning models into account, we propose our Query Misalignment Framework. Hallucinations resulting in failed abstention can be reinterpreted as LLMs answering the wrong question (rather than answering a question incorrectly). Based on this framework, we develop a new class of state-of-the-art abstention methods called Trace Inversion. First, we generate the reasoning trace of a model. Based on only the trace, we then reconstruct the most likely query that the model responded to. Finally, we compare the initial query with the reconstructed query. Low similarity score between the initial query and reconstructed query suggests that the model likely answered the question incorrectly and is flagged to abstain. Extensive experiments demonstrate that Trace Inversion effectively boosts abstention performance in four frontier LLMs across nine abstention QA datasets, beating competitive baselines in 33 out of 36 settings.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.