Omanic: 대규모 언어 모델의 다중 단계 추론 평가를 위한 단계별 접근 방식
Omanic: Towards Step-wise Evaluation of Multi-hop Reasoning in Large Language Models
추론에 특화된 대규모 언어 모델(LLM)은 다양한 자연어 처리 작업에서 상당한 발전을 이루었지만, 그 평가에는 여전히 어려움이 존재합니다. 최종 답변만으로는 모델의 중간 추론 과정을 파악하기 어렵기 때문에, 모델이 실제로 올바르게 추론하는지, 그리고 어디에서 오류가 발생하는지 판단하기 어렵습니다. 또한, 기존의 다중 홉 질의응답 벤치마크는 추론 실패를 진단하기 위한 단계별 주석이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 추론 과정을 분석하기 위한 구조화된 주석(분해된 하위 질문 및 중간 답변)을 제공하는 개방형 다중 홉 질의응답 리소스인 Omanic을 제안합니다. Omanic은 10,296개의 기계 생성 훈련 예제(OmanicSynth)와 967개의 전문가 검토를 거친 인간 주석 평가 예제(OmanicBench)로 구성되어 있습니다. 체계적인 평가는 최첨단 LLM이 OmanicBench에서 73.11%의 다중 선택 정확도를 달성하는 데 그친다는 것을 보여주며, 이는 OmanicBench의 높은 난이도를 확인합니다. 단계별 분석 결과, CoT의 성능은 사실 정보의 완전성에 크게 의존하며, 지식 격차가 발생하면 성능 향상이 감소하고 후반 단계에서 오류가 증폭되는 경향이 있습니다. 또한, OmanicSynth에 대한 지도 학습은 6개의 추론 및 수학 벤치마크에서 상당한 성능 향상(평균 7.41 포인트)을 가져왔으며, 이는 데이터셋의 품질을 검증하고 OmanicSynth가 추론 능력 향상을 위한 지도 학습으로 효과적임을 뒷받침합니다. 데이터는 https://huggingface.co/datasets/li-lab/Omanic에서, 코드는 https://github.com/XiaojieGu/Omanic에서 확인할 수 있습니다.
Reasoning-focused large language models (LLMs) have advanced in many NLP tasks, yet their evaluation remains challenging: final answers alone do not expose the intermediate reasoning steps, making it difficult to determine whether a model truly reasons correctly and where failures occur, while existing multi-hop QA benchmarks lack step-level annotations for diagnosing reasoning failures. To address this gap, we propose Omanic, an open-domain multi-hop QA resource that provides decomposed sub-questions and intermediate answers as structural annotations for analyzing reasoning processes. It contains 10,296 machine-generated training examples (OmanicSynth) and 967 expert-reviewed human-annotated evaluation examples (OmanicBench). Systematic evaluations show that state-of-the-art LLMs achieve only 73.11% multiple-choice accuracy on OmanicBench, confirming its high difficulty. Stepwise analysis reveals that CoT's performance hinges on factual completeness, with its gains diminishing under knowledge gaps and errors amplifying in later hops. Additionally, supervised fine-tuning on OmanicSynth brings substantial transfer gains (7.41 average points) across six reasoning and math benchmarks, validating the dataset's quality and further supporting the effectiveness of OmanicSynth as supervision for reasoning-capability transfer. We release the data at https://huggingface.co/datasets/li-lab/Omanic and the code at https://github.com/XiaojieGu/Omanic.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.