InnoEval: 지식 기반의 다각적 추론 문제로서의 연구 아이디어 평가
InnoEval: On Research Idea Evaluation as a Knowledge-Grounded, Multi-Perspective Reasoning Problem
대규모 언어 모델의 급속한 발전은 과학적 아이디어 생산을 촉진했지만, 아이디어 평가 분야는 이에 상응하는 발전을 이루지 못했습니다. 과학적 평가는 지식 기반, 집단적 숙고, 다중 기준 의사 결정을 필요로 합니다. 그러나 기존의 아이디어 평가 방법은 종종 제한적인 지식 범위, 단순화된 평가 차원, 그리고 LLM-as-a-Judge의 고유한 편향 문제를 안고 있습니다. 이러한 문제를 해결하기 위해, 우리는 아이디어 평가를 지식 기반의 다각적 추론 문제로 간주하고, 인간 수준의 아이디어 평가를 모방하도록 설계된 심층 혁신 평가 프레임워크인 InnoEval을 소개합니다. InnoEval은 다양한 온라인 소스에서 동적 증거를 검색하고 활용하는 이질적인 심층 지식 검색 엔진을 사용합니다. 또한, 다양한 학문적 배경을 가진 검토자들로 구성된 혁신 검토 위원회를 활용하여, 다차원적이고 독립적인 평가를 여러 지표에 걸쳐 수행하여 검토자 간의 합의를 달성합니다. InnoEval의 성능을 평가하기 위해, 신뢰할 수 있는 동료 검토 제출물에서 파생된 포괄적인 데이터 세트를 구축했습니다. 실험 결과, InnoEval은 개별, 쌍대, 그룹 평가 작업에서 기존 방법보다 일관되게 우수한 성능을 보였으며, 인간 전문가와 매우 유사한 판단 패턴과 합의를 나타냅니다.
The rapid evolution of Large Language Models has catalyzed a surge in scientific idea production, yet this leap has not been accompanied by a matching advance in idea evaluation. The fundamental nature of scientific evaluation needs knowledgeable grounding, collective deliberation, and multi-criteria decision-making. However, existing idea evaluation methods often suffer from narrow knowledge horizons, flattened evaluation dimensions, and the inherent bias in LLM-as-a-Judge. To address these, we regard idea evaluation as a knowledge-grounded, multi-perspective reasoning problem and introduce InnoEval, a deep innovation evaluation framework designed to emulate human-level idea assessment. We apply a heterogeneous deep knowledge search engine that retrieves and grounds dynamic evidence from diverse online sources. We further achieve review consensus with an innovation review board containing reviewers with distinct academic backgrounds, enabling a multi-dimensional decoupled evaluation across multiple metrics. We construct comprehensive datasets derived from authoritative peer-reviewed submissions to benchmark InnoEval. Experiments demonstrate that InnoEval can consistently outperform baselines in point-wise, pair-wise, and group-wise evaluation tasks, exhibiting judgment patterns and consensus highly aligned with human experts.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.