2603.16659v1 Mar 17, 2026 cs.AI

머신러닝이 기관의 흔적으로부터 과학적 판단력을 습득하다

Machines acquire scientific taste from institutional traces

Zhuoran Li
Zhuoran Li
Citations: 0
h-index: 0
Ziqi Gong
Ziqi Gong
Citations: 2
h-index: 1
Ning Li
Ning Li
Citations: 30
h-index: 3

인공지능은 단백질 구조 예측부터 올림피아드 수학 문제 풀이까지, 검증 가능한 답이 있는 과제에서 인간의 성능에 비견하거나 능가하는 성과를 보여줍니다. 하지만 과학 발전의 핵심은 논리적 추론이 아닌 '취향'입니다. 즉, 검증되지 않은 아이디어 중 어떤 아이디어가 추구할 가치가 있는지 판단하는 능력으로, 이는 편집자와 연구 자금 지원 기관에서 매일 사용되지만, 성공적으로 설명되거나 교육되거나 자동화된 적은 없습니다. 본 연구에서는 저널 출판 결정 데이터를 활용하여 언어 모델을 미세 조정함으로써, 최첨단 모델과 인간 전문가 모두에게는 접근 불가능했던 평가적 판단력을 회복할 수 있음을 보여줍니다. 경영 분야의 연구 제안서 벤치마크를 사용하여, 주요 독점 및 오픈 아키텍처를 기반으로 하는 11개의 최첨단 모델이 무작위 추정보다 약간 높은 31%의 정확도를 보였습니다. 저널 편집자와 편집 위원회 구성원들은 다수결 투표를 통해 42%의 정확도를 달성했습니다. 수년간의 출판 기록으로 훈련된 미세 조정 모델은 모든 최첨단 모델과 전문가 패널을 능가했으며, 가장 우수한 단일 모델은 59%의 정확도를 달성했습니다. 이러한 모델은 교정된 신뢰도를 나타내며, 가장 높은 신뢰도를 가진 예측에서 100%의 정확도를 보였고, 이 평가적 신호를 훈련되지 않은 쌍별 비교 및 한 문장 요약에 적용했습니다. 이러한 원리는 경제 분야의 출판 기록으로 훈련된 모델에서도 70%의 정확도를 달성하며 일반화됩니다. 과학적 '취향'은 인공지능의 도달 범위에서 누락된 것이 아니라, 기관 기록에 저장되어 있었으며, 추출될 때까지 기다리고 있었습니다. 이러한 결과는 공식적인 검증이 어려운 다양한 학문 분야에서 과학 연구 생산량의 증가를 효율적으로 평가할 수 있는 확장 가능한 메커니즘을 제공합니다.

Original Abstract

Artificial intelligence matches or exceeds human performance on tasks with verifiable answers, from protein folding to Olympiad mathematics. Yet the capacity that most governs scientific advance is not reasoning but taste: the ability to judge which untested ideas deserve pursuit, exercised daily by editors and funders but never successfully articulated, taught, or automated. Here we show that fine-tuning language models on journal publication decisions recovers evaluative judgment inaccessible to both frontier models and human expertise. Using a held-out benchmark of research pitches in management spanning four quality tiers, we find that eleven frontier models, spanning major proprietary and open architectures, barely exceed chance, averaging 31% accuracy. Panels of journal editors and editorial board members reach 42% by majority vote. Fine-tuned models trained on years of publication records each surpass every frontier model and expert panel, with the best single model achieving 59%. These models exhibit calibrated confidence, reaching 100% accuracy on their highest-confidence predictions, and transfer this evaluative signal to untrained pairwise comparisons and one-sentence summaries. The mechanism generalizes: models trained on economics publication records achieve 70% accuracy. Scientific taste was not missing from AI's reach; it was deposited in the institutional record, waiting to be extracted. These results provide a scalable mechanism to triage the expanding volume of scientific production across disciplines where quality resists formal verification.

0 Citations
0 Influential
1.5 Altmetric
7.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!