2025년 중반, LLM 지원이 생물학 분야 초보자 수행 능력에 미치는 영향 측정
Measuring Mid-2025 LLM-Assistance on Novice Performance in Biology
대규모 언어 모델(LLM)은 생물학 관련 벤치마크에서 뛰어난 성능을 보이며, 이는 초보 연구자들이 이중 용도 실험 기술을 습득하는 데 도움이 될 수 있다는 우려를 불러일으킵니다. 그러나 이러한 기술이 실제 실험실 환경에서 인간의 수행 능력을 향상시키는지 여부는 아직 명확하지 않습니다. 이를 해결하기 위해, 우리는 2025년 6월부터 8월까지 진행된 사전 등록, 연구자 맹검, 무작위 대조 시험(n = 153)을 통해 LLM이 바이러스 역유전체 워크플로우를 모델링하는 작업에서 초보자의 수행 능력을 향상시키는지 평가했습니다. 전체 워크플로우 완료율(LLM 그룹: 5.2%, 인터넷 그룹: 6.6%, P = 0.759) 및 개별 작업 성공률에서 통계적으로 유의미한 차이가 나타나지 않았습니다. 그러나 LLM 그룹은 5가지 작업 중 4가지에서 수치적으로 더 높은 성공률을 보였으며, 특히 세포 배양 작업에서 두드러졌습니다(LLM 그룹: 68.8%, 인터넷 그룹: 55.3%, P = 0.059). 통합 데이터를 활용한 사후 베이지안 모델링 분석 결과, LLM 지원 시
Large language models (LLMs) perform strongly on biological benchmarks, raising concerns that they may help novice actors acquire dual-use laboratory skills. Yet, whether this translates to improved human performance in the physical laboratory remains unclear. To address this, we conducted a pre-registered, investigator-blinded, randomized controlled trial (June-August 2025; n = 153) evaluating whether LLMs improve novice performance in tasks that collectively model a viral reverse genetics workflow. We observed no significant difference in the primary endpoint of workflow completion (5.2% LLM vs. 6.6% Internet; P = 0.759), nor in the success rate of individual tasks. However, the LLM arm had numerically higher success rates in four of the five tasks, most notably for the cell culture task (68.8% LLM vs. 55.3% Internet; P = 0.059). Post-hoc Bayesian modeling of pooled data estimates an approximate 1.4-fold increase (95% CrI 0.74-2.62) in success for a "typical" reverse genetics task under LLM assistance. Ordinal regression modelling suggests that participants in the LLM arm were more likely to progress through intermediate steps across all tasks (posterior probability of a positive effect: 81%-96%). Overall, mid-2025 LLMs did not substantially increase novice completion of complex laboratory procedures but were associated with a modest performance benefit. These results reveal a gap between in silico benchmarks and real-world utility, underscoring the need for physical-world validation of AI biosecurity assessments as model capabilities and user proficiency evolve.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.