LLM 초보자 활용 연구: 이중 사용 가능성이 있는, 인공 생물학 관련 과제에서의 효과
LLM Novice Uplift on Dual-Use, In Silico Biology Tasks
대규모 언어 모델(LLM)은 생물학 관련 벤치마크에서 점점 더 높은 성능을 보이고 있지만, LLM이 초보 사용자의 능력을 향상시키는지, 즉 인터넷 검색만으로는 얻을 수 없는 수준의 성능을 가능하게 하는지 여부는 여전히 불분명합니다. 이러한 불확실성은 과학 발전과 동시에 이중 사용 위험을 이해하는 데 중요합니다. 본 연구에서는 다중 모델, 다중 벤치마크를 활용하여 LLM 접근 권한이 있는 초보자와 인터넷 검색만 가능한 초보자를 비교하는 인간 활용 연구를 수행했습니다. 연구 참여자들은 생물 보안과 관련된 8가지 과제 세트에서 복잡한 문제를 해결했으며, 가장 복잡한 과제는 최대 13시간까지 소요되었습니다. 연구 결과, LLM 접근은 상당한 성능 향상을 가져왔습니다. LLM을 사용한 초보자 그룹은 그렇지 않은 대조군보다 정확도가 4.16배 높았습니다 (95% 신뢰 구간 [2.63, 6.87]). 네 가지 벤치마크에서 인터넷 검색만 사용한 전문가의 기준 데이터가 있는 경우, LLM을 사용한 초보자 그룹은 세 가지 벤치마크에서 전문가보다 높은 성과를 보였습니다. 놀랍게도, 독립적으로 사용된 LLM은 종종 LLM을 활용한 초보자 그룹보다 더 높은 성능을 보였습니다. 이는 사용자들이 LLM으로부터 최대한의 정보를 이끌어내지 못하고 있다는 것을 시사합니다. 대부분의 참여자(89.6%)는 안전 장치에도 불구하고 이중 사용과 관련된 정보를 얻는 데 큰 어려움이 없다고 보고했습니다. 전반적으로, LLM은 기존에는 숙련된 전문가만 수행할 수 있었던 생물학 관련 과제에서 초보자의 능력을 크게 향상시킵니다. 따라서 기존 벤치마크와 더불어 지속적인, 상호 작용적인 성능 평가가 필요합니다.
Large language models (LLMs) perform increasingly well on biology benchmarks, but it remains unclear whether they uplift novice users -- i.e., enable humans to perform better than with internet-only resources. This uncertainty is central to understanding both scientific acceleration and dual-use risk. We conducted a multi-model, multi-benchmark human uplift study comparing novices with LLM access versus internet-only access across eight biosecurity-relevant task sets. Participants worked on complex problems with ample time (up to 13 hours for the most involved tasks). We found that LLM access provided substantial uplift: novices with LLMs were 4.16 times more accurate than controls (95% CI [2.63, 6.87]). On four benchmarks with available expert baselines (internet-only), novices with LLMs outperformed experts on three of them. Perhaps surprisingly, standalone LLMs often exceeded LLM-assisted novices, indicating that users were not eliciting the strongest available contributions from the LLMs. Most participants (89.6%) reported little difficulty obtaining dual-use-relevant information despite safeguards. Overall, LLMs substantially uplift novices on biological tasks previously reserved for trained practitioners, underscoring the need for sustained, interactive uplift evaluations alongside traditional benchmarks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.