Camyla: 의료 영상 분할 분야에서 자율적 연구의 확장
Camyla: Scaling Autonomous Research in Medical Image Segmentation
본 논문에서는 의료 영상 분할 분야에서 완전한 자율적 연구를 수행하는 시스템인 Camyla를 소개합니다. Camyla는 원시 데이터 세트를 사용하여 인간의 개입 없이 문헌 기반 연구 제안, 실행 가능한 실험 및 완성된 논문으로 변환합니다. 장기간의 자율적 실험은 세 가지 상호 관련된 과제를 제시합니다. 즉, 탐색 노력이 유망하지 않은 방향으로 편향되고, 이전 실험에서 얻은 지식이 맥락이 축적됨에 따라 손실되며, 실패로부터의 회복이 반복적인 점진적인 수정으로 이어집니다. 이러한 과제를 해결하기 위해, 본 시스템은 세 가지 결합된 메커니즘을 사용합니다. 첫째, 품질 가중 분기 탐색(Quality-Weighted Branch Exploration)은 경쟁적인 제안에 노력을 할당합니다. 둘째, 계층적 반사 메모리(Layered Reflective Memory)는 다양한 수준에서 여러 실험 간의 지식을 유지하고 압축합니다. 셋째, 발산적 진단 피드백(Divergent Diagnostic Feedback)은 성능이 저하된 실험 이후 회복 과정을 다양화합니다. 본 시스템은 2025년 출판물에서만 수집된 31개의 데이터 세트로 구성된 오염 없는 벤치마크인 CamylaBench에서 평가되었습니다. 엄격한 비개입 프로토콜 하에, 총 28일 동안 8개의 GPU 클러스터를 사용하여 두 번의 독립적인 실행을 수행했습니다. 두 번의 실행 동안 Camyla는 2,700개 이상의 새로운 모델 구현과 40개의 완성된 논문을 생성했으며, nnU-Net을 포함한 14개의 기존 아키텍처에서 선택된 최상의 개별 데이터 세트 기준 모델을 동일한 학습 예산 하에서 31개 데이터 세트 중 22개와 18개에서 능가했습니다(합계: 24/31). 숙련된 인간 검토자는 생성된 논문을 현대 의료 영상 저널의 T1/T2 경계 수준으로 평가했습니다. 자동화된 기준 모델과 비교했을 때, Camyla는 집계 분할 성능에서 AutoML 및 NAS 시스템보다 우수하며, 수행 작업 완료 빈도와 기준 모델 능가 빈도 모두에서 6개의 개방형 연구 에이전트를 능가했습니다. 이러한 결과는 의료 영상 분할 분야에서 도메인 수준의 자율적 연구가 가능하다는 것을 시사합니다.
We present Camyla, a system for fully autonomous research within the scientific domain of medical image segmentation. Camyla transforms raw datasets into literature-grounded research proposals, executable experiments, and complete manuscripts without human intervention. Autonomous experimentation over long horizons poses three interrelated challenges: search effort drifts toward unpromising directions, knowledge from earlier trials degrades as context accumulates, and recovery from failures collapses into repetitive incremental fixes. To address these challenges, the system combines three coupled mechanisms: Quality-Weighted Branch Exploration for allocating effort across competing proposals, Layered Reflective Memory for retaining and compressing cross-trial knowledge at multiple granularities, and Divergent Diagnostic Feedback for diversifying recovery after underperforming trials. The system is evaluated on CamylaBench, a contamination-free benchmark of 31 datasets constructed exclusively from 2025 publications, under a strict zero-intervention protocol across two independent runs within a total of 28 days on an 8-GPU cluster. Across the two runs, Camyla generates more than 2,700 novel model implementations and 40 complete manuscripts, and surpasses the strongest per-dataset baseline selected from 14 established architectures, including nnU-Net, on 22 and 18 of 31 datasets under identical training budgets, respectively (union: 24/31). Senior human reviewers score the generated manuscripts at the T1/T2 boundary of contemporary medical imaging journals. Relative to automated baselines, Camyla outperforms AutoML and NAS systems on aggregate segmentation performance and exceeds six open-ended research agents on both task completion and baseline-surpassing frequency. These results suggest that domain-scale autonomous research is achievable in medical image segmentation.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.