데이터는 얼마나 충분할까? 생물 의학 데이터의 발견 가능성에 대한 제타 법칙: 수수께끼의 리만 제타 함수를 중심으로
How Much Data is Enough? The Zeta Law of Discoverability in Biomedical Data, featuring the enigmatic Riemann zeta function
과학적 발견을 위해 얼마나 많은 데이터가 필요할까요? 생물 의학 데이터 세트가 수백만 개의 샘플 규모로 증가하고 AI 모델의 기능이 향상됨에 따라, 추가 데이터가 성능을 크게 향상시킬 때를 예측하는 것이 점점 더 중요해지고 있습니다. 실제로 모델 개발은 종종 다양한 아키텍처, 모달리티 및 데이터 세트 크기에서 측정된 경험적 스케일링 곡선을 기반으로 하며, 성능이 개선될 때, 포화될 때 또는 교차 현상을 보일 때에 대한 이론적 지침은 제한적입니다. 저희는 데이터 공분산 연산자의 스펙트럼 구조, 작업과 정렬된 신호 투영 및 학습된 표현을 기반으로 한 다중 모달 발견 가능성에 대한 스케일링 법칙 프레임워크를 제안합니다. AUC를 포함한 많은 성능 지표는 인코더 및 다중 모달 연산자의 식별 가능한 스펙트럼 모드에 걸쳐 누적되는 신호-노이즈 에너지의 관점에서 표현할 수 있습니다. 비교적 완만한 가정을 통해 이 누적은 공분산 스펙트럼의 거듭제곱 법칙 감소 및 정렬된 신호 에너지에 의해 제어되는 제타-와 같은 스케일링 법칙을 따르며, 결과적으로 리만 제타 함수가 자연스럽게 등장합니다. 희소 모델, 저차원 임베딩 및 다중 모달 대비 목적 함수와 같은 표현 학습 방법은 유용한 신호를 초기 안정적인 모드로 집중시켜 스펙트럼 감소를 효과적으로 가속화하고 스케일링 곡선을 이동시켜 샘플 효율성을 향상시킵니다. 이 프레임워크는 더 단순한 모델이 작은 샘플 크기에서 가장 성능이 좋지만, 충분한 데이터가 추가적인 자유도를 안정화하면 더 높은 용량 또는 다중 모달 인코더가 이를 능가하는 교차 영역을 예측합니다. 응용 분야에는 다중 모달 질병 분류, 이미징 유전학, 기능적 MRI 및 위상 데이터 분석이 포함됩니다. 결과적으로 얻은 제타 법칙은 데이터 스케일링, 표현 개선 또는 모달리티 추가가 발견을 가속화할 가능성이 가장 높은 시점을 예측하는 데 유용한 지침을 제공합니다.
How much data is enough to make a scientific discovery? As biomedical datasets scale to millions of samples and AI models grow in capacity, progress increasingly depends on predicting when additional data will substantially improve performance. In practice, model development often relies on empirical scaling curves measured across architectures, modalities, and dataset sizes, with limited theoretical guidance on when performance should improve, saturate, or exhibit cross-over behavior. We propose a scaling-law framework for cross-modal discoverability based on spectral structure of data covariance operators, task-aligned signal projections, and learned representations. Many performance metrics, including AUC, can be expressed in terms of cumulative signal-to-noise energy accumulated across identifiable spectral modes of an encoder and cross-modal operator. Under mild assumptions, this accumulation follows a zeta-like scaling law governed by power-law decay of covariance spectra and aligned signal energy, leading naturally to the appearance of the Riemann zeta function. Representation learning methods such as sparse models, low-rank embeddings, and multimodal contrastive objectives improve sample efficiency by concentrating useful signal into earlier stable modes, effectively steepening spectral decay and shifting scaling curves. The framework predicts cross-over regimes in which simpler models perform best at small sample sizes, while higher-capacity or multimodal encoders outperform them once sufficient data stabilizes additional degrees of freedom. Applications include multimodal disease classification, imaging genetics, functional MRI, and topological data analysis. The resulting zeta law provides a principled way to anticipate when scaling data, improving representations, or adding modalities is most likely to accelerate discovery.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.