ConfHit: 오라클 없이 보장된 신뢰성 있는 생성 디자인
ConfHit: Conformal Generative Design with Oracle Free Guarantees
딥 생성 모델이 과학적 발견에 성공하려면 새로운 후보 물질을 생성하는 능력뿐만 아니라, 생성된 후보 물질이 원하는 특성을 실제로 만족한다는 신뢰성 있는 보장이 필요합니다. 최근의 컨포멀 예측 방법은 이러한 보장을 제공할 수 있는 가능성을 제시하지만, 신약 개발 분야의 생성 모델링에 적용될 경우 예산 제약, 오라클 접근성 부족, 그리고 데이터 분포 변화 등의 문제로 인해 제한됩니다. 이에, 본 연구에서는 이러한 조건 하에서 유효성 보장을 제공하는 분포-자유 프레임워크인 ConfHit을 소개합니다. ConfHit은 다음 두 가지 핵심 질문을 다룹니다: (i) 인증: 생성된 배치에 대해 사용자가 지정한 신뢰 수준으로 적어도 하나의 유망 물질이 포함될 수 있다는 것을 보장할 수 있는지 여부, 그리고 (ii) 디자인: 생성 과정을 수정하여 보장을 약화시키지 않으면서 더 작은 집합으로 만들 수 있는지 여부. ConfHit은 과거 데이터와 생성된 데이터 간의 가중 교환성을 활용하여 실험적 오라클의 필요성을 없애고, 다중 샘플 밀도 비율 가중 컨포멀 p-값을 사용하여 유망 물질에 대한 통계적 신뢰도를 정량화하며, 통계적 보장을 유지하면서 다중 생성 샘플 집합의 인증 및 개선을 위한 중첩 테스트 절차를 제안합니다. 다양한 생성 분자 디자인 작업과 광범위한 방법론에 걸쳐, ConfHit은 여러 신뢰 수준에서 유효한 보장 범위를 제공하면서 동시에 작은 인증된 집합을 유지하며, 생성 모델링을 위한 체계적이고 신뢰할 수 있는 프레임워크를 구축합니다.
The success of deep generative models in scientific discovery requires not only the ability to generate novel candidates but also reliable guarantees that these candidates indeed satisfy desired properties. Recent conformal-prediction methods offer a path to such guarantees, but its application to generative modeling in drug discovery is limited by budget constraints, lack of oracle access, and distribution shift. To this end, we introduce ConfHit, a distribution-free framework that provides validity guarantees under these conditions. ConfHit formalizes two central questions: (i) Certification: whether a generated batch can be guaranteed to contain at least one hit with a user-specified confidence level, and (ii) Design: whether the generation can be refined to a compact set without weakening this guarantee. ConfHit leverages weighted exchangeability between historical and generated samples to eliminate the need for an experimental oracle, constructs multiple-sample density-ratio weighted conformal p-value to quantify statistical confidence in hits, and proposes a nested testing procedure to certify and refine candidate sets of multiple generated samples while maintaining statistical guarantees. Across representative generative molecule design tasks and a broad range of methods, ConfHit consistently delivers valid coverage guarantees at multiple confidence levels while maintaining compact certified sets, establishing a principled and reliable framework for generative modeling.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.