ClinAlign: 임상의 선호도를 통한 의료 정렬(Alignment)의 확장
ClinAlign: Scaling Healthcare Alignment from Clinician Preference
대규모 언어 모델(LLM)이 전문가 수준의 의학 지식을 보여주지만, 개방형 출력을 세밀한 임상의 선호도와 정렬하는 것은 여전히 어려운 과제입니다. 기존 방법론들은 대개 전문 지침에 대한 근거가 부족한 거친 목표나 신뢰할 수 없는 자동 평가자에 의존하는 경우가 많습니다. 우리는 이러한 문제를 해결하기 위해 2단계 프레임워크를 제안합니다. 첫째, 임상의들이 LLM이 작성한 루브릭 초안을 엄격한 의료 기준에 맞게 정제한 7,034개의 의사 검증 선호도 예제 데이터셋인 HealthRubrics를 소개합니다. 둘째, 이러한 루브릭을 임상적 차원별로 구성되어 널리 재사용 가능하고 임상적 근거를 갖춘 119개의 원칙인 HealthPrinciples로 추출하여, 수동 주석의 한계를 넘어서는 확장 가능한 감독을 가능하게 합니다. 우리는 HealthPrinciples를 (1) 레이블이 없는 질의에 대한 루브릭을 합성하여 오프라인 정렬에 활용하고, (2) 가이드된 자가 수정을 위한 추론 시점 도구로 사용합니다. 이 프레임워크로 훈련되어 추론 시 30억(3B) 개의 파라미터만 활성화하는 300억(30B) 파라미터 모델은 HealthBench-Hard에서 33.4%의 성능을 달성했습니다. 이는 Deepseek-R1 및 o3를 포함한 훨씬 더 큰 모델들을 능가하는 결과로, 임상 정렬을 위한 자원 효율적인 기준점을 확립했습니다.
Although large language models (LLMs) demonstrate expert-level medical knowledge, aligning their open-ended outputs with fine-grained clinician preferences remains challenging. Existing methods often rely on coarse objectives or unreliable automated judges that are weakly grounded in professional guidelines. We propose a two-stage framework to address this gap. First, we introduce HealthRubrics, a dataset of 7,034 physician-verified preference examples in which clinicians refine LLM-drafted rubrics to meet rigorous medical standards. Second, we distill these rubrics into HealthPrinciples: 119 broadly reusable, clinically grounded principles organized by clinical dimensions, enabling scalable supervision beyond manual annotation. We use HealthPrinciples for (1) offline alignment by synthesizing rubrics for unlabeled queries and (2) an inference-time tool for guided self-revision. A 30B parameter model that activates only 3B parameters at inference trained with our framework achieves 33.4% on HealthBench-Hard, outperforming much larger models including Deepseek-R1 and o3, establishing a resource-efficient baseline for clinical alignment.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.