2602.11661v1 Feb 12, 2026 cs.AI

Quark 의료 정렬: 포괄적인 다차원 정렬 및 협력적 최적화 패러다임

Quark Medical Alignment: A Holistic Multi-Dimensional Alignment and Collaborative Optimization Paradigm

Yunqing Wei
Yunqing Wei
Citations: 5
h-index: 1
Jiayi Liu
Jiayi Liu
Citations: 63
h-index: 3
Jialu Xu
Jialu Xu
Citations: 51
h-index: 5
K. Feng
K. Feng
Citations: 11
h-index: 1
Panpan Hou
Panpan Hou
Citations: 798
h-index: 14
Kang Yin
Kang Yin
Citations: 101
h-index: 2
Jiyuan Hu
Jiyuan Hu
Citations: 41
h-index: 3
Zhen-Hui Ma
Zhen-Hui Ma
Citations: 7
h-index: 2
Jian Xu
Jian Xu
Citations: 69
h-index: 3
Guanjun Jiang
Guanjun Jiang
Citations: 4
h-index: 1
Tianxiang Xu
Tianxiang Xu
Citations: 7
h-index: 1
Yixuan Tong
Yixuan Tong
Citations: 15
h-index: 2
Hao Zhou
Hao Zhou
Citations: 2,055
h-index: 4

최근 몇 년간 대규모 언어 모델 정렬을 위한 강화 학습이 빠르게 발전했지만, 이러한 패러다임을 중대한 의료 질의응답에 적용하는 것은 근본적인 패러다임 불일치를 드러냅니다. 인간 피드백 기반 강화 학습(RLHF)은 비용이 지나치게 많이 들고 의료적 사실의 절대적 정확성을 반영하지 못하는 경우가 많은 선호도 주석에 의존합니다. 검증 가능한 보상 기반 강화 학습은 효과적인 자동 검증기가 부족하며 복잡한 임상 상황을 처리하는 데 어려움을 겪습니다. 한편, 의료 정렬은 정확성, 안전성, 규정 준수의 동시 최적화를 요구하지만, 다목적 이질적 보상 신호는 스케일 불일치 및 최적화 충돌이 발생하기 쉽습니다. 이러한 문제를 해결하기 위해, 우리는 견고한 의료 정렬 패러다임을 제안합니다. 먼저 정렬 목표를 기초 능력, 전문 지식, 온라인 피드백, 형식 사양의 네 가지 범주로 분해하는 포괄적인 다차원 의료 정렬 매트릭스를 구축합니다. 각 범주 내에서 관찰 가능한 지표가 귀인 진단에 정보를 제공하고, 이것이 다시 최적화 가능한 보상을 유도하는 폐루프를 구축하여, 후속 반복 최적화를 위한 세밀하고 고해상도의 지도 신호를 제공합니다. 이질적인 신호로 인한 그래디언트 지배 및 최적화 불안정성 문제를 해결하기 위해, 우리는 통합 최적화 메커니즘을 추가로 제안합니다. 이 메커니즘은 보상 스케일을 맞추기 위해 참조-고정 정규화(Reference-Frozen Normalization)를 사용하고, 약점 지향, 위험 우선, 중복 감소를 특징으로 하는 협력적 최적화를 달성하기 위해 3요소 적응형 동적 가중치 전략을 구현합니다. 실험 결과는 실제 의료 시나리오 평가에서 제안된 패러다임의 유효성을 입증하며, 수직적 도메인에서의 복잡한 정렬을 위한 새로운 패러다임을 확립했습니다.

Original Abstract

While reinforcement learning for large language model alignment has progressed rapidly in recent years, transferring these paradigms to high-stakes medical question answering reveals a fundamental paradigm mismatch. Reinforcement Learning from Human Feedback relies on preference annotations that are prohibitively expensive and often fail to reflect the absolute correctness of medical facts. Reinforcement Learning from Verifiable Rewards lacks effective automatic verifiers and struggles to handle complex clinical contexts. Meanwhile, medical alignment requires the simultaneous optimization of correctness, safety, and compliance, yet multi-objective heterogeneous reward signals are prone to scale mismatch and optimization conflicts.To address these challenges, we propose a robust medical alignment paradigm. We first construct a holistic multi-dimensional medical alignment matrix that decomposes alignment objectives into four categories: fundamental capabilities, expert knowledge, online feedback, and format specifications. Within each category, we establish a closed loop of where observable metrics inform attributable diagnosis, which in turn drives optimizable rewards, thereby providing fine-grained, high-resolution supervision signals for subsequent iterative optimization. To resolve gradient domination and optimization instability problem caused by heterogeneous signals, we further propose a unified optimization mechanism. This mechanism employs Reference-Frozen Normalization to align reward scales and implements a Tri-Factor Adaptive Dynamic Weighting strategy to achieve collaborative optimization that is weakness-oriented, risk-prioritized, and redundancy-reducing. Experimental results demonstrate the effectiveness of our proposed paradigm in real-world medical scenario evaluations, establishing a new paradigm for complex alignment in vertical domains.

0 Citations
0 Influential
7 Altmetric
35.0 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!