어댑터 병합이 잠재된 추론 흔적을 재활성화시키는 과정: 메커니즘 분석
Adapter Merging Reactivates Latent Reasoning Traces: A Mechanism Analysis
두 단계의 파이프라인(도메인 적응 후 명령어 정렬)을 통해 미세 조정된 대규모 언어 모델은 어댑터 병합 후 상당한 간섭 현상을 보이며, 엄격한 디코딩 하에서 명시적인 추론 흔적이 다시 나타날 수 있습니다. 본 연구에서는 의료 분야의 대규모 언어 모델 환경에서 가볍고 재현 가능한 측정 방법을 사용하여 이러한 현상을 연구합니다. 기존의 지표 기반 접근 방식 외에도, 지표를 사용하지 않는, 답안만을 평가하는 방법을 도입하고, 표면적인 지표에 의존하지 않는 정확성 기반의 방향을 정의합니다. 이 방향을 따라 1위 로짓 공간에 개입하면 의사 결정 분포를 조절하고, 충분히 큰 개입 강도에서 다중 선택 문제의 정확도를 무작위 방향 제어보다 향상시킬 수 있습니다. 또한, 도메인 및 명령어 어댑터가 부분적으로 일치하지 않는 업데이트 방향을 유도한다는 기하학적 증거를 제시하고, 기하학적 정보를 활용하여 누수 현상을 줄이거나 정확도를 향상시킬 수 있는 개념 증명 수준의 병합 방법을 소개합니다. 본 연구 결과는 추론 흔적 누수의 경계 조건을 규명하고, 안전한 어댑터 병합을 위한 실용적인 진단 및 개입 방법을 제공합니다.
Large language models fine-tuned via a two-stage pipeline (domain adaptation followed by instruction alignment) can exhibit non-trivial interference after adapter merging, including the re-emergence of explicit reasoning traces under strict decoding. We study this phenomenon in medical LLM settings using lightweight, reproducible measurements of trace leakage and instruction-following behavior. Beyond marker-based proxies, we introduce a marker-forbidden, answer-only evaluation and define a correctness-based direction that does not rely on surface markers; a rank-1 logit-space intervention along this direction modulates decision distributions and improves multiple-choice accuracy beyond random-direction controls at sufficiently large intervention strength. We further provide layer-wise geometric evidence that domain and instruction adapters induce partially misaligned update directions, and present a proof-of-concept geometry-aware merge that can reduce leakage and/or improve accuracy in a toy setting. Our results characterize boundary conditions of trace leakage and provide practical diagnostics and interventions for safer adapter merging.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.