2602.20696v1 Feb 24, 2026 cs.AI

PromptCD: 극성-프롬프트 대비 디코딩을 통한 테스트 시간 행동 개선

PromptCD: Test-Time Behavior Enhancement via Polarity-Prompt Contrastive Decoding

Baolong Bi
Baolong Bi
Citations: 462
h-index: 13
Siqian Tong
Siqian Tong
Citations: 6
h-index: 1
Lingrui Mei
Lingrui Mei
Citations: 477
h-index: 13
Yiwei Wang
Yiwei Wang
Citations: 379
h-index: 12
Shenghua Liu
Shenghua Liu
Citations: 376
h-index: 12
Yujun Cai
Yujun Cai
Citations: 49
h-index: 3
Yuyao Ge
Yuyao Ge
Institute of Computing Technology
Citations: 164
h-index: 7
Yuchen He
Yuchen He
Citations: 9
h-index: 2
Lizhe Chen
Lizhe Chen
Citations: 47
h-index: 4
Zehao Li
Zehao Li
Citations: 457
h-index: 4
Ming-Hsuan Yang
Ming-Hsuan Yang
Citations: 635
h-index: 5
Xueqi Cheng
Xueqi Cheng
Citations: 291
h-index: 11

신뢰할 수 있는 AI 시스템을 구축하기 위해서는 대규모 언어 모델(LLM)이 인간의 선호와 가치에 부합하는 행동을 보여야 합니다. 그러나 대부분의 기존 정렬(alignment) 방법은 학습 시간에 적용되며, 추가적인 고품질 데이터를 필요로 하여 상당한 계산 및 주석 비용을 발생시킵니다. 최근 연구에서는 대비 디코딩(contrastive decoding)이 모델의 내부 분포를 활용하여 특정 능력을 향상시킬 수 있다는 점이 밝혀졌지만, 그 적용 범위는 여전히 제한적인 행동 영역과 시나리오에 국한됩니다. 본 연구에서는 테스트 시간에 행동을 제어하는 방법인 극성-프롬프트 대비 디코딩(PromptCD)을 소개합니다. PromptCD는 대비 디코딩을 보다 광범위한 개선 설정으로 일반화합니다. PromptCD는 특정 행동에 대한 쌍을 이루는 긍정적 및 부정적 가이드 프롬프트를 구성하고, 모델의 응답(특히 LLM의 토큰 수준 확률 분포 및 VLM의 시각적 주의 패턴)을 비교하여 바람직한 결과를 강화합니다. 이러한 방식은 다양한 개선 목표에 적용 가능하며, 추가적인 학습 없이 LLM과 Vision-Language Model(VLM) 모두에 적용할 수 있습니다. LLM의 경우, "3H" 정렬 목표(도움이 되는, 정직한, 무해한)에 대한 실험 결과, 일관되고 상당한 개선이 이루어졌으며, 이는 사전 학습된 모델이 테스트 시간에서만 의미 있는 자체 개선을 달성할 수 있음을 나타냅니다. VLM의 경우, PromptCD가 시각적 주의에 미치는 대비 효과를 추가적으로 분석하여, PromptCD가 행동과 일관된 시각적 기반을 강화함으로써 VQA 성능을 크게 향상시킴을 보여줍니다. 종합적으로, 이러한 결과는 PromptCD가 다양한 모달리티에서 신뢰할 수 있는 행동 제어를 위한 간단하고 일반적이며 비용 효율적인 전략임을 강조합니다.

Original Abstract

Reliable AI systems require large language models (LLMs) to exhibit behaviors aligned with human preferences and values. However, most existing alignment approaches operate at training time and rely on additional high-quality data, incurring significant computational and annotation costs. While recent work has shown that contrastive decoding can leverage a model's internal distributions to improve specific capabilities, its applicability remains limited to narrow behavioral scopes and scenarios. In this work, we introduce Polarity-Prompt Contrastive Decoding (PromptCD), a test-time behavior control method that generalizes contrastive decoding to broader enhancement settings. PromptCD constructs paired positive and negative guiding prompts for a target behavior and contrasts model responses-specifically token-level probability distributions in LLMs and visual attention patterns in VLMs-to reinforce desirable outcomes. This formulation extends contrastive decoding to a wide range of enhancement objectives and is applicable to both LLMs and Vision-Language Models (VLMs) without additional training. For LLMs, experiments on the "3H" alignment objectives (helpfulness, honesty, and harmlessness) demonstrate consistent and substantial improvements, indicating that post-trained models can achieve meaningful self-enhancement purely at test time. For VLMs, we further analyze contrastive effects on visual attention, showing that PromptCD significantly improves VQA performance by reinforcing behavior-consistent visual grounding. Collectively, these results highlight PromptCD as a simple, general, and cost-efficient strategy for reliable behavior control across modalities.

0 Citations
0 Influential
6.5 Altmetric
32.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!