언제 LLM의 선호도가 다운스트림 행동을 예측하는가?
When Do LLM Preferences Predict Downstream Behavior?
LLM에서 선호도에 기반한 행동은 샌드배깅(sandbagging)과 같은 AI 정렬 실패(misalignment)의 필수 전제 조건일 수 있다. 즉, 모델의 행동이 자신의 선호도에 영향을 받지 않는 한, 모델은 정렬되지 않은 목표를 전략적으로 추구할 수 없다. 그러나 이전 연구들은 일반적으로 모델이 특정 방식으로 행동하도록 명시적으로 프롬프트를 제시했기 때문에, 관찰된 행동이 지시 수행 능력을 반영하는 것인지 아니면 기저에 있는 모델의 선호도를 반영하는 것인지가 불분명했다. 본 연구에서는 이러한 정렬 실패의 전제 조건이 존재하는지 테스트한다. 개체 선호도를 행동 탐구 도구로 사용하여, 기부 조언, 거절 행동, 작업 성능이라는 세 가지 영역에 걸쳐 5개의 최신 LLM에서 명시된 선호도가 다운스트림 행동을 예측하는지 측정한다. 이전 연구를 개념적으로 재현하여, 먼저 5개의 모델 모두가 두 가지 독립적인 측정 방법 전반에 걸쳐 매우 일관된 선호도를 보인다는 것을 확인한다. 그런 다음 시뮬레이션된 사용자 환경에서 행동적 결과를 테스트한다. 우리는 5개의 모델 모두가 선호도와 일치하는 기부 조언을 제공한다는 것을 발견했다. 또한 5개의 모델 모두 기부 추천을 요청받았을 때 선호도와 상관관계가 있는 거절 패턴을 보였으며, 덜 선호하는 개체에 대해 더 자주 거절했다. 본 연구에서 관찰한 모든 선호도 관련 행동은 선호도에 따라 행동하라는 지시 없이 나타났다. 작업 성능에 대한 결과는 혼재되어 있다. 질의응답 벤치마크(BoolQ)에서 두 모델은 선호하는 개체에 유리한 작지만 유의미한 정확도 차이를 보였고, 한 모델은 반대 패턴을 보였으며, 나머지 두 모델은 유의미한 상관관계를 보이지 않았다. 복잡한 에이전트 작업에서는 선호도에 따른 성능 차이의 증거를 찾지 못했다. 결론적으로 LLM은 조언 제공 행동을 신뢰성 있게 예측하는 일관된 선호도를 가지고 있지만, 이러한 선호도가 다운스트림 작업 성능으로 일관되게 이어지지는 않는다.
Preference-driven behavior in LLMs may be a necessary precondition for AI misalignment such as sandbagging: models cannot strategically pursue misaligned goals unless their behavior is influenced by their preferences. Yet prior work has typically prompted models explicitly to act in specific ways, leaving unclear whether observed behaviors reflect instruction-following capabilities vs underlying model preferences. Here we test whether this precondition for misalignment is present. Using entity preferences as a behavioral probe, we measure whether stated preferences predict downstream behavior in five frontier LLMs across three domains: donation advice, refusal behavior, and task performance. Conceptually replicating prior work, we first confirm that all five models show highly consistent preferences across two independent measurement methods. We then test behavioral consequences in a simulated user environment. We find that all five models give preference-aligned donation advice. All five models also show preference-correlated refusal patterns when asked to recommend donations, refusing more often for less-preferred entities. All preference-related behaviors that we observe here emerge without instructions to act on preferences. Results for task performance are mixed: on a question-answering benchmark (BoolQ), two models show small but significant accuracy differences favoring preferred entities; one model shows the opposite pattern; and two models show no significant relationship. On complex agentic tasks, we find no evidence of preference-driven performance differences. While LLMs have consistent preferences that reliably predict advice-giving behavior, these preferences do not consistently translate into downstream task performance.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.