2604.17502v1 Apr 19, 2026 cs.AI

차단 가능한 에이전트 개발을 향하여: 강화 학습 에이전트 및 LLM에서의 확률적 선택 일반화

Towards Shutdownable Agents: Generalizing Stochastic Choice in RL Agents and LLMs

C. Cullen
C. Cullen
Citations: 3
h-index: 1
H. Garland
H. Garland
Citations: 1
h-index: 1
Alexander Roman
Alexander Roman
Citations: 9
h-index: 2
Louis Thomson
Louis Thomson
Citations: 26
h-index: 2
Christos Ziakas
Christos Ziakas
Citations: 6
h-index: 2
Elliott Thornley
Elliott Thornley
Citations: 374
h-index: 3

정렬되지 않은 인공 에이전트는 종료 시도를 저항할 수 있습니다. 제안된 해결책 중 하나는 에이전트가 서로 다른 길이의 경로에 대한 선호도를 갖지 않도록 훈련하는 것입니다. Discounted Reward for Same-Length Trajectories (DReST) 보상 함수는 에이전트가 동일한 길이의 경로를 반복적으로 선택하는 것을 벌함으로써 이를 달성하며, 따라서 에이전트는 (1) 서로 다른 경로 길이에 대해 확률적으로 선택하도록 (경로 길이에 대해 중립적) 유도하고 (2) 각 경로 길이에 따라 목표를 효과적으로 추구하도록 (유용함) 유도합니다. 본 논문에서는 DReST를 사용하여 심층 강화 학습 에이전트를 훈련하고, LLM을 미세 조정하여 중립성과 유용성을 갖도록 합니다. 실험 결과, DReST 에이전트는 테스트 시점에서 새로운 환경에서도 중립성과 유용성을 보이는 경향이 있습니다. 실제로, DReST 강화 학습 에이전트는 기준 에이전트보다 테스트 세트에서 유용성 측면에서 각각 11% (PPO) 및 18% (A2C) 더 높은 성능을 보였으며, 미세 조정된 LLM은 최대 유용성과 거의 최대 수준의 중립성을 달성했습니다. 이러한 결과는 DReST가 더욱 발전된 에이전트를 훈련하여 유용성과 중립성을 갖도록 하는 데 사용될 수 있다는 초기 증거를 제공합니다. 기존의 이론적 연구에 따르면, 이러한 에이전트는 유용하고 차단 가능할 것으로 예상됩니다.

Original Abstract

Misaligned artificial agents might resist shutdown. One proposed solution is to train agents to lack preferences between different-length trajectories. The Discounted Reward for Same-Length Trajectories (DReST) reward function does this by penalizing agents for repeatedly choosing same-length trajectories, and thus incentivizes agents to (1) choose stochastically between different trajectory-lengths (be Neutral about trajectory-lengths), and (2) pursue goals effectively conditional on each trajectory-length (be Useful). In this paper, we use DReST to train deep RL agents and fine-tune LLMs to be Neutral and Useful. We find that these DReST agents generalize to being Neutral and Useful in unseen contexts at test time. Indeed, DReST RL agents achieve 11% (PPO) and 18% (A2C) higher Usefulness on our test set than baseline agents, and our fine-tuned LLM achieves maximum Usefulness and near-maximum Neutrality. Our results provide some early evidence that DReST could be used to train more advanced agents to be Useful and Neutral. Prior theoretical work suggests that these agents would be useful and shutdownable.

1 Citations
0 Influential
1.5 Altmetric
8.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!