2603.14602v1 Mar 15, 2026 cs.CL

PA^3: 정책 인지 에이전트 정렬 방법 – 체인 오브 소트(Chain-of-Thought) 활용

$PA^3$: $\textbf{P}$olicy-$\textbf{A}$ware $\textbf{A}$gent $\textbf{A}$lignment through Chain-of-Thought

Shubhashis Roy Dipta
Shubhashis Roy Dipta
University of Maryland, Baltimore County
Citations: 130
h-index: 6
Lichao Wang
Lichao Wang
Citations: 42
h-index: 4
Benjamin Z. Yao
Benjamin Z. Yao
Citations: 276
h-index: 5
Chenlei Guo
Chenlei Guo
Citations: 29
h-index: 3
Kun Zhou
Kun Zhou
Citations: 20
h-index: 3
Daniel Bis
Daniel Bis
Citations: 137
h-index: 6
Ruhi Sarikaya
Ruhi Sarikaya
Citations: 17
h-index: 3

대규모 언어 모델(LLM) 기반의 대화형 어시스턴트는 도구 사용 작업에서는 뛰어난 성능을 보이지만, 복잡하고 특정 비즈니스 규칙을 준수하는 데 어려움을 겪습니다. 모델은 제공된 컨텍스트 내의 비즈니스 규칙을 기반으로 추론할 수 있지만, 모든 쿼리에 대한 모든 정책을 포함하면 지연 시간이 증가하고 컴퓨팅 자원이 낭비됩니다. 또한, 이러한 긴 프롬프트는 컨텍스트 길이를 늘려 '바늘 찾기' 문제로 인해 전체 성능을 저하시킵니다. 이러한 문제점을 해결하기 위해, 우리는 추론 시 모델이 관련 비즈니스 정책을 회상하고 체인 오브 소트 추론 과정에서 적용하도록 학습시키는 다단계 정렬 방법을 제안합니다. 이 방법은 전체 비즈니스 정책을 컨텍스트에 포함하지 않고도 작동합니다. 또한, 우리는 Jaccard 점수를 기반으로 하는 새로운 PolicyRecall 보상과 GRPO 학습을 위한 Hallucination Penalty를 도입했습니다. 결과적으로, 우리의 최적 모델은 기준 모델보다 16점 더 높은 성능을 보이며, 유사한 모델 크기의 기존 방식보다 3점 더 높은 성능을 보입니다. 동시에, 40% 더 적은 단어를 사용합니다.

Original Abstract

Conversational assistants powered by large language models (LLMs) excel at tool-use tasks but struggle with adhering to complex, business-specific rules. While models can reason over business rules provided in context, including all policies for every query introduces high latency and wastes compute. Furthermore, these lengthy prompts lead to long contexts, harming overall performance due to the "needle-in-the-haystack" problem. To address these challenges, we propose a multi-stage alignment method that teaches models to recall and apply relevant business policies during chain-of-thought reasoning at inference time, without including the full business policy in-context. Furthermore, we introduce a novel PolicyRecall reward based on the Jaccard score and a Hallucination Penalty for GRPO training. Altogether, our best model outperforms the baseline by 16 points and surpasses comparable in-context baselines of similar model size by 3 points, while using 40% fewer words.

3 Citations
0 Influential
3 Altmetric
18.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!