에이전트 내 액터-옵서버 비대칭성을 해소하기 위한 변증법적 정렬
Taming Actor-Observer Asymmetry in Agents via Dialectical Alignment
대규모 언어 모델 기반 에이전트는 정적인 텍스트 생성기로부터 복잡한 자율 워크플로우를 실행할 수 있는 역동적인 시스템으로 빠르게 발전하고 있습니다. 신뢰성을 향상시키기 위해, 전문적인 역할을 할당하여 자기 성찰과 상호 감사를 가능하게 하는 다중 에이전트 프레임워크가 점점 더 많이 채택되고 있습니다. 이러한 역할 분담은 도메인 전문가 지식을 효과적으로 활용하지만, 동시에 인간과 유사한 인지적 편향인 액터-옵서버 비대칭(AOA)을 유발한다는 것을 발견했습니다. 구체적으로, 자기 성찰을 수행하는 에이전트는 실패의 원인을 외부 요인으로 돌리는 경향이 있는 반면, 상호 감사 과정에서 관찰자 역할을 하는 에이전트는 동일한 오류를 내부 결함으로 돌립니다. 우리는 새로운 '모호한 실패 벤치마크'를 사용하여 이를 정량화했으며, 관점만 교체하는 것만으로도 대부분의 모델에서 20% 이상의 경우에 AOA 효과가 나타나는 것을 확인했습니다. 이러한 편향을 해소하기 위해, 우리는 변증법적 정렬을 통해 훈련된 모델인 ReTAS(Reasoning via Thesis-Antithesis-Synthesis)를 소개합니다. ReTAS는 변증법적 사고 과정을 그룹 상대 정책 최적화와 통합하여 에이전트가 상충되는 관점을 객관적인 합의로 통합하도록 유도합니다. 실험 결과, ReTAS는 귀인의 불일치를 효과적으로 완화하고 모호한 시나리오에서 오류 해결률을 크게 향상시키는 것을 보여줍니다.
Large Language Model agents have rapidly evolved from static text generators into dynamic systems capable of executing complex autonomous workflows. To enhance reliability, multi-agent frameworks assigning specialized roles are increasingly adopted to enable self-reflection and mutual auditing. While such role-playing effectively leverages domain expert knowledge, we find it simultaneously induces a human-like cognitive bias known as Actor-Observer Asymmetry (AOA). Specifically, an agent acting as an actor (during self-reflection) tends to attribute failures to external factors, whereas an observer (during mutual auditing) attributes the same errors to internal faults. We quantify this using our new Ambiguous Failure Benchmark, which reveals that simply swapping perspectives triggers the AOA effect in over 20% of cases for most models. To tame this bias, we introduce ReTAS (Reasoning via Thesis-Antithesis-Synthesis), a model trained through dialectical alignment to enforce perspective-invariant reasoning. By integrating dialectical chain-of-thought with Group Relative Policy Optimization, ReTAS guides agents to synthesize conflicting viewpoints into an objective consensus. Experiments demonstrate that ReTAS effectively mitigates attribution inconsistency and significantly improves fault resolution rates in ambiguous scenarios.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.