TACT: 활성화 제어를 통한 코딩 에이전트의 과도한 사고 및 과도한 행동 완화
TACT: Mitigating Overthinking and Overacting in Coding Agents via Activation Steering
언어 모델 기반 에이전트가 복잡한 소프트웨어 엔지니어링 작업을 수행할 때, 시간이 지남에 따라 성능이 저하되는 현상을 *에이전트 드리프트(agent drift)*라고 정의합니다. 본 논문에서는 이러한 드리프트 현상 중 빈번하게 발생하는 두 가지 실패 양상, 즉 *과도한 사고(overthinking)*와 *과도한 행동(overacting)*에 주목합니다. 과도한 사고는 에이전트가 이미 알고 있는 정보를 반복적으로 분석하는 것을 의미하며, 과도한 행동은 최근 관찰 내용을 통합하거나 새로운 증거를 획득하지 않고 바로 도구를 호출하는 것을 의미합니다. 본 논문에서는 *TACT(Think-Act Calibration via activation Steering)*라는 방법을 제안하여, 에이전트의 행동 실패로 이어지기 전에 잔류 스트림(residual stream)에서 에이전트 드리프트를 감지하고 완화합니다. 구체적으로, 트래젝토리 단계를 과도한 사고, 과도한 행동 또는 적절한 행동으로 분류하고, 이들의 숨겨진 상태가 두 개의 *드리프트 축(drift axes)*을 따라 선형적으로 분리될 수 있음을 확인했습니다(AUC ≈ 0.9). 이 드리프트 축은 적절한 행동에서 각 실패 양상으로 향합니다. 에이전트 드리프트를 완화하기 위해, 테스트 시점에 각 단계의 활성화 값을 이러한 축으로 투영하고, 드리프트된 값들을 적절한 영역으로 되돌립니다. 실험 결과, TACT는 SWE-bench Verified, Terminal-Bench 2.0, 및 CLAW-Eval 데이터셋에서 활성화 제어가 없는 기준 모델보다 성능이 우수했으며, Qwen3.5-27B 모델의 평균 문제 해결률을 +5.8% 향상시키고, Gemma-4-26B-A4B-it 모델의 평균 문제 해결률을 +4.8% 향상시켰습니다. 또한, 문제 해결에 필요한 단계 수를 최대 26%까지 줄였습니다. 이러한 결과는 에이전트 드리프트를 잔류 스트림에서 제어 가능한 방향으로 제시하며, TACT가 신뢰성 있는 장기 목표 달성을 위한 에이전트를 개발하는 데 유용한 도구임을 보여줍니다.
When language model agents tackle complex software engineering tasks, they often degrade over long trajectories, which we define as *agent drift*. We focus on two recurring failure modes *overthinking* and *overacting*, i.e., where the agent repeatedly reasons over information it already has, and where it issues tool calls without integrating recent observations or acquiring new evidence. In this paper, we introduce TACT (Think-Act Calibration via activation Steering), to detect and mitigate agent drift in the residual stream before it surfaces as a behavioral failure. In specific, we label trajectory steps as overthinking, overacting, or calibrated, and find that their hidden states can separate linearly along two *drift axes*, pointing from calibrated behavior toward each failure mode (AUC $\approx$ 0.9). To mitigate agent drift, we project each step's activation onto these axes at test time and pull drifted ones back toward the calibrated region. Experiments show that TACT outperforms unsteered baselines across SWE-bench Verified, Terminal-Bench 2.0, and CLAW-Eval, lifting average resolve rate by $+5.8$ pp on Qwen3.5-27B and $+4.8$ pp on Gemma-4-26B-A4B-it while cutting steps-to-resolve by up to $26\%$. These gains frame agent drift as a steerable direction in the residual stream, and position TACT as a viable handle for reliable long-horizon agents.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.