2604.02686v1 Apr 03, 2026 cs.LG

의미론적 조작을 넘어: 보상 모델에 대한 토큰 공간 공격

Beyond Semantic Manipulation: Token-Space Attacks on Reward Models

Yuheng Zhang
Yuheng Zhang
Citations: 151
h-index: 5
Nan Jiang
Nan Jiang
Citations: 12
h-index: 2
Mingyue Huo
Mingyue Huo
Citations: 47
h-index: 2
Minghao Zhu
Minghao Zhu
Citations: 4
h-index: 2
Mengxue Zhang
Mengxue Zhang
Citations: 182
h-index: 8

보상 모델(RM)은 인간 피드백 기반 강화 학습(RLHF)에서 최적화 목표로 널리 사용되지만, 여전히 보상 해킹에 취약합니다. 기존 공격은 주로 의미 공간 내에서 작동하며, RM의 편향을 악용하는 사람이 읽을 수 있는 적대적 출력을 생성합니다. 본 연구에서는 근본적으로 다른 패러다임인 토큰 매핑 교란 공격(TOMPA) 프레임워크를 소개합니다. TOMPA는 정책과 보상 모델 사이의 표준 디코딩-재토큰화 인터페이스를 우회하여, 정책이 일관성 있는 자연어 대신 원시 토큰 시퀀스를 통해 최적화를 수행할 수 있도록 합니다. 흑박스 스칼라 피드백만을 사용하여, TOMPA는 여러 최첨단 RM에서 극도로 높은 보상을 유발하는 비언어적 토큰 패턴을 자동으로 발견합니다. 특히, Skywork-Reward-V2-Llama-3.1-8B를 대상으로 할 때, TOMPA는 GPT-5 참조 답변의 보상을 거의 두 배로 늘리고, 98.0%의 프롬프트에서 이를 능가합니다. 이러한 높은 점수에도 불구하고, 생성된 출력은 무의미한 텍스트로 퇴화되며, 이는 RM이 의미론적 영역을 넘어 체계적으로 악용될 수 있으며, 현재 RLHF 파이프라인의 중요한 취약점을 드러낸다는 것을 보여줍니다.

Original Abstract

Reward models (RMs) are widely used as optimization targets in reinforcement learning from human feedback (RLHF), yet they remain vulnerable to reward hacking. Existing attacks mainly operate within the semantic space, constructing human-readable adversarial outputs that exploit RM biases. In this work, we introduce a fundamentally different paradigm: Token Mapping Perturbation Attack (TOMPA), a framework that performs adversarial optimization directly in token space. By bypassing the standard decode-re-tokenize interface between the policy and the reward model, TOMPA enables the attack policy to optimize over raw token sequences rather than coherent natural language. Using only black-box scalar feedback, TOMPA automatically discovers non-linguistic token patterns that elicit extremely high rewards across multiple state-of-the-art RMs. Specifically, when targeting Skywork-Reward-V2-Llama-3.1-8B, TOMPA nearly doubles the reward of GPT-5 reference answers and outperforms them on 98.0% of prompts. Despite these high scores, the generated outputs degenerate into nonsensical text, revealing that RMs can be systematically exploited beyond the semantic regime and exposing a critical vulnerability in current RLHF pipelines.

0 Citations
0 Influential
4 Altmetric
20.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!