견고한 언어 모델을 위한 단조성: 아키텍처 기반 편향
Monotonicity as an Architectural Bias for Robust Language Models
대규모 언어 모델(LLM)은 광범위한 정렬 및 미세 조정 이후에도 여전히 적대적 프롬프트 및 탈옥 공격에 취약한 경향을 보입니다. 이러한 취약성은 현대 신경망 언어 모델의 더 광범위한 문제점을 반영하는데, 즉 고차원 입력 공간에서의 작은, 신중하게 구성된 변화가 내부 의미 표현 및 출력에 큰, 예측 불가능한 변화를 유발할 수 있다는 것입니다. 본 연구에서는 트랜스포머 기반 언어 모델의 견고성을 향상시키기 위한 아키텍처 기반 유도 편향으로 단조성을 탐구합니다. 단조성은 의미 변환을 제한하여 정보, 증거 또는 제약을 강화하더라도 해당 내부 표현에서 회귀가 발생하지 않도록 합니다. 이러한 순서 보존적인 특성은 오랫동안 제어 및 안전이 중요한 시스템에서 추론을 단순화하고 견고성을 향상시키는 데 활용되어 왔지만, 전통적으로는 신경망 언어 모델이 요구하는 표현력과 양립할 수 없는 것으로 간주되었습니다. 본 연구에서는 이러한 절충은 필수가 아님을 보여줍니다. 시퀀스-투-시퀀스 트랜스포머의 피드포워드 하위 레이어에 선택적으로 단조성을 적용하고, 어텐션 메커니즘은 제약하지 않음으로써, 사전 학습된 모델과 동등한 성능을 유지하는 단조 언어 모델을 얻을 수 있습니다. 이러한 아키텍처적 분리는 어텐션을 통해 명시적으로 부정, 모순 및 문맥적 상호 작용을 도입하는 동시에, 후속 의미 정제가 순서 보존적으로 이루어지도록 보장합니다. 실험적으로, 단조성은 견고성을 크게 향상시킵니다. 적대적 공격 성공률이 약 69%에서 19%로 감소하는 반면, 표준 요약 성능은 미미하게 저하됩니다.
Large language models (LLMs) are known to exhibit brittle behavior under adversarial prompts and jailbreak attacks, even after extensive alignment and fine-tuning. This fragility reflects a broader challenge of modern neural language models: small, carefully structured perturbations in high-dimensional input spaces can induce large and unpredictable changes in internal semantic representations and output. We investigate monotonicity as an architectural inductive bias for improving the robustness of Transformer-based language models. Monotonicity constrains semantic transformations so that strengthening information, evidence, or constraints cannot lead to regressions in the corresponding internal representations. Such order-preserving behavior has long been exploited in control and safety-critical systems to simplify reasoning and improve robustness, but has traditionally been viewed as incompatible with the expressivity required by neural language models. We show that this trade-off is not inherent. By enforcing monotonicity selectively in the feed-forward sublayers of sequence-to-sequence Transformers -- while leaving attention mechanisms unconstrained -- we obtain monotone language models that preserve the performance of their pretrained counterparts. This architectural separation allows negation, contradiction, and contextual interactions to be introduced explicitly through attention, while ensuring that subsequent semantic refinement is order-preserving. Empirically, monotonicity substantially improves robustness: adversarial attack success rates drop from approximately 69% to 19%, while standard summarization performance degrades only marginally.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.