2605.01605v1 May 02, 2026 cs.CL

프롬프트 교란은 어디에서 생성 오류를 일으키는가? LoRA로 튜닝된 언어 모델의 강건성 분석: 세그먼트 수준의 관점

Where Do Prompt Perturbations Break Generation? A Segment-Level View of Robustness in LoRA-Tuned Language Models

Jinwei Hu
Jinwei Hu
Citations: 465
h-index: 8
Xinmiao Huang
Xinmiao Huang
Citations: 13
h-index: 2
Yi Dong
Yi Dong
Citations: 226
h-index: 6
Xiaowei Huang
Xiaowei Huang
Citations: 239
h-index: 7
Zhuoyun Li
Zhuoyun Li
Citations: 31
h-index: 3
Boxuan Wang
Boxuan Wang
Citations: 47
h-index: 4
Zhenglin Huang
Zhenglin Huang
Citations: 218
h-index: 6
Qisong He
Qisong He
Citations: 9
h-index: 2
Guangliang Cheng
Guangliang Cheng
Citations: 235
h-index: 7

대규모 언어 모델은 미세한 프롬프트 교란에 민감하게 반응하지만, 기존의 강건성 향상 방법은 주로 전체 시퀀스 수준에서 일관성을 유지하는 방식으로 작동합니다. 이러한 전체적인 관점은 중요한 실패 모드를 가릴 수 있습니다. 즉, 교란된 응답은 전체적으로는 원본 응답과 유사해 보일 수 있지만, 중요한 개체, 관계 또는 결론에서 벗어나는 현상입니다. 본 연구에서는 세그먼트 수준의 강건한 LoRA 튜닝을 위한 프레임워크인 S$^2$R$^2$를 제안합니다. S$^2$R$^2$는 원본 및 교란된 응답을 의미론적 세그먼트로 분해하고, 최적 수송(optimal-transport) 방법을 사용하여 이들을 정렬하며, 의미 변화가 가장 큰 세그먼트에 페널티를 부여합니다. 모델 적응과 이 출력 측면의 목표를 연결하기 위해, 세그먼트 수준의 어텐션 재할당에 기반한 어댑터 안정성 정규화 항을 추가합니다. LoRA 정규화를 사용하여 교란으로 인한 증거 변화를 제한하는 방식으로 작동합니다. 또한, PAC-Bayesian 복잡성 관점에서 어댑터 성장을 제어하는 것이 관찰된 교란 범위를 넘어선 일반화 성능 향상에 기여할 수 있음을 설명합니다. 요약 벤치마크 실험 결과, S$^2$R$^2$는 오타, 삭제, 동의어 대체 및 패러프레이징과 같은 다양한 유형의 노이즈에 대한 강건성을 향상시키는 동시에, 기존 방법과 경쟁력 있는 성능을 유지하며, 데이터셋 간 일반화 성능이 더욱 뛰어나다는 것을 확인했습니다.

Original Abstract

Large language models are sensitive to minor prompt perturbations, yet existing robustness methods usually enforce consistency at the whole-sequence level. This holistic view can hide an important failure mode: a perturbed response may remain globally similar to the clean one while drifting on a critical entity, relation, or conclusion. We introduce S$^2$R$^2$, a segment-level framework for robust LoRA fine-tuning. S$^2$R$^2$ decomposes clean and perturbed generations into semantic segments, aligns them with an optimal-transport objective, and penalises the segments with the largest meaning drift. To connect this output-side objective with model adaptation, we add an adapter-stability regulariser motivated by segment-level attention reallocation, using LoRA norm control as a tractable proxy for limiting perturbation-amplified evidence shifts. A PAC-Bayesian complexity view further explains why controlling adapter growth may support transfer beyond observed perturbations. Experiments on summarisation benchmarks show that S$^2$R$^2$ improves robustness under typographical noise, deletion, synonym replacement, and paraphrasing, while maintaining competitive clean performance and stronger cross-dataset transfer than consistency-based baselines.

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!