프롬프트 교란은 어디에서 생성 오류를 일으키는가? LoRA로 튜닝된 언어 모델의 강건성 분석: 세그먼트 수준의 관점
Where Do Prompt Perturbations Break Generation? A Segment-Level View of Robustness in LoRA-Tuned Language Models
대규모 언어 모델은 미세한 프롬프트 교란에 민감하게 반응하지만, 기존의 강건성 향상 방법은 주로 전체 시퀀스 수준에서 일관성을 유지하는 방식으로 작동합니다. 이러한 전체적인 관점은 중요한 실패 모드를 가릴 수 있습니다. 즉, 교란된 응답은 전체적으로는 원본 응답과 유사해 보일 수 있지만, 중요한 개체, 관계 또는 결론에서 벗어나는 현상입니다. 본 연구에서는 세그먼트 수준의 강건한 LoRA 튜닝을 위한 프레임워크인 S$^2$R$^2$를 제안합니다. S$^2$R$^2$는 원본 및 교란된 응답을 의미론적 세그먼트로 분해하고, 최적 수송(optimal-transport) 방법을 사용하여 이들을 정렬하며, 의미 변화가 가장 큰 세그먼트에 페널티를 부여합니다. 모델 적응과 이 출력 측면의 목표를 연결하기 위해, 세그먼트 수준의 어텐션 재할당에 기반한 어댑터 안정성 정규화 항을 추가합니다. LoRA 정규화를 사용하여 교란으로 인한 증거 변화를 제한하는 방식으로 작동합니다. 또한, PAC-Bayesian 복잡성 관점에서 어댑터 성장을 제어하는 것이 관찰된 교란 범위를 넘어선 일반화 성능 향상에 기여할 수 있음을 설명합니다. 요약 벤치마크 실험 결과, S$^2$R$^2$는 오타, 삭제, 동의어 대체 및 패러프레이징과 같은 다양한 유형의 노이즈에 대한 강건성을 향상시키는 동시에, 기존 방법과 경쟁력 있는 성능을 유지하며, 데이터셋 간 일반화 성능이 더욱 뛰어나다는 것을 확인했습니다.
Large language models are sensitive to minor prompt perturbations, yet existing robustness methods usually enforce consistency at the whole-sequence level. This holistic view can hide an important failure mode: a perturbed response may remain globally similar to the clean one while drifting on a critical entity, relation, or conclusion. We introduce S$^2$R$^2$, a segment-level framework for robust LoRA fine-tuning. S$^2$R$^2$ decomposes clean and perturbed generations into semantic segments, aligns them with an optimal-transport objective, and penalises the segments with the largest meaning drift. To connect this output-side objective with model adaptation, we add an adapter-stability regulariser motivated by segment-level attention reallocation, using LoRA norm control as a tractable proxy for limiting perturbation-amplified evidence shifts. A PAC-Bayesian complexity view further explains why controlling adapter growth may support transfer beyond observed perturbations. Experiments on summarisation benchmarks show that S$^2$R$^2$ improves robustness under typographical noise, deletion, synonym replacement, and paraphrasing, while maintaining competitive clean performance and stronger cross-dataset transfer than consistency-based baselines.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.