2602.05258v1 Feb 05, 2026 cs.CL

CoPE: 잘린 RoPE를 활용한 확장 가능한 방법, 긴 문맥 LLM을 위한 효율적인 기술

CoPE: Clipped RoPE as A Scalable Free Lunch for Long Context LLMs

Alan L. Yuille
Alan L. Yuille
Citations: 1,271
h-index: 19
Sucheng Ren
Sucheng Ren
Citations: 320
h-index: 9
Haoran Li
Haoran Li
Citations: 1
h-index: 1
Feng Wang
Feng Wang
Citations: 0
h-index: 0

회전 위치 임베딩(RoPE)은 대규모 언어 모델(LLM)의 문맥 확장 기술의 핵심 구성 요소입니다. RoPE를 더 긴 문맥에 적용하기 위한 다양한 방법들이 제안되었지만, 이러한 방법들의 기본 원리는 일반적으로 두 가지 범주로 나뉩니다. (1) 분포 외(Out-of-Distribution, OOD) 문제 완화: RoPE 주파수를 조정하여 아직 관찰되지 않은 위치를 수용합니다. (2) 의미 모델링: RoPE를 사용하여 계산된 어텐션 점수는 항상 의미적으로 유사한 토큰을 우선시해야 합니다. 본 연구에서는 CoPE라는 최소한의 개입을 통해 이러한 겉보기에는 상반되는 목표들을 통합합니다. CoPE는 RoPE의 저주파 성분을 소프트 클리핑하는 기술입니다. CoPE는 OOD 아웃라이어를 제거하고 의미 신호를 개선할 뿐만 아니라, 하드 클리핑으로 인해 발생하는 스펙트럼 누출을 방지합니다. 광범위한 실험 결과, RoPE에 간단히 소프트 클리핑 전략을 적용하는 것만으로도 상당한 성능 향상을 얻을 수 있으며, 이는 최대 256k의 문맥 길이까지 확장됩니다. 이는 우리의 이론적 분석을 검증하고 CoPE를 길이 일반화 측면에서 새로운 최첨단 기술로 확립합니다. 우리의 코드, 데이터 및 모델은 https://github.com/hrlics/CoPE 에서 확인할 수 있습니다.

Original Abstract

Rotary Positional Embedding (RoPE) is a key component of context scaling in Large Language Models (LLMs). While various methods have been proposed to adapt RoPE to longer contexts, their guiding principles generally fall into two categories: (1) out-of-distribution (OOD) mitigation, which scales RoPE frequencies to accommodate unseen positions, and (2) Semantic Modeling, which posits that the attention scores computed with RoPE should always prioritize semantically similar tokens. In this work, we unify these seemingly distinct objectives through a minimalist intervention, namely CoPE: soft clipping lowfrequency components of RoPE. CoPE not only eliminates OOD outliers and refines semantic signals, but also prevents spectral leakage caused by hard clipping. Extensive experiments demonstrate that simply applying our soft clipping strategy to RoPE yields significant performance gains that scale up to 256k context length, validating our theoretical analysis and establishing CoPE as a new state-of-the-art for length generalization. Our code, data, and models are available at https://github.com/hrlics/CoPE.

0 Citations
0 Influential
39.229550745277 Altmetric
196.1 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!