SHINE: 단일 패스 내에서 문맥을 LoRA로 매핑하는 확장 가능한 컨텍스트 하이퍼 네트워크
SHINE: A Scalable In-Context Hypernetwork for Mapping Context to LoRA in a Single Pass
본 논문에서는 대규모 언어 모델(LLM)을 위한 고품질 LoRA 어댑터를 생성하기 위해 다양한 의미 있는 문맥을 매핑할 수 있는 확장 가능한 하이퍼 네트워크인 SHINE (Scalable Hyper In-context NEtwork)을 제안합니다. SHINE은 기존 하이퍼 네트워크의 주요 한계를 극복하고 상대적으로 적은 수의 파라미터로 강력한 표현력을 달성하기 위해, 동결된 LLM 자체의 파라미터를 컨텍스트 하이퍼 네트워크 설계에 재사용하고 혁신적인 아키텍처를 도입합니다. 우리는 사전 훈련 및 지시 미세 조정 파이프라인을 도입하고, 하이퍼 네트워크를 훈련하여 단일 순전파 과정에서 다양한 의미 있는 문맥으로부터 고품질 LoRA 어댑터를 생성하도록 합니다. SHINE은 미세 조정 없이 LLM 파라미터를 업데이트하며, 문맥에 직접 액세스하지 않고도 문맥과 관련된 복잡한 질문 답변 작업을 즉시 수행할 수 있습니다. 이는 문맥 지식을 파라미터 지식으로 효과적으로 변환합니다. 우리의 연구는 다양한 작업에서 뛰어난 결과를 보여주며, 기존의 SFT 기반 LLM 적응 방식에 비해 시간, 계산 및 메모리 비용을 크게 절약하며, 확장 가능성이 매우 높습니다. 저희의 코드는 https://github.com/Yewei-Liu/SHINE 에서 확인할 수 있습니다.
We propose SHINE (Scalable Hyper In-context NEtwork), a scalable hypernetwork that can map diverse meaningful contexts into high-quality LoRA adapters for large language models (LLM). By reusing the frozen LLM's own parameters in an in-context hypernetwork design and introducing architectural innovations, SHINE overcomes key limitations of prior hypernetworks and achieves strong expressive power with a relatively small number of parameters. We introduce a pretraining and instruction fine-tuning pipeline, and train our hypernetwork to generate high quality LoRA adapters from diverse meaningful contexts in a single forward pass. It updates LLM parameters without any fine-tuning, and immediately enables complex question answering tasks related to the context without directly accessing the context, effectively transforming in-context knowledge to in-parameter knowledge in one pass. Our work achieves outstanding results on various tasks, greatly saves time, computation and memory costs compared to SFT-based LLM adaptation, and shows great potential for scaling. Our code is available at https://github.com/Yewei-Liu/SHINE
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.