LoRA 가중치 기반 시각적 유추 공간 탐색
Spanning the Visual Analogy Space with a Weight Basis of LoRAs
시각적 유추 학습은 텍스트 설명을 사용하는 대신 시연을 통해 이미지 조작을 가능하게 하여, 사용자가 단어로 표현하기 어려운 복잡한 변환을 지정할 수 있도록 합니다. 주어진 3개의 요소 집합 {a, a', b}가 주어지면, b'를 생성하는 것이 목표이며, 이때 a : a' :: b : b' 관계가 성립해야 합니다. 최근 연구에서는 텍스트-이미지 모델을 사용하여 단일 Low-Rank Adaptation (LoRA) 모듈을 통해 이 작업을 수행하지만, 이러한 방법은 근본적인 한계를 가지고 있습니다. 즉, 고정된 적응 모듈 내에서 다양한 시각적 변환 공간을 포착하려고 하면 일반화 능력이 제한됩니다. 최근 연구에서 제약된 영역에서 LoRA가 의미 있는, 보간 가능한 의미 공간을 포괄한다는 점에 영감을 받아, 우리는 LoRWeB라는 새로운 접근 방식을 제안합니다. LoRWeB는 학습된 변환 원시 요소의 동적 조합을 통해 추론 시간에 각 유추 작업에 맞게 모델을 특화하며, 비공식적으로는 "LoRA의 공간" 내의 한 점을 선택하는 방식으로 작동합니다. 우리는 두 가지 핵심 구성 요소를 소개합니다. (1) 다양한 시각적 변환 공간을 포괄하는 학습 가능한 LoRA 모듈의 기반, 그리고 (2) 입력 유추 쌍에 따라 이러한 기반 LoRA를 동적으로 선택하고 가중치를 부여하는 경량 인코더입니다. 종합적인 평가 결과, 제안하는 방법은 최첨단 성능을 달성하며, 새로운 시각적 변환에 대한 일반화 능력이 크게 향상됨을 보여줍니다. 우리의 연구 결과는 LoRA 기반 분해가 유연한 시각적 조작을 위한 유망한 방향임을 시사합니다. 코드 및 데이터는 https://research.nvidia.com/labs/par/lorweb 에서 확인할 수 있습니다.
Visual analogy learning enables image manipulation through demonstration rather than textual description, allowing users to specify complex transformations difficult to articulate in words. Given a triplet $\{\mathbf{a}$, $\mathbf{a}'$, $\mathbf{b}\}$, the goal is to generate $\mathbf{b}'$ such that $\mathbf{a} : \mathbf{a}' :: \mathbf{b} : \mathbf{b}'$. Recent methods adapt text-to-image models to this task using a single Low-Rank Adaptation (LoRA) module, but they face a fundamental limitation: attempting to capture the diverse space of visual transformations within a fixed adaptation module constrains generalization capabilities. Inspired by recent work showing that LoRAs in constrained domains span meaningful, interpolatable semantic spaces, we propose LoRWeB, a novel approach that specializes the model for each analogy task at inference time through dynamic composition of learned transformation primitives, informally, choosing a point in a "space of LoRAs". We introduce two key components: (1) a learnable basis of LoRA modules, to span the space of different visual transformations, and (2) a lightweight encoder that dynamically selects and weighs these basis LoRAs based on the input analogy pair. Comprehensive evaluations demonstrate our approach achieves state-of-the-art performance and significantly improves generalization to unseen visual transformations. Our findings suggest that LoRA basis decompositions are a promising direction for flexible visual manipulation. Code and data are in https://research.nvidia.com/labs/par/lorweb
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.