PersonalQ: 효율적인 추론을 위한 개인 맞춤형 디퓨전 모델 선택, 양자화 및 서비스
PersonalQ: Select, Quantize, and Serve Personalized Diffusion Models for Efficient Inference
개인 맞춤형 텍스트-이미지 생성은 사용자가 특정 개념에 대한 체크포인트를 활용하여 디퓨전 모델을 미세 조정할 수 있도록 하지만, 이러한 저장소를 효율적으로 서비스하는 것은 두 가지 이유로 어렵습니다. 첫째, 자연어 요청은 종종 모호하며, 시각적으로 유사한 체크포인트로 잘못 연결될 수 있습니다. 둘째, 표준적인 사후 훈련 양자화는 개인화된 개념을 인코딩하는 취약한 표현을 왜곡할 수 있습니다. 본 논문에서는 체크포인트 선택과 양자화를 체크포인트의 트리거 토큰이라는 공통 신호를 통해 연결하는 통합 프레임워크인 PersonalQ를 제시합니다. Check-in은 의도에 맞는 체크포인트 선택을 위해 의도 인식 하이브리드 검색과 체크포인트 컨텍스트에 대한 LLM 기반 재순위를 결합하며, 여러 개의 가능한 의도가 남아 있을 때만 간단한 명확화 질문을 합니다. 그런 다음, 선택된 체크포인트의 표준 트리거를 삽입하여 프롬프트를 재작성합니다. 또한, Trigger-Aware Quantization (TAQ)은 크로스-어텐션에서 트리거 인식 혼합 정밀도를 적용하여 트리거 조건 키/값 행(및 해당 어텐션 가중치)을 유지하면서 나머지 경로를 적극적으로 양자화하여 메모리 효율적인 추론을 가능하게 합니다. 실험 결과, PersonalQ는 검색 및 재순위 기준보다 의도 일치도를 향상시키는 것으로 나타났으며, TAQ는 기존의 디퓨전 PTQ 방법보다 일관되게 더 나은 압축-품질 균형을 제공하여, 충실도를 손실하지 않고 개인 맞춤형 체크포인트를 확장 가능하게 서비스할 수 있도록 합니다.
Personalized text-to-image generation lets users fine-tune diffusion models into repositories of concept-specific checkpoints, but serving these repositories efficiently is difficult for two reasons: natural-language requests are often ambiguous and can be misrouted to visually similar checkpoints, and standard post-training quantization can distort the fragile representations that encode personalized concepts. We present PersonalQ, a unified framework that connects checkpoint selection and quantization through a shared signal -- the checkpoint's trigger token. Check-in performs intent-aligned selection by combining intent-aware hybrid retrieval with LLM-based reranking over checkpoint context and asks a brief clarification question only when multiple intents remain plausible; it then rewrites the prompt by inserting the selected checkpoint's canonical trigger. Complementing this, Trigger-Aware Quantization (TAQ) applies trigger-aware mixed precision in cross-attention, preserving trigger-conditioned key/value rows (and their attention weights) while aggressively quantizing the remaining pathways for memory-efficient inference. Experiments show that PersonalQ improves intent alignment over retrieval and reranking baselines, while TAQ consistently offers a stronger compression-quality trade-off than prior diffusion PTQ methods, enabling scalable serving of personalized checkpoints without sacrificing fidelity.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.