다중 모드 LLM 평가를 위한 이중 수준 프롬프트 최적화
Bi-Level Prompt Optimization for Multimodal LLM-as-a-Judge
대규모 언어 모델(LLM)은 AI가 생성한 콘텐츠를 평가하는 자동 평가기로 널리 사용되고 있습니다. LLM 기반 평가가 성공적임에도 불구하고, LLM 평가를 인간의 판단과 일치시키는 것은 여전히 어려운 과제입니다. 인간이 라벨링한 데이터에 대한 지도 학습을 통해 일치를 개선할 수 있지만, 이는 비용이 많이 들고 유연성이 떨어지며, 각 작업 또는 데이터 세트에 대해 새로운 학습이 필요합니다. 최근의 자동 프롬프트 최적화(APO) 기술은 LLM 평가를 안내하는 지침을 자동으로 개선하여 보다 효율적인 대안을 제공합니다. 그러나 기존의 APO 방법은 주로 텍스트 기반 평가에 초점을 맞추고 있으며, 다중 모드 환경에서는 아직 충분히 연구되지 않았습니다. 본 연구에서는 다중 모드 LLM 평가, 특히 AI가 생성한 이미지를 평가하기 위한 자동 프롬프트 최적화에 대해 연구합니다. 우리는 핵심적인 문제점을 발견했습니다. 다중 모드 모델은 컨텍스트 윈도우 제약으로 인해 제한된 수의 시각적 예시만 처리할 수 있으며, 이는 효과적인 시행착오를 통한 프롬프트 개선을 방해합니다. 이러한 문제를 해결하기 위해, 우리는 이미지를 평가에 관련된 시각적 정보를 유지하면서 텍스트 표현으로 변환하는 이중 수준 프롬프트 최적화 프레임워크인 BLPO를 제안합니다. 우리의 이중 수준 최적화 접근 방식은 제한된 컨텍스트 예산 하에서 평가 프롬프트와 이미지-텍스트(I2T) 프롬프트를 동시에 개선합니다. 네 가지 데이터 세트와 세 가지 LLM 평가기를 사용한 실험에서, 제안하는 방법의 효과성이 입증되었습니다.
Large language models (LLMs) have become widely adopted as automated judges for evaluating AI-generated content. Despite their success, aligning LLM-based evaluations with human judgments remains challenging. While supervised fine-tuning on human-labeled data can improve alignment, it is costly and inflexible, requiring new training for each task or dataset. Recent progress in auto prompt optimization (APO) offers a more efficient alternative by automatically improving the instructions that guide LLM judges. However, existing APO methods primarily target text-only evaluations and remain underexplored in multimodal settings. In this work, we study auto prompt optimization for multimodal LLM-as-a-judge, particularly for evaluating AI-generated images. We identify a key bottleneck: multimodal models can only process a limited number of visual examples due to context window constraints, which hinders effective trial-and-error prompt refinement. To overcome this, we propose BLPO, a bi-level prompt optimization framework that converts images into textual representations while preserving evaluation-relevant visual cues. Our bi-level optimization approach jointly refines the judge prompt and the I2T prompt to maintain fidelity under limited context budgets. Experiments on four datasets and three LLM judges demonstrate the effectiveness of our method.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.