재미있거나 설득력이 있을 수는 있지만, 둘 다는 아닐 수 있다: LLM에서 미세 조정된 다중 개념 제어 평가
Funny or Persuasive, but Not Both: Evaluating Fine-Grained Multi-Concept Control in LLMs
대규모 언어 모델(LLM)은 강력한 생성 능력을 제공하지만, 많은 응용 프로그램에서는 유머, 설득력 또는 격식과 같은 특정 텍스트 개념에 대한 명시적이고 extit{미세 조정된} 제어가 필요합니다. 기존의 프롬프트 및 표현 엔지니어링 기술은 거칠거나 단일 속성 제어를 제공할 수 있지만, 다중 속성 설정을 체계적으로 평가하는 연구는 아직 제한적입니다. 본 연구에서는 단일 및 이중 개념 시나리오 모두에 대한 미세 조정된 제어 가능성을 평가하는 프레임워크를 소개하며, 언어학적으로 구별되는 개념 쌍(예: 설득력 대 유머)에 중점을 둡니다. 놀랍게도, 여러 LLM과 생성 작업에서 이중 개념 설정에서 성능이 종종 저하되는 것을 확인했습니다. 이는 선택된 개념이 원칙적으로 분리 가능해야 함에도 불구하고 나타나는 현상입니다. 이는 기본적인 프롬프트 기반 제어의 한계를 드러냅니다. 모델은 직관적으로 독립적인 개념이라 하더라도 합성성에 어려움을 겪습니다. 본 프레임워크는 이러한 격차에 대한 체계적인 증거를 제공하며, 향후 다중 개념 제어를 위한 방법의 능력을 측정하는 데 필요한 원칙적인 접근 방식을 제시합니다.
Large Language Models (LLMs) offer strong generative capabilities, but many applications require explicit and \textit{fine-grained} control over specific textual concepts, such as humor, persuasiveness, or formality. Prior approaches in prompting and representation engineering can provide coarse or single-attribute control, but systematic evaluation of multi-attribute settings remains limited. We introduce an evaluation framework for fine-grained controllability for both single- and dual-concept scenarios, focusing on linguistically distinct concept pairs (e.g., persuasiveness vs.~humor). Surprisingly, across multiple LLMs and generative tasks, we find that performance often drops in the dual-concept setting, even though the chosen concepts should in principle be separable. This reveals a fundamental limitation of naive prompting-based control: models struggle with compositionality even when concepts are intuitively independent. Our framework provides systematic evidence of this gap and offers a principled approach for measuring the ability of future methods for multi-concept control.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.