예시 자체가 아닌 과정: 자기 생성 예제가 LLM 추론 능력을 향상시키는 방법
Not the Example, but the Process: How Self-Generated Examples Enhance LLM Reasoning
최근 연구에 따르면, 대규모 언어 모델(LLM)은 스스로 생성한 소량의 예시를 통해 추론 성능을 향상시킬 수 있으며, 이는 사람이 직접 제작한 예시와 유사한 결과를 얻을 수 있습니다. 그러나 이러한 성능 향상의 근본적인 메커니즘은 여전히 불분명하여, 이 기술을 언제, 어떻게 효과적으로 적용해야 할지 결정하기 어렵습니다. 본 연구에서는 핵심적인 이점이 생성된 예시 자체보다는 예시를 생성하는 과정에서 비롯된다고 주장합니다. 이를 검증하기 위해, 다양한 LLM 아키텍처에서 추론 능력을 요구하는 작업들을 대상으로, 인컨텍스트 학습을 위한 세 가지 프롬프트 전략을 체계적으로 평가했습니다. (1) 제로샷 프롬프팅, (2) 통합 프롬프팅(LLM이 단일 프롬프트 내에서 문제를 생성하고 해결), (3) 분리 프롬프팅(자체 생성된 예시를 인컨텍스트 예시로 재사용하지만, 예시 생성 과정 자체는 제외). 널리 사용되는 다섯 가지 모델 아키텍처에서 실험을 수행한 결과, 통합 프롬프팅이 제로샷 및 분리 프롬프팅보다 일관되게 우수한 성능을 보였습니다. 반면, 분리 프롬프팅은 제로샷 프롬프팅보다 미미한 성능 향상만 제공했습니다. 또한, 더 심층적인 분석을 위해 어텐션 분석을 수행한 결과, 통합 프롬프팅과 분리 프롬프팅 간의 어텐션 패턴에 상당한 차이가 있음을 확인했습니다. 이러한 결과는 자체 생성 프롬프팅의 장점이 예시 자체가 아닌 문제 생성 과정에서 비롯된다는 것을 시사하며, 보다 효과적인 프롬프트 전략을 설계하는 데 유용한 통찰력을 제공합니다.
Recent studies have shown that Large Language Models (LLMs) can improve their reasoning performance through self-generated few-shot examples, achieving results comparable to manually curated in-context examples. However, the underlying mechanism behind these gains remains unclear, making it hard to decide when and how to apply the technique effectively. In this work, we argue that the key benefit arises not from the generated examples themselves but from the act of creating them. To validate this, on reasoning-intensive tasks across diverse LLM architectures, we systematically evaluate three prompting strategies for in-context learning: (1) Zero-shot prompting; (2) Integrated prompting, where LLMs create and solve problems within a single, unified prompt; and (3) Decoupled prompting, where self-generated examples are reused as in-context examples, but the context of their creation itself is excluded. We conduct experiments across five widely used model architectures, demonstrating that Integrated prompting consistently outperforms both Zero-shot and Decoupled prompting. In contrast, Decoupled prompting offers only marginal gains over Zero-shot. Further, for a more in-depth analysis, we conduct an attention analysis and observe significant differences in attention patterns between Integrated and Decoupled prompting. These findings suggest that the advantage of self-generation prompting comes from the process of problem creation, not the examples themselves, providing valuable insights for designing more effective prompting strategies.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.