2604.14585v1 Apr 16, 2026 cs.AI

프롬프트 최적화는 동전 던지기와 같다: 복합 AI 시스템에서 효과가 있을 때를 진단하다

Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems

Guanghui Wang
Guanghui Wang
Citations: 23
h-index: 3
Pei-Gen He
Pei-Gen He
Citations: 21
h-index: 3
Wei Qiu
Wei Qiu
School of Computer Science and Engineering, Nanyang Technological University, Singapore
Citations: 498
h-index: 8
Ziyuan Li
Ziyuan Li
Citations: 104
h-index: 4
Bing Zhu
Bing Zhu
Citations: 39
h-index: 4
Xing Zhang
Xing Zhang
Citations: 22
h-index: 3
Yan Cui
Yan Cui
Citations: 1
h-index: 1

복합 AI 시스템에서 프롬프트 최적화는 통계적으로 동전 던지기와 구별할 수 없습니다. Claude Haiku에서 72번의 최적화 실험(6가지 방법 x 4가지 작업 x 3회 반복)을 진행한 결과, 49%의 경우 결과가 제로샷(zero-shot) 성능보다 낮았습니다. Amazon Nova Lite에서는 실패율이 더욱 높았습니다. 그러나 한 가지 작업에서는 6가지 방법 모두 제로샷 성능보다 최대 +6.8점까지 향상되었습니다. 성공과 실패를 구분하는 요소는 무엇일까요? 우리는 18,000번의 그리드 평가와 144번의 최적화 실험을 통해 TextGrad 및 DSPy와 같은 엔드 투 엔드 최적화 도구의 기반이 되는 두 가지 가설을 검증했습니다. (A) 개별 프롬프트는 최적화할 가치가 있으며, (B) 에이전트 프롬프트는 상호 작용하며, 따라서 공동 최적화가 필요합니다. 상호 작용 효과는 유의미하지 않았습니다 (p > 0.52, 모든 F < 1.0), 그리고 최적화는 작업의 출력 구조가 활용 가능할 때에만 도움이 됩니다. 즉, 모델이 생성할 수 있지만 기본적으로 사용하지 않는 형식인 경우입니다. 우리는 두 단계로 구성된 진단 방법을 제시합니다. 첫 번째 단계는 에이전트 결합 여부를 확인하기 위한 80달러 상당의 ANOVA 사전 테스트이고, 두 번째 단계는 최적화가 가치가 있는지 예측하는 10분 내외의 테스트입니다. 이를 통해 단순히 '동전 던지기'와 같은 불확실성을 줄이고, 정보에 기반한 의사 결정을 내릴 수 있습니다.

Original Abstract

Prompt optimization in compound AI systems is statistically indistinguishable from a coin flip: across 72 optimization runs on Claude Haiku (6 methods $\times$ 4 tasks $\times$ 3 repeats), 49% score below zero-shot; on Amazon Nova Lite, the failure rate is even higher. Yet on one task, all six methods improve over zero-shot by up to $+6.8$ points. What distinguishes success from failure? We investigate with 18,000 grid evaluations and 144 optimization runs, testing two assumptions behind end-to-end optimization tools like TextGrad and DSPy: (A) individual prompts are worth optimizing, and (B) agent prompts interact, requiring joint optimization. Interaction effects are never significant ($p > 0.52$, all $F < 1.0$), and optimization helps only when the task has exploitable output structure -- a format the model can produce but does not default to. We provide a two-stage diagnostic: an \$80 ANOVA pre-test for agent coupling, and a 10-minute headroom test that predicts whether optimization is worthwhile -- turning a coin flip into an informed decision.

1 Citations
0 Influential
4 Altmetric
21.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!