프롬프트 최적화는 동전 던지기와 같다: 복합 AI 시스템에서 효과가 있을 때를 진단하다
Prompt Optimization Is a Coin Flip: Diagnosing When It Helps in Compound AI Systems
복합 AI 시스템에서 프롬프트 최적화는 통계적으로 동전 던지기와 구별할 수 없습니다. Claude Haiku에서 72번의 최적화 실험(6가지 방법 x 4가지 작업 x 3회 반복)을 진행한 결과, 49%의 경우 결과가 제로샷(zero-shot) 성능보다 낮았습니다. Amazon Nova Lite에서는 실패율이 더욱 높았습니다. 그러나 한 가지 작업에서는 6가지 방법 모두 제로샷 성능보다 최대 +6.8점까지 향상되었습니다. 성공과 실패를 구분하는 요소는 무엇일까요? 우리는 18,000번의 그리드 평가와 144번의 최적화 실험을 통해 TextGrad 및 DSPy와 같은 엔드 투 엔드 최적화 도구의 기반이 되는 두 가지 가설을 검증했습니다. (A) 개별 프롬프트는 최적화할 가치가 있으며, (B) 에이전트 프롬프트는 상호 작용하며, 따라서 공동 최적화가 필요합니다. 상호 작용 효과는 유의미하지 않았습니다 (p > 0.52, 모든 F < 1.0), 그리고 최적화는 작업의 출력 구조가 활용 가능할 때에만 도움이 됩니다. 즉, 모델이 생성할 수 있지만 기본적으로 사용하지 않는 형식인 경우입니다. 우리는 두 단계로 구성된 진단 방법을 제시합니다. 첫 번째 단계는 에이전트 결합 여부를 확인하기 위한 80달러 상당의 ANOVA 사전 테스트이고, 두 번째 단계는 최적화가 가치가 있는지 예측하는 10분 내외의 테스트입니다. 이를 통해 단순히 '동전 던지기'와 같은 불확실성을 줄이고, 정보에 기반한 의사 결정을 내릴 수 있습니다.
Prompt optimization in compound AI systems is statistically indistinguishable from a coin flip: across 72 optimization runs on Claude Haiku (6 methods $\times$ 4 tasks $\times$ 3 repeats), 49% score below zero-shot; on Amazon Nova Lite, the failure rate is even higher. Yet on one task, all six methods improve over zero-shot by up to $+6.8$ points. What distinguishes success from failure? We investigate with 18,000 grid evaluations and 144 optimization runs, testing two assumptions behind end-to-end optimization tools like TextGrad and DSPy: (A) individual prompts are worth optimizing, and (B) agent prompts interact, requiring joint optimization. Interaction effects are never significant ($p > 0.52$, all $F < 1.0$), and optimization helps only when the task has exploitable output structure -- a format the model can produce but does not default to. We provide a two-stage diagnostic: an \$80 ANOVA pre-test for agent coupling, and a 10-minute headroom test that predicts whether optimization is worthwhile -- turning a coin flip into an informed decision.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.