LATTICE: 암호화폐 에이전트의 의사 결정 지원 유용성 평가
LATTICE: Evaluating Decision Support Utility of Crypto Agents
본 논문에서는 LATTICE를 소개합니다. LATTICE는 실제 사용 환경에서 암호화폐 에이전트의 의사 결정 지원 유용성을 평가하기 위한 벤치마크입니다. 기존의 암호화폐 에이전트 벤치마크는 주로 추론 기반 또는 결과 기반 평가에 초점을 맞추었지만, 에이전트가 사용자의 의사 결정을 지원하는 능력을 평가하지 못했습니다. LATTICE는 다음과 같은 방법으로 이러한 간극을 해소합니다. (1) 주요 의사 결정 지원 특성을 포괄하는 여섯 가지 평가 차원을 정의하고, (2) 엔드 투 엔드 암호화폐 코파일럿 워크플로우를 포괄하는 16가지 작업 유형을 제안하며, (3) LLM(대규모 언어 모델) 평가단을 사용하여 이러한 차원과 작업에 따라 에이전트의 출력 결과를 자동으로 평가합니다. 중요한 점은, 이러한 차원과 작업은 전문가의 어노테이션이나 외부 데이터 소스에 의존하지 않고, LLM 평가단을 사용하여 대규모로 평가할 수 있도록 설계되었습니다. 이러한 의존성이 없기 때문에, LATTICE의 LLM 평가 기준은 새로운 차원, 작업, 기준 및 사용자 피드백을 통해 지속적으로 감사 및 업데이트될 수 있으며, 이를 통해 신뢰성 있고 확장 가능한 평가를 촉진합니다. 다른 벤치마크가 일반적으로 공통 에이전트 프레임워크를 공유하는 기반 모델을 비교하는 반면, 우리는 LATTICE를 사용하여 실제 암호화폐 코파일럿 제품에 사용되는 프로덕션 레벨 에이전트를 평가합니다. 이는 에이전트 품질을 결정하는 데 있어 오케스트레이션 및 UI/UX 디자인의 중요성을 반영합니다. 본 논문에서는 1,200개의 다양한 쿼리에 대한 6개의 실제 암호화폐 코파일럿을 평가하고, 차원, 작업 및 쿼리 범주별 결과를 자세히 분석하여 보고합니다. 실험 결과, 대부분의 테스트 코파일럿은 유사한 종합 점수를 보이지만, 차원 수준 및 작업 수준의 성능에서는 상당한 차이를 보입니다. 이러한 패턴은 의사 결정 지원 품질에 대한 의미 있는 절충점을 시사합니다. 즉, 사용자는 서로 다른 우선순위를 가지고 있으며, 종합 순위만으로는 판단하기 어려운 경우, 서로 다른 코파일럿이 더 적합할 수 있습니다. 재현 가능한 연구를 지원하기 위해, 본 논문에서 사용된 모든 LATTICE 코드 및 데이터를 공개합니다.
We introduce LATTICE, a benchmark for evaluating the decision support utility of crypto agents in realistic user-facing scenarios. Prior crypto agent benchmarks mainly focus on reasoning-based or outcome-based evaluation, but do not assess agents' ability to assist user decision-making. LATTICE addresses this gap by: (1) defining six evaluation dimensions that capture key decision support properties; (2) proposing 16 task types that span the end-to-end crypto copilot workflow; and (3) using LLM judges to automatically score agent outputs based on these dimensions and tasks. Crucially, the dimensions and tasks are designed to be evaluable at scale using LLM judges, without relying on ground truth from expert annotators or external data sources. In lieu of these dependencies, LATTICE's LLM judge rubrics can be continually audited and updated given new dimensions, tasks, criteria, and human feedback, thus promoting reliable and extensible evaluation. While other benchmarks often compare foundation models sharing a generic agent framework, we use LATTICE to assess production-level agents used in actual crypto copilot products, reflecting the importance of orchestration and UI/UX design in determining agent quality. In this paper, we evaluate six real-world crypto copilots on 1,200 diverse queries and report breakdowns across dimensions, tasks, and query categories. Our experiments show that most of the tested copilots achieve comparable aggregate scores, but differ more significantly on dimension-level and task-level performance. This pattern suggests meaningful trade-offs in decision support quality: users with different priorities may be better served by different copilots than the aggregate rankings alone would indicate. To support reproducible research, we open-source all LATTICE code and data used in this paper.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.