2604.27763v1 Apr 30, 2026 cs.AI

Intent2Tx: 자연어 의도를 이더리움 트랜잭션으로 변환하는 LLM 성능 평가

Intent2Tx: Benchmarking LLMs for Translating Natural Language Intents into Ethereum Transactions

Wei Wang
Wei Wang
Citations: 0
h-index: 0
Zhi Guan
Zhi Guan
Citations: 842
h-index: 13

대규모 언어 모델(LLM)의 등장은 Web3에 혁신적인 인터페이스를 제공하지만, 기존의 벤치마크는 고수준의 사용자 의도를 기능적으로 정확하고 상태에 의존적인 온체인 트랜잭션으로 변환하는 복잡성을 제대로 반영하지 못합니다. 본 논문에서는 실제 이더리움 메인넷 트레이스 데이터 300일분을 기반으로 엄선된 29,921개의 단일 단계 인스턴스와 1,575개의 다중 단계 인스턴스로 구성된 고정밀 벤치마크인 extsc{Intent2Tx}를 제시합니다. 기존 연구들이 합성된 명령에 의존하는 것과 달리, extsc{Intent2Tx}는 다양한 롱테일 탈중앙화 금융(DeFi) 프로토콜을 포함하여 11가지 범주에 걸쳐 실제 프로토콜 상호작용에 기반한 자연어 의도를 사용합니다. 엄격한 평가를 위해, 우리는 포크된 메인넷 환경에서 차등 상태 분석을 활용하여 표면적인 텍스트 매칭을 넘어선 실행 기반 평가 프레임워크를 제안합니다. 16개의 최첨단 LLM에 대한 광범위한 평가는 확장 및 검색 증강이 논리적 일관성과 매개변수 정확성을 향상시키지만, 현재 모델은 여전히 일반화 및 다단계 계획 수립에 어려움을 겪는다는 것을 보여줍니다. 더욱 중요한 점은, 우리의 실행 기반 분석은 구문적으로 유효한 결과물이 의도된 상태 전환을 달성하지 못하는 경우가 많다는 것을 보여주며, 이는 현재의 "추론-실행" 능력에 중요한 격차가 있음을 강조합니다. extsc{Intent2Tx}는 의도 중심의 Web3 생태계에서 자율적이고 안정적인 에이전트를 개발하는 데 중요한 기반을 제공합니다. 코드 및 데이터: https://anonymous.4open.science/r/Intent2Tx_Bench-97FF

Original Abstract

The emergence of Large Language Models (LLMs) offers a transformative interface for Web3, yet existing benchmarks fail to capture the complexity of translating high-level user intents into functionally correct, state-dependent on-chain transactions. We present \textsc{Intent2Tx}, a high-fidelity benchmark featuring 29,921 single-step and 1,575 multi-step instances meticulously derived from 300 days of real-world Ethereum mainnet traces. Unlike prior works that rely on synthetic instructions, \textsc{Intent2Tx} grounds natural language intents in real-world protocol interactions across 11 categories, including diverse long-tail Decentralized Finance (DeFi) primitives. To enable rigorous evaluation, we propose an execution-aware framework that transcends surface-level text matching by employing differential state analysis on forked mainnet environments. Our extensive evaluation of 16 state-of-the-art LLMs reveals that while scaling and retrieval-augmentation enhance logical consistency and parameter precision, current models struggle with out-of-distribution generalization and multi-step planning. Crucially, our execution-based analysis demonstrates that syntactically valid outputs often fail to achieve intended state transitions, highlighting a significant gap in current "reasoning-to-execution" capabilities. \textsc{Intent2Tx} serves as a critical foundation for developing autonomous, reliable agents in intent-centric Web3 ecosystems. Code and data: https://anonymous.4open.science/r/Intent2Tx_Bench-97FF .

0 Citations
0 Influential
6.5 Altmetric
32.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!