HYVE: LLM 컨텍스트 엔지니어링을 위한 하이브리드 뷰 - 머신 데이터 기반
HYVE: Hybrid Views for LLM Context Engineering over Machine Data
머신 데이터는 현대 컴퓨팅 시스템의 관측 및 진단을 위해 매우 중요하며, 로그, 메트릭, 텔레메트리 추적 및 구성 스냅샷 형태로 존재합니다. 이러한 데이터가 대규모 언어 모델(LLM)에 제공될 때, 일반적으로 자연어와 JSON 또는 Python/AST와 같은 구조화된 데이터가 혼합된 형태로 제공됩니다. 그러나 LLM은 이러한 입력, 특히 길이가 길고, 깊이 중첩되어 있으며, 반복적인 구조가 주를 이루는 입력에 취약한 경향이 있습니다. 본 논문에서는 데이터베이스 관리 원칙에 영감을 받아, 대량의 머신 데이터 페이로드를 포함하는 입력을 위한 LLM 컨텍스트 엔지니어링 프레임워크인 HYVE (HYbrid ViEw)를 제시합니다. HYVE는 모델 호출을 둘러싸고, 요청 범위 내의 데이터 저장소와 스키마 정보를 활용하여 조정된 전처리 및 후처리 단계를 수행합니다. 전처리 단계에서 HYVE는 원시 입력에서 반복적인 구조를 감지하고, 이를 데이터 저장소에 저장하며, 하이브리드 형태의 컬럼 기반 및 행 기반 뷰로 변환하고, LLM에 가장 관련성이 높은 표현만 선택적으로 노출합니다. 후처리 단계에서는 HYVE가 모델 출력을 직접 반환하거나, 누락된 정보를 복구하기 위해 데이터 저장소를 쿼리하거나, SQL 기반의 의미론적 분석을 위한 추가적인 LLM 호출을 수행합니다. 저희는 지식 기반 질의 응답, 차트 생성, 이상 감지 및 다단계 네트워크 문제 해결 등 다양한 실제 워크로드에서 HYVE를 평가했습니다. 이러한 벤치마크에서 HYVE는 토큰 사용량을 50~90% 줄이면서 출력 품질을 유지하거나 향상시켰습니다. 구조화된 생성 작업에서는 차트 생성 정확도를 최대 132% 향상시키고, 지연 시간을 최대 83% 줄였습니다. 전반적으로 HYVE는 대량의 머신 데이터 페이로드로 구성된 프롬프트에 대해 효과적으로 무제한에 가까운 컨텍스트 창을 제공하는 실용적인 접근 방식입니다.
Machine data is central to observability and diagnosis in modern computing systems, appearing in logs, metrics, telemetry traces, and configuration snapshots. When provided to large language models (LLMs), this data typically arrives as a mixture of natural language and structured payloads such as JSON or Python/AST literals. Yet LLMs remain brittle on such inputs, particularly when they are long, deeply nested, and dominated by repetitive structure. We present HYVE (HYbrid ViEw), a framework for LLM context engineering for inputs containing large machine-data payloads, inspired by database management principles. HYVE surrounds model invocation with coordinated preprocessing and postprocessing, centered on a request-scoped datastore augmented with schema information. During preprocessing, HYVE detects repetitive structure in raw inputs, materializes it in the datastore, transforms it into hybrid columnar and row-oriented views, and selectively exposes only the most relevant representation to the LLM. During postprocessing, HYVE either returns the model output directly, queries the datastore to recover omitted information, or performs a bounded additional LLM call for SQL-augmented semantic synthesis. We evaluate HYVE on diverse real-world workloads spanning knowledge QA, chart generation, anomaly detection, and multi-step network troubleshooting. Across these benchmarks, HYVE reduces token usage by 50-90% while maintaining or improving output quality. On structured generation tasks, it improves chart-generation accuracy by up to 132% and reduces latency by up to 83%. Overall, HYVE offers a practical approximation to an effectively unbounded context window for prompts dominated by large machine-data payloads.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.