설계 단계부터 안전성을 고려한 레이크하우스 구축: 데이터 계약, 버전 관리, 그리고 인간과 에이전트를 위한 트랜잭셔널 파이프라인
Building a Correct-by-Design Lakehouse. Data Contracts, Versioning, and Transactional Pipelines for Humans and Agents
레이크하우스는 분석 및 AI를 위한 클라우드 플랫폼의 표준으로 자리 잡고 있지만, 신뢰할 수 없는 사용자가 동시에 운영 데이터에 접근할 때 위험이 발생합니다. 이러한 경우, 상위-하위 간의 불일치는 런타임에만 드러나며, 여러 테이블을 사용하는 파이프라인은 부분적인 영향을 초래할 수 있습니다. 소프트웨어 엔지니어링의 원칙에 기반하여, 우리는 Bauplan이라는 코드 우선 레이크하우스를 설계했습니다. Bauplan은 익숙한 추상화를 사용하여 (대부분의) 잘못된 상태를 표현할 수 없도록 하는 것을 목표로 합니다. Bauplan은 세 가지 측면에서 작동합니다. 첫째, 파이프라인 경계를 검증할 수 있는 타입이 지정된 테이블 계약을 사용합니다. 둘째, 검토 및 재현성을 위한 Git과 유사한 데이터 버전 관리를 제공합니다. 셋째, 파이프라인 수준의 원자성을 보장하는 트랜잭셔널 실행을 제공합니다. 우리는 경량화된 형식 트랜잭션 모델의 초기 결과를 보고하며, 반례를 통해 동기 부여를 받은 향후 연구 방향에 대해 논의합니다.
Lakehouses are the default cloud platform for analytics and AI, but they become unsafe when untrusted actors concurrently operate on production data: upstream-downstream mismatches surface only at runtime, and multi-table pipelines can leak partial effects. Inspired by software engineering, we design Bauplan, a code-first lakehouse that aims to make (most) illegal states unrepresentable using familiar abstractions. Bauplan acts along three axes: typed table contracts to make pipeline boundaries checkable, Git-like data versioning for review and reproducibility, and transactional runs that guarantee pipeline-level atomicity. We report early results from a lightweight formal transaction model and discuss future work motivated by counterexamples.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.