2604.18468v1 Apr 20, 2026 cs.CV

자산 수집기: 자율 주행 로그에서 3D 자산을 추출하여 시뮬레이션에 활용

Asset Harvester: Extracting 3D Assets from Autonomous Driving Logs for Simulation

Zan Gojcic
Zan Gojcic
Citations: 4,260
h-index: 23
Haithem Turki
Haithem Turki
Citations: 1,102
h-index: 10
Yuxuan Zhang
Yuxuan Zhang
Citations: 663
h-index: 3
Kangxue Yin
Kangxue Yin
Citations: 104
h-index: 1
Tianshi Cao
Tianshi Cao
Citations: 350
h-index: 7
Jiahui Huang
Jiahui Huang
Citations: 1,389
h-index: 12
Shikhar Solanki
Shikhar Solanki
Citations: 0
h-index: 0
Haotian Zhang
Haotian Zhang
Citations: 73
h-index: 4
Muxingzi Li
Muxingzi Li
Citations: 254
h-index: 6
Yue Zhu
Yue Zhu
Citations: 3
h-index: 1
Sanja Fidler
Sanja Fidler
Citations: 746
h-index: 13
Jiawei Ren
Jiawei Ren
Citations: 90
h-index: 2
J. Seo
J. Seo
Citations: 0
h-index: 0
Mingfei Guo
Mingfei Guo
Citations: 20
h-index: 2
Sipeng Zhang
Sipeng Zhang
Citations: 58
h-index: 5

폐쇄 루프 시뮬레이션은 자율 주행차(AV) 개발의 핵심 요소로서, 실제 환경에 배포하기 전에 확장 가능한 테스트, 훈련 및 안전 검증을 가능하게 합니다. 신경망 기반 장면 복원은 주행 로그를 상호 작용 가능한 3D 환경으로 변환하지만, 에이전트 조작 및 광범위한 시점에서의 새로운 뷰 생성을 위해 필요한 완전한 3D 객체 자산을 생성하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 자산 수집기(Asset Harvester)를 제안합니다. 이는 이미지에서 3D 모델을 생성하는 방법과, 실제 주행 로그에서 얻은 희소한 객체 정보를 완전하고 시뮬레이션에 적합한 자산으로 변환하는 엔드 투 엔드 파이프라인입니다. 우리는 단일 모델 구성 요소에 의존하는 대신, 실제 AV 데이터를 위한 시스템 수준 설계를 개발했습니다. 이 설계는 객체 중심 훈련 데이터의 대규모 큐레이션, 다양한 센서에서 얻은 데이터에 대한 기하학적 정보를 고려한 전처리, 그리고 희소 시점에서 얻은 다중 뷰 생성과 3D 가우시안 리프팅을 결합하는 강력한 훈련 방법을 포함합니다. 이 시스템 내에서 SparseViewDiT는 제한된 시점 및 기타 실제 데이터 문제를 해결하기 위해 특별히 설계되었습니다. 이와 함께 하이브리드 데이터 큐레이션, 증강 및 자기 증류 기술을 사용하여 희소한 AV 객체 정보를 재사용 가능한 3D 자산으로 확장 가능하게 변환할 수 있습니다.

Original Abstract

Closed-loop simulation is a core component of autonomous vehicle (AV) development, enabling scalable testing, training, and safety validation before real-world deployment. Neural scene reconstruction converts driving logs into interactive 3D environments for simulation, but it does not produce complete 3D object assets required for agent manipulation and large-viewpoint novel-view synthesis. To address this challenge, we present Asset Harvester, an image-to-3D model and end-to-end pipeline that converts sparse, in-the-wild object observations from real driving logs into complete, simulation-ready assets. Rather than relying on a single model component, we developed a system-level design for real-world AV data that combines large-scale curation of object-centric training tuples, geometry-aware preprocessing across heterogeneous sensors, and a robust training recipe that couples sparse-view-conditioned multiview generation with 3D Gaussian lifting. Within this system, SparseViewDiT is explicitly designed to address limited-angle views and other real-world data challenges. Together with hybrid data curation, augmentation, and self-distillation, this system enables scalable conversion of sparse AV object observations into reusable 3D assets.

0 Citations
0 Influential
11.5 Altmetric
57.5 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!