단일 토큰으로 픽셀 수준의 장면 이해: 시각적 상태는 무엇이 어디에 있는지에 대한 정보가 필요합니다.
Pixel-level Scene Understanding in One Token: Visual States Need What-is-Where Composition
동적인 환경에서 작동하는 로봇 에이전트는 순차적인 의사 결정을 위해 스트리밍되는 비디오 관찰로부터 시각적 상태 표현을 학습하는 것이 필수적입니다. 최근의 자기 지도 학습 방법은 다양한 시각적 작업에서 뛰어난 일반화 성능을 보여주었지만, 좋은 시각적 상태가 무엇을 포함해야 하는지에 대한 명시적인 해결책을 제시하지 않습니다. 우리는 효과적인 시각적 상태가 장면 요소의 의미적 정보와 공간적 위치를 함께 인코딩하여 '무엇이 어디에 있는지'를 파악함으로써, 관찰 간의 미묘한 변화를 안정적으로 감지할 수 있어야 한다고 주장합니다. 이를 위해, 우리는 글로벌에서 로컬로 재구성하는 목표를 기반으로 하는 시각적 상태 표현 학습 프레임워크인 CroBo를 제안합니다. CroBo는 참조 관찰을 압축하여 작은 토큰으로 표현하고, 이 토큰을 사용하여 희소한 시각적 정보를 기반으로 로컬 영역의 마스크된 부분을 재구성합니다. 이 학습 목표는 병목 토큰이 장면 전체의 의미적 개체, 즉 그들의 정체성, 공간적 위치, 그리고 구성 정보를 미세하게 인코딩하도록 장려합니다. 결과적으로, 학습된 시각적 상태는 장면 요소가 시간에 따라 어떻게 움직이고 상호 작용하는지를 보여주며, 순차적인 의사 결정을 지원합니다. 우리는 다양한 시각 기반 로봇 정책 학습 벤치마크에서 CroBo를 평가했으며, 최첨단 성능을 달성했습니다. 재구성 분석 및 지각적 일관성 실험은 학습된 표현이 픽셀 수준의 장면 구성을 유지하고 관찰 간에 '무엇이 어디로 이동하는지'를 인코딩한다는 것을 추가로 보여줍니다.
For robotic agents operating in dynamic environments, learning visual state representations from streaming video observations is essential for sequential decision making. Recent self-supervised learning methods have shown strong transferability across vision tasks, but they do not explicitly address what a good visual state should encode. We argue that effective visual states must capture what-is-where by jointly encoding the semantic identities of scene elements and their spatial locations, enabling reliable detection of subtle dynamics across observations. To this end, we propose CroBo, a visual state representation learning framework based on a global-to-local reconstruction objective. Given a reference observation compressed into a compact bottleneck token, CroBo learns to reconstruct heavily masked patches in a local target crop from sparse visible cues, using the global bottleneck token as context. This learning objective encourages the bottleneck token to encode a fine-grained representation of scene-wide semantic entities, including their identities, spatial locations, and configurations. As a result, the learned visual states reveal how scene elements move and interact over time, supporting sequential decision making. We evaluate CroBo on diverse vision-based robot policy learning benchmarks, where it achieves state-of-the-art performance. Reconstruction analyses and perceptual straightness experiments further show that the learned representations preserve pixel-level scene composition and encode what-moves-where across observations.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.