픽셀을 넘어서: 신뢰할 수 있는 도면 감사를 위한 벡터-그래프 변환
Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing
멀티모달 대형 언어 모델(MLLM)은 시각적 이해 분야에서 놀라운 발전을 보여주었으나, '구조적 맹점(structural blindness)'이라는 치명적인 한계를 가지고 있다. 최첨단 모델들조차 픽셀 기반 패러다임이 추론에 필수적인 벡터로 정의된 관계를 배제하기 때문에, 엔지니어링 도면의 위상(topology)과 기호 논리를 파악하는 데 실패한다. 이를 극복하기 위해, 우리는 CAD 도면을 속성 그래프(property graph)로 변환하는 벡터-그래프(V2G) 파이프라인을 제안한다. 이 그래프에서 노드는 부품을, 엣지(edge)는 연결성을 나타내어 구조적 의존성을 명시화하고 기계적인 감사를 가능하게 한다. 전기 규정 준수 검사를 위한 진단 벤치마크에서 주요 MLLM들이 무작위 추측(chance level) 수준에 머무른 반면, V2G는 모든 오류 범주에 걸쳐 큰 폭의 정확도 향상을 달성했다. 이러한 결과는 픽셀 기반 방법론의 체계적인 불충분성을 드러내며, 구조 인식 표현이 공학 분야 내 멀티모달 AI의 실용적 도입을 위한 신뢰할 수 있는 경로임을 입증한다. 후속 연구를 촉진하기 위해 벤치마크와 구현 코드를 https://github.com/gm-embodied/V2G-Audit 에 공개한다.
Multimodal Large Language Models (MLLMs) have shown remarkable progress in visual understanding, yet they suffer from a critical limitation: structural blindness. Even state-of-the-art models fail to capture topology and symbolic logic in engineering schematics, as their pixel-driven paradigm discards the explicit vector-defined relations needed for reasoning. To overcome this, we propose a Vector-to-Graph (V2G) pipeline that converts CAD diagrams into property graphs where nodes represent components and edges encode connectivity, making structural dependencies explicit and machine-auditable. On a diagnostic benchmark of electrical compliance checks, V2G yields large accuracy gains across all error categories, while leading MLLMs remain near chance level. These results highlight the systemic inadequacy of pixel-based methods and demonstrate that structure-aware representations provide a reliable path toward practical deployment of multimodal AI in engineering domains. To facilitate further research, we release our benchmark and implementation at https://github.com/gm-embodied/V2G-Audit.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.