2602.11678v1 Feb 12, 2026 cs.AI

픽셀을 넘어서: 신뢰할 수 있는 도면 감사를 위한 벡터-그래프 변환

Beyond Pixels: Vector-to-Graph Transformation for Reliable Schematic Auditing

Zhou Zhou
Zhou Zhou
Citations: 0
h-index: 0
Xia Hua
Xia Hua
Citations: 0
h-index: 0
Chengwei Ma
Chengwei Ma
Citations: 0
h-index: 0
Zhen Tian
Zhen Tian
Citations: 0
h-index: 0
Xiaowei Zhu
Xiaowei Zhu
Citations: 12
h-index: 1
Si Shi
Si Shi
Citations: 0
h-index: 0
F. Yu
F. Yu
Citations: 0
h-index: 0
Zhixiang Xu
Zhixiang Xu
Citations: 45
h-index: 5

멀티모달 대형 언어 모델(MLLM)은 시각적 이해 분야에서 놀라운 발전을 보여주었으나, '구조적 맹점(structural blindness)'이라는 치명적인 한계를 가지고 있다. 최첨단 모델들조차 픽셀 기반 패러다임이 추론에 필수적인 벡터로 정의된 관계를 배제하기 때문에, 엔지니어링 도면의 위상(topology)과 기호 논리를 파악하는 데 실패한다. 이를 극복하기 위해, 우리는 CAD 도면을 속성 그래프(property graph)로 변환하는 벡터-그래프(V2G) 파이프라인을 제안한다. 이 그래프에서 노드는 부품을, 엣지(edge)는 연결성을 나타내어 구조적 의존성을 명시화하고 기계적인 감사를 가능하게 한다. 전기 규정 준수 검사를 위한 진단 벤치마크에서 주요 MLLM들이 무작위 추측(chance level) 수준에 머무른 반면, V2G는 모든 오류 범주에 걸쳐 큰 폭의 정확도 향상을 달성했다. 이러한 결과는 픽셀 기반 방법론의 체계적인 불충분성을 드러내며, 구조 인식 표현이 공학 분야 내 멀티모달 AI의 실용적 도입을 위한 신뢰할 수 있는 경로임을 입증한다. 후속 연구를 촉진하기 위해 벤치마크와 구현 코드를 https://github.com/gm-embodied/V2G-Audit 에 공개한다.

Original Abstract

Multimodal Large Language Models (MLLMs) have shown remarkable progress in visual understanding, yet they suffer from a critical limitation: structural blindness. Even state-of-the-art models fail to capture topology and symbolic logic in engineering schematics, as their pixel-driven paradigm discards the explicit vector-defined relations needed for reasoning. To overcome this, we propose a Vector-to-Graph (V2G) pipeline that converts CAD diagrams into property graphs where nodes represent components and edges encode connectivity, making structural dependencies explicit and machine-auditable. On a diagnostic benchmark of electrical compliance checks, V2G yields large accuracy gains across all error categories, while leading MLLMs remain near chance level. These results highlight the systemic inadequacy of pixel-based methods and demonstrate that structure-aware representations provide a reliable path toward practical deployment of multimodal AI in engineering domains. To facilitate further research, we release our benchmark and implementation at https://github.com/gm-embodied/V2G-Audit.

0 Citations
0 Influential
22.5 Altmetric
112.5 Score

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!