DiagramNet: 비표준 시스템 레벨 다이어그램에 대한 엔드투엔드 인식 프레임워크 및 데이터셋
DiagramNet: An End-to-End Recognition Framework and Dataset for Non-Standard System-Level Diagrams
시스템 레벨 다이어그램은 칩 설계의 아키텍처 청사진을 담고 있으며, 모듈 기능, 데이터 흐름 및 인터페이스 프로토콜을 명시합니다. 그러나 표준화되지 않은 기호와 구조화된 학습 데이터의 부족은 기존의 멀티모달 대규모 언어 모델(MLLM)이 이러한 다이어그램을 인식하는 데 어려움을 겪게 합니다. 이러한 격차를 해소하기 위해, 시스템 레벨 다이어그램을 위한 최초의 멀티모달 데이터셋인 DiagramNet을 소개합니다. DiagramNet은 10,977개의 연결 어노테이션과 15,515개의 체인 오브 씽킹 질의응답 쌍을 포함하며, 목록 생성, 위치 파악, 연결 및 회로 질의응답의 네 가지 작업에 걸쳐 구성되어 있습니다. 이 데이터셋을 기반으로, 우리는 복잡한 시각적 추론을 인지, 추론 및 지식 단계로 분해하는 분리된 멀티 에이전트 워크플로우와 함께 점진적인 학습 파이프라인을 제안합니다. DiagramNet 벤치마크에서, 제안된 워크플로우와 함께 30억 개의 파라미터를 가진 모델을 통합한 결과, 2025 EDA Elite Challenge의 우승 모델을 능가하고 GPT-5, Claude-Sonnet-4 및 Gemini-2.5-Pro보다 엔드투엔드 평가에서 2배 이상 우수한 성능을 보였습니다. 주목할 만한 점은, 이 워크플로우가 모델에 국한되지 않고, Gemini-2.5-Pro의 작업 1 성능을 128.7배, GPT-5의 성능을 12.4배 향상시킨다는 것입니다. 또한, 60개의 이미지만을 사용하여 디텍터 적응을 수행함으로써, 이 방법은 AMSBench로 효과적으로 전이되어, GPT-5 및 Claude-Sonnet-4와 동등한 수준의 제로샷 연결 추론 성능을 달성했으며, AMS 최첨단 방법인 Netlistify보다 우수한 성능을 보였습니다.
System-level diagrams encode the architectural blueprint of chip design, specifying module functions, dataflows, and interface protocols. However, non-standardized symbols and the scarcity of structured training data hinder existing multimodal large language models (MLLMs) from recognizing these diagrams. To address this gap, we introduce DiagramNet, the first multimodal dataset for system-level diagrams, comprising 10,977 connection annotations and 15,515 chain-of-thought QA pairs across four tasks: Listing, Localization, Connection, and Circuit QA. Building on this dataset, we propose a progressive training pipeline together with a decoupled multi-agent workflow that decomposes complex visual reasoning into Perception, Reasoning, and Knowledge stages. On the DiagramNet benchmark, integrating our 3B-parameter model with the proposed workflow surpasses the 2025 EDA Elite Challenge winner and outperforms GPT-5, Claude-Sonnet-4, and Gemini-2.5-Pro by over 2x in end-to-end evaluation. Notably, the workflow generalizes beyond our model, boosting Task 1 performance by 128.7x for Gemini-2.5-Pro and 12.4x for GPT-5. Furthermore, with only 60 images for detector adaptation, the method transfers effectively to AMSBench, achieving zero-shot connectivity reasoning on par with GPT-5 and Claude-Sonnet-4 while surpassing the AMS state-of-the-art method Netlistify.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.
Log in to request an AI analysis.