2601.09773v1 Jan 14, 2026 cs.AR

아키텍처 및 연결 최적화를 통한 LUT 기반 딥 뉴럴 네트워크 추론 성능 향상

Enhancing LUT-based Deep Neural Networks Inference through Architecture and Connectivity Optimization

Binglei Lou
Binglei Lou
Citations: 90
h-index: 6
Ruilin Wu
Ruilin Wu
Citations: 2
h-index: 1
Philip Leong
Philip Leong
Citations: 2
h-index: 1

FPGA와 같은 자원 제약적인 엣지 장치에 딥 뉴럴 네트워크(DNN)를 배포하려면, 높은 정확도를 유지하면서 지연 시간, 전력 소비 및 하드웨어 자원 사용량 간의 균형을 신중하게 고려해야 합니다. 기존의 룩업 테이블(LUT) 기반 DNN, 즉 LogicNets, PolyLUT 및 NeuraLUT는 LUT 크기의 기하급수적인 증가와 비효율적인 희소 연결이라는 두 가지 중요한 과제를 안고 있습니다. 본 논문에서는 이러한 과제를 해결하기 위한 포괄적인 프레임워크인 SparseLUT를 제시합니다. 첫째, 우리는 여러 PolyLUT 서브 뉴런을 어더를 통해 집계하는 아키텍처 개선을 제안합니다. 이를 통해 LUT 사용량을 2.0배에서 13.9배까지 줄이고, 추론 지연 시간을 1.2배에서 1.6배까지 낮추면서도, 유사한 정확도를 유지합니다. 이러한 기반을 바탕으로, 우리는 덜 중요한 입력 값을 선택적으로 제거하고, 더 효과적인 입력 값을 전략적으로 재성장시키는 뉴런 연결을 최적화하는 비탐욕적 학습 알고리즘을 추가로 소개합니다. 이 학습 최적화는 추가적인 면적 및 지연 시간 오버헤드를 발생시키지 않으면서, MNIST 데이터셋에서 최대 2.13%, Jet Substructure Classification 데이터셋에서 최대 0.94%의 정확도 향상을 기존의 LUT-DNN 방식에 비해 달성했습니다.

Original Abstract

Deploying deep neural networks (DNNs) on resource-constrained edge devices such as FPGAs requires a careful balance among latency, power, and hardware resource usage, while maintaining high accuracy. Existing Lookup Table (LUT)-based DNNs -- such as LogicNets, PolyLUT, and NeuraLUT -- face two critical challenges: the exponential growth of LUT size and inefficient random sparse connectivity. This paper presents SparseLUT, a comprehensive framework that addresses these challenges through two orthogonal optimizations. First, we propose an architectural enhancement that aggregates multiple PolyLUT sub-neurons via an adder, significantly reducing LUT consumption by 2.0x-13.9x and lowering inference latency by 1.2x-1.6x, all while maintaining comparable accuracy. Building upon this foundation, we further introduce a non-greedy training algorithm that optimizes neuron connectivity by selectively pruning less significant inputs and strategically regrowing more effective ones. This training optimization, which incurs no additional area and latency overhead, delivers consistent accuracy improvements across benchmarks -- achieving up to a 2.13% gain on MNIST and 0.94% on Jet Substructure Classification compared to existing LUT-DNN approaches.

0 Citations
0 Influential
3 Altmetric
15.0 Score
Original PDF

No Analysis Report Yet

This paper hasn't been analyzed by Gemini yet.

Log in to request an AI analysis.

댓글

댓글을 작성하려면 로그인하세요.

아직 댓글이 없습니다. 첫 번째 댓글을 남겨보세요!