양자화의 함정: 멀티 홉 추론에서의 선형 스케일링 법칙 붕괴
The Quantization Trap: Breaking Linear Scaling Laws in Multi-Hop Reasoning
신경망 스케일링 법칙은 수치 정밀도를 줄이면 계산 효율성과 에너지 프로파일이 선형적으로 개선된다(에너지는 비트 수에 비례)는 AI 발전을 위한 예측 가능한 공식을 제공합니다. 본 논문에서는 이러한 스케일링 법칙이 멀티 홉 추론의 맥락에서는 성립하지 않음을 입증합니다. 우리는 정밀도를 16비트에서 8/4비트로 줄이는 것이 역설적으로 추론 정확도를 떨어뜨리면서 순 에너지 소비를 오히려 증가시키는 '양자화의 함정'을 밝혀냅니다. 우리는 이러한 실패의 원인을 하드웨어 캐스팅 오버헤드, 즉 순차적 추론 체인에서 지배적인 병목이 되는 역양자화 커널의 숨겨진 지연 시간 비용과 순차적 에너지 상각 실패로 규명하는 엄밀한 이론적 분석을 제공합니다. 결과적으로 실제 환경에서 스케일링 법칙의 붕괴는 불가피합니다. 우리의 연구 결과는 업계의 "작을수록 좋다"는 휴리스틱이 복잡한 추론 작업에 있어서는 수학적으로 역효과를 낳는다는 것을 시사합니다.
Neural scaling laws provide a predictable recipe for AI advancement: reducing numerical precision should linearly improve computational efficiency and energy profile (E proportional to bits). In this paper, we demonstrate that this scaling law breaks in the context of multi-hop reasoning. We reveal a 'quantization trap' where reducing precision from 16-bit to 8/4-bit paradoxically increases more net energy consumption while degrading reasoning accuracy. We provide a rigorous theoretical decomposition that attributes this failure to hardware casting overhead, the hidden latency cost of dequantization kernels, which becomes a dominant bottleneck in sequential reasoning chains, as well as to a sequential energy amortization failure. As a result, scaling law breaking is unavoidable in practice. Our findings suggest that the industry's "smaller-is-better" heuristic is mathematically counterproductive for complex reasoning tasks.
No Analysis Report Yet
This paper hasn't been analyzed by Gemini yet.